Le grand pare-feu GPT?
Cette collection est une liste organisée de sites Web qui utilisent le fichier robots.txt pour restreindre l'accès aux agents d'IA, aux robots de l'IA et aux GPT.
Il sera mis à jour mensuellement.

Agents utilisateur et robots.txt
Le fichier robots.txt permet aux propriétaires de sites Web de contrôler et de limiter l'accès de ces agents utilisateur à certaines zones de leur site Web en spécifiant les règles et directives.
# OpenAI’s web crawler: GPT3.5, GPT4, ChatGPT
# https://platform.openai.com/docs/bots
User-agent: GPTBot
# ChatGPT plugins
# https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
# OpenAI Search bot
# https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
# Google's web crawler: Bard, VertexAI, Gemini
# https://blog.google/technology/ai/an-update-on-web-publisher-controls/
User-agent: Google-Extended
# Apple's web crawler, dedicated to GenAI projects
# https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
# Claude
User-agent: anthropic-ai
# Claude Bot
User-agent: ClaudeBot
# Claude web
User-agent: Claude-Web
# Cohere
User-agent: Cohere-ai
# Perplexity
User-agent: PerplexityBot
# Common Crawl
# https://commoncrawl.org/ccbot
User-agent: CCBot
# Omglibot: webz.io
# https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
User-agent: Omgilibot
User-agent: Omgili
User-agent: Webzio-Extended
# Facebook: Llama
# https://developers.facebook.com/docs/sharing/bot/
User-agent: FacebookBot
# ByteDance: Duobao
User-agent: Bytespider
# Censorship area
Disallow: /
Clause de non-responsabilité
Veuillez noter que cette liste de blocs est destinée à des fins d'information uniquement. Malgré le nom du projet provocant, il est bon d'interdire à l'exploration du Web et de protéger la propriété du contenu.
Mise à jour 2024-05
Catégorie: Appuyez sur
- Numérisé: 66
- ✅ Passage: 38%
- ? Bloqué: 62%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Les temps | ?? | ? |
| BBC | ?? | ? |
| Le gardien | ?? | ? |
| The Economist | ?? | ? |
| Temps financier | ?? | ? |
| L'indépendant | ?? | ✅ |
| Le télégraphe | ?? | ? |
| Courrier quotidien | ?? | ? |
| Le soleil | ?? | ? |
| Miroir quotidien | ?? | ? |
| Daily Express | ?? | ? |
| Washington Post | ?? | ? |
| USA aujourd'hui | ?? | ✅ |
| Fox News | ?? | ✅ |
| ABC News | ?? | ? |
| NBC News | ?? | ? |
| CBS News | ?? | ? |
| Los Angeles Times | ?? | ? |
| Tribune de Chicago | ?? | ✅ |
| New York Post | ?? | ? |
| New York Daily News | ?? | ✅ |
| Le New Yorker | ?? | ? |
| Vice | ?? | ✅ |
| New York Times | ?? | ? |
| Wall Street Journal | ?? | ? |
| CNN | ?? | ? |
| El País | ?? | ✅ |
| Süddeutsche Zeitung | ?? | ? |
| Der Spiegel | ?? | ? |
| Corriere della Sera | ?? | ? |
| La Répubblica | ?? | ? |
| Le Monde | ?? | ? |
| Libération | ?? | ? |
| Le Figaro | ?? | ? |
| 20 minutes | ?? | ? |
| OUEST FRANCE | ?? | ? |
| Le Parisien | ?? | ? |
| L'équipe | ?? | ? |
| Le point | ?? | ? |
| Marianne | ?? | ? |
| Observateur Le Nouvel | ?? | ? |
| L'Express | ?? | ? |
| France 24 | ?? | ? |
| Bfmtv | ?? | ? |
| Cnews | ?? | ✅ |
| Diplomatique du Monde | ?? | ✅ |
| Médiat | ?? | ? |
| Courrier International | ?? | ? |
| Brutation | ?? | ✅ |
| Imdb | ? | ✅ |
| Allocine | ?? | ✅ |
| Fakt | ?? | ✅ |
| Super express | ?? | ✅ |
| Gazeta Wyborcza | ?? | ? |
| Rzeczpospolita | ?? | ✅ |
| Dziennik Gazeta Prawna | ?? | ✅ |
| Polityka | ?? | ✅ |
| Newsweek Polska | ?? | ✅ |
| Gość niedzielny | ?? | ✅ |
| Sieci | ?? | ✅ |
| Faire rzeczy | ?? | ✅ |
| Twój Styl | ?? | ✅ |
| Zwierciadło | ?? | ✅ |
| Wysokie obcasy extra | ?? | ? |
| Pani | ?? | ✅ |
| Elle | ?? | ✅ |
Catégorie: vidéo à la demande
- Numérisé: 9
- ✅ Passage: 56%
- ? Bloqué: 44%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Vidéo Prime | ? | ✅ |
| Netflix | ? | ✅ |
| Disney + | ? | ? |
| Hulu | ?? | ? |
| HBO Max | ?? | ✅ |
| Canal + | ?? | ? |
| Francetv | ?? | ✅ |
| TF1 | ?? | ? |
| Play | ?? | ✅ |
Catégorie: musique
- Numérisé: 6
- ✅ Passage: 67%
- ? Bloqué: 33%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Soundcloud | ? | ? |
| Youtube | ? | ✅ |
| Pomme de musique | ? | ✅ |
| Spotify | ? | ? |
| Deezer | ?? | ✅ |
| Dernier | ?? | ✅ |
Catégorie: podcast
- Numérisé: 8
- ✅ Passage: 75%
- ? Bloqué: 25%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Podcasts Google | ? | ✅ |
| Podcast Apple | ? | ✅ |
| Podcaster Spotify | ? | ? |
| Buzzprout | ? | ✅ |
| Podbean | ? | ✅ |
| Acaste | ?? | ✅ |
| Audiomeens | ?? | ✅ |
| Radio France | ?? | ? |
Catégorie: x
- Numérisé: 6
- ✅ Passage: 67%
- ? Bloqué: 33%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Pornhub | ? | ? |
| Youporn | ? | ? |
| Xnxx | ? | ✅ |
| Xvideos | ? | ✅ |
| Xhamster | ? | ✅ |
| Onlyfan | ? | ✅ |
Catégorie: religion
- Numérisé: 5
- ✅ Passage: 100%
- ? Bloqué: 0%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Bible | ?? | ✅ |
| Passerelle biblique | ?? | ✅ |
| Témoins de Jéhovah | ?? | ✅ |
| Vatican | ?? | ✅ |
| Islamweb | ? | ✅ |
Catégorie: médias sociaux
- Numérisé: 13
- ✅ Passing: 31%
- ? Bloqué: 62%
- ❓ Inconnu: 8%
| Nom | Pays | Statut |
|---|
| Facebook | ? | ? |
| Instagram | ? | ? |
| Reddit | ? | ✅ |
| Actualités des pirates | ? | ❓ |
| Homard | ? | ? |
| Pinterest | ? | ? |
| Tiktok | ? | ✅ |
| Gazouillement | ? | ? |
| Liendin | ? | ✅ |
| Quora | ? | ? |
| Vk | ?? | ✅ |
| Tripadvisor | ? | ? |
| Japper | ? | ? |
Catégorie: artiste
- Numérisé: 42
- ✅ Passage: 76%
- ? Bloqué: 19%
- ❓ inconnu: 5%
| Nom | Pays | Statut |
|---|
| Michael Jackson | ?? | ✅ |
| Madone | ?? | ✅ |
| Taylor Swift | ?? | ? |
| Rihanna | ?? | ✅ |
| Bruno Mars | ?? | ✅ |
| Justin Bieber | ?? | ? |
| Beyoncé | ?? | ✅ |
| Katy Perry | ?? | ? |
| Lady Gaga | ?? | ? |
| Dure | ?? | ✅ |
| Dimitri Vegas et comme Mike | ?? | ✅ |
| Kanye West | ?? | ❓ |
| Haricots à oeil noir | ?? | ✅ |
| Imagine Dragons | ?? | ✅ |
| Vingt un pilotes | ?? | ✅ |
| Marron 5 | ?? | ? |
| Selena Gomez | ?? | ? |
| Huissier | ?? | ? |
| Stromae | ?? | ✅ |
| Aya Nakamura | ?? | ❓ |
| Soprano | ?? | ✅ |
| Johnny Hallyday | ?? | ✅ |
| Grand Corps Malade | ?? | ✅ |
| Zaho | ?? | ✅ |
| Jean Louis Aubert | ?? | ✅ |
| Camelia Jordana | ?? | ✅ |
| Indochine | ?? | ✅ |
| Tryo | ?? | ✅ |
| David Guetta | ?? | ✅ |
| MC Solaar | ?? | ✅ |
| Zaze | ?? | ✅ |
| Christine et les reines | ?? | ✅ |
| Boulevard des Airs | ?? | ✅ |
| Calogero | ?? | ✅ |
| Hoshi | ?? | ✅ |
| Avicii | ?? | ✅ |
| Adele | ?? | ✅ |
| Calvin Harris | ?? | ✅ |
| Ed Sheeran | ?? | ✅ |
| Singes arctiques | ?? | ✅ |
| Cohole | ?? | ✅ |
| The Weeknd | ?? | ? |
Catégorie: Gov
- Numérisé: 3
- ✅ Passage: 100%
- ? Bloqué: 0%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Maison Blanche | ?? | ✅ |
| ElySée | ?? | ✅ |
| Europe | ?? | ✅ |
Catégorie: science
- Numérisé: 28
- ✅ Passage: 82%
- ? Bloqué: 18%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Google Scholar | ? | ✅ |
| Science | ? | ✅ |
| Publier | ? | ✅ |
| Scopus | ?? | ? |
| Elsevier | ?? | ? |
| ScienceDirect | ?? | ? |
| Mdpi | ?? | ✅ |
| Springer | ?? | ✅ |
| Wiley | ?? | ✅ |
| American Chemical Society | ?? | ✅ |
| Pubment | ?? | ✅ |
| Universitaire | ?? | ✅ |
| Science | ?? | ? |
| Arxiv | ?? | ✅ |
| American Physical Society | ?? | ✅ |
| Menteur | ?? | ✅ |
| Nature | ?? | ? |
| Taylor & Francis | ?? | ✅ |
| Oxford University Press | ?? | ✅ |
| Cambridge University Press | ?? | ✅ |
| Société royale de chimie | ?? | ✅ |
| Researchgate | ?? | ✅ |
| BNF | ?? | ✅ |
| Cairn | ?? | ✅ |
| Persan | ?? | ✅ |
| Gallica | ?? | ✅ |
| Hal | ?? | ✅ |
| Ouverture | ?? | ✅ |
Catégorie: Dev
- Numérisé: 3
- ✅ Passage: 67%
- ? Bloqué: 33%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Github | ? | ✅ |
| Gitlab | ? | ✅ |
| Débordement de pile | ? | ? |
Catégorie: Autre contenu
- Numérisé: 19
- ✅ Passage: 74%
- ? Bloqué: 26%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| Wikipedia | ? | ✅ |
| Moyen | ? | ? |
| Se soutenir | ? | ✅ |
| Rampe | ? | ✅ |
| Archives Internet | ? | ✅ |
| Wayback Machine | ? | ✅ |
| Notion | ? | ✅ |
| Météo | ?? | ? |
| Accuweather | ?? | ✅ |
| Météo France | ?? | ✅ |
| Images getty | ?? | ✅ |
| Décrocheur | ?? | ? |
| Adobe Stock | ?? | ? |
| Désactiver | ?? | ? |
| Pexels | ?? | ✅ |
| Pixabay | ?? | ✅ |
| Flickr | ?? | ✅ |
| 500px | ?? | ✅ |
| Giphère | ?? | ✅ |
Catégorie: Autre
- Numérisé: 1
- ✅ Passage: 100%
- ? Bloqué: 0%
- ❓ inconnu: 0%
| Nom | Pays | Statut |
|---|
| En effet | ?? | ✅ |
Liste WTF
AKA: Comprennent-ils leur modèle commercial? ?
| Nom | Statut |
|---|
| Images getty | ✅ |
| Pexels | ✅ |
| 500px | ✅ |
Liste de honte
AKA: Ceci est un intérêt public. ?
| Nom | Statut |
|---|
| Moyen | ? |
| Quora | ? |
| Elsevier | ? |
| Scopus | ? |
| Science | ? |
| ScienceDirect | ? |
| Nature | ? |
? Contributif
À la recherche de contributions:
- Enrichir la base de données du site Web
- Sites Web chinois
- Nouvelles catégories
Veuillez ouvrir des problèmes!
- Ping Me sur Twitter @Samuelbert (DMS, Mentions, peu importe :))
- Fourk le projet
- Réparer les problèmes ouverts ou demander de nouvelles fonctionnalités
N'hésitez pas;)
Construire
python -m venv venv
source ./venv/bin/activate
pip3 install -r requirements.txt
python3 scrape.py
# then copy the last version into readme
? Contributeurs
? Montrez votre soutien
Donnez un ️ si ce projet vous a aidé!
Licence
Copyright © 2024 Samuel Berthe.
Ce projet est sous licence MIT.