Die große GPT -Firewall?
Diese Sammlung ist eine kuratierte Liste von Websites, auf denen die Datei robots.txt verwendet wird, um den Zugriff auf KI -Agenten, KI -Crawler und GPTs einzuschränken.
Es wird monatlich aktualisiert.

Benutzeragenten & Robots.txt
Mit der Datei robots.txt können Website -Eigentümer den Zugriff dieser Benutzeragenten auf bestimmte Bereiche ihrer Website steuern und beschränken, indem Regeln und Anweisungen angegeben werden.
# OpenAI’s web crawler: GPT3.5, GPT4, ChatGPT
# https://platform.openai.com/docs/bots
User-agent: GPTBot
# ChatGPT plugins
# https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
# OpenAI Search bot
# https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
# Google's web crawler: Bard, VertexAI, Gemini
# https://blog.google/technology/ai/an-update-on-web-publisher-controls/
User-agent: Google-Extended
# Apple's web crawler, dedicated to GenAI projects
# https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
# Claude
User-agent: anthropic-ai
# Claude Bot
User-agent: ClaudeBot
# Claude web
User-agent: Claude-Web
# Cohere
User-agent: Cohere-ai
# Perplexity
User-agent: PerplexityBot
# Common Crawl
# https://commoncrawl.org/ccbot
User-agent: CCBot
# Omglibot: webz.io
# https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
User-agent: Omgilibot
User-agent: Omgili
User-agent: Webzio-Extended
# Facebook: Llama
# https://developers.facebook.com/docs/sharing/bot/
User-agent: FacebookBot
# ByteDance: Duobao
User-agent: Bytespider
# Censorship area
Disallow: /
Haftungsausschluss
Bitte beachten Sie, dass diese Blockliste nur zu Informationszwecken bestimmt ist. Trotz des provozierenden Projektnamens ist es in Ordnung, Web -Crawling zu verbieten und das Eigentum inhaltlich zu schützen.
2024-05 Update
Kategorie: Drücken Sie
- Gescannt: 66
- ✅ Pass: 38 %
- ? Blockiert: 62 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Die Zeiten | ? | ? |
| BBC | ? | ? |
| Der Wächter | ? | ? |
| Der Ökonom | ? | ? |
| Finanzzeiten | ? | ? |
| Der Unabhängige | ? | ✅ |
| Der Telegraph | ? | ? |
| Daily Mail | ? | ? |
| Die Sonne | ? | ? |
| Täglicher Spiegel | ? | ? |
| Täglicher Express | ? | ? |
| Washington Post | ? | ? |
| USA Today | ? | ✅ |
| Fox News | ? | ✅ |
| ABC News | ? | ? |
| NBC News | ? | ? |
| CBS News | ? | ? |
| Los Angeles Times | ? | ? |
| Chicago Tribune | ? | ✅ |
| New York Post | ? | ? |
| New York Daily News | ? | ✅ |
| Der New Yorker | ? | ? |
| Vize | ? | ✅ |
| New York Times | ? | ? |
| Wall Street Journal | ? | ? |
| CNN | ? | ? |
| El País | ? | ✅ |
| Süddeutsche Zeitung | ? | ? |
| Der Spiegel | ? | ? |
| Corriere della sera | ? | ? |
| La Repubblica | ? | ? |
| Le Monde | ? | ? |
| Befreiung | ? | ? |
| Le Figaro | ? | ? |
| 20 Minuten | ? | ? |
| Ouest Frankreich | ? | ? |
| Le Parisien | ? | ? |
| L'equipe | ? | ? |
| Le Point | ? | ? |
| Marianne | ? | ? |
| Le Nouvel Beobachtung | ? | ? |
| L'exes | ? | ? |
| Frankreich 24 | ? | ? |
| Bfmtv | ? | ? |
| Cnews | ? | ✅ |
| Le Monde Diplomatique | ? | ✅ |
| Medienpartner | ? | ? |
| Courrier International | ? | ? |
| Brut | ? | ✅ |
| IMDB | ? | ✅ |
| Allocine | ? | ✅ |
| Fakt | ? | ✅ |
| Super Express | ? | ✅ |
| Gazeta Wyborcza | ? | ? |
| Rzeczpospolita | ? | ✅ |
| DZiennik Gazeta Prawna | ? | ✅ |
| Polityka | ? | ✅ |
| Newsweek Polska | ? | ✅ |
| Gość Niedzielny | ? | ✅ |
| Sici | ? | ✅ |
| Rzeczy | ? | ✅ |
| Twój Styl | ? | ✅ |
| Zwierciadło | ? | ✅ |
| Wysokie Obcasy Extra | ? | ? |
| Pani | ? | ✅ |
| Elle | ? | ✅ |
Kategorie: Video on Demand
- Gescannt: 9
- ✅ Pass: 56 %
- ? Blockiert: 44 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Prime Video | ? | ✅ |
| Netflix | ? | ✅ |
| Disney+ | ? | ? |
| Hulu | ? | ? |
| HBO Max | ? | ✅ |
| Kanal+ | ? | ? |
| Francetv | ? | ✅ |
| Tf1 | ? | ? |
| 6Play | ? | ✅ |
Kategorie: Musik
- Gescannt: 6
- ✅ Pass: 67 %
- ? Blockiert: 33 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Soundcloud | ? | ? |
| YouTube | ? | ✅ |
| Apfelmusik | ? | ✅ |
| Spotify | ? | ? |
| Deezer | ? | ✅ |
| Lastfm | ? | ✅ |
Kategorie: Podcast
- Gescannt: 8
- ✅ Pass: 75 %
- ? Blockiert: 25 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Google Podcasts | ? | ✅ |
| Apple Podcast | ? | ✅ |
| Spotify Podcaster | ? | ? |
| Buzzsprout | ? | ✅ |
| Podbean | ? | ✅ |
| Acast | ? | ✅ |
| Audiomäer | ? | ✅ |
| Radio Frankreich | ? | ? |
Kategorie: x
- Gescannt: 6
- ✅ Pass: 67 %
- ? Blockiert: 33 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Pornhub | ? | ? |
| Youporn | ? | ? |
| Xnxx | ? | ✅ |
| Xvideos | ? | ✅ |
| Xhamster | ? | ✅ |
| Nurfan | ? | ✅ |
Kategorie: Religion
- Gescannt: 5
- ✅ Pass: 100 %
- ? Blockiert: 0 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Bibel | ? | ✅ |
| Bibel -Tor | ? | ✅ |
| Jehovas Zeugen | ? | ✅ |
| Vatikan | ? | ✅ |
| Islamweb | ? | ✅ |
Kategorie: Social Media
- Gescannt: 13
- ✅ Pass: 31 %
- ? Blockiert: 62 %
- ❓ Unbekannt: 8 %
| Name | Land | Status |
|---|
| Facebook | ? | ? |
| Instagram | ? | ? |
| Reddit | ? | ✅ |
| Hacker News | ? | ❓ |
| Hummer | ? | ? |
| Pinterest | ? | ? |
| Tiktok | ? | ✅ |
| Twitter | ? | ? |
| LinkedIn | ? | ✅ |
| Quora | ? | ? |
| VK | ? | ✅ |
| TripAdvisor | ? | ? |
| Jaulen | ? | ? |
Kategorie: Künstler
- Gescannt: 42
- ✅ Pass: 76 %
- ? Blockiert: 19 %
- ❓ Unbekannt: 5 %
| Name | Land | Status |
|---|
| Michael Jackson | ? | ✅ |
| Madonna | ? | ✅ |
| Taylor Swift | ? | ? |
| Rihanna | ? | ✅ |
| Bruno Mars | ? | ✅ |
| Justin Bieber | ? | ? |
| Beyoncé | ? | ✅ |
| Katy Perry | ? | ? |
| Lady Gaga | ? | ? |
| Hardwell | ? | ✅ |
| Dimitri Vegas & wie Mike | ? | ✅ |
| Kanye West | ? | ❓ |
| Schwarzäugige Erbsen | ? | ✅ |
| Stellen Sie sich Drachen vor | ? | ✅ |
| Einundzwanzig Piloten | ? | ✅ |
| Maroon 5 | ? | ? |
| Selena Gomez | ? | ? |
| Platzanweiser | ? | ? |
| Stromae | ? | ✅ |
| Aya Nakamura | ? | ❓ |
| Sopran | ? | ✅ |
| Johnny Hallyday | ? | ✅ |
| Grand Corps Malade | ? | ✅ |
| Zaho | ? | ✅ |
| Jean Louis Aubert | ? | ✅ |
| Camelia Jordana | ? | ✅ |
| Indochine | ? | ✅ |
| Versuchen Sie | ? | ✅ |
| David Guetta | ? | ✅ |
| MC Solaar | ? | ✅ |
| Zaz | ? | ✅ |
| Christine und die Königinnen | ? | ✅ |
| Boulevard des Airs | ? | ✅ |
| Calogero | ? | ✅ |
| Hoshi | ? | ✅ |
| Avicii | ? | ✅ |
| Adele | ? | ✅ |
| Calvin Harris | ? | ✅ |
| Ed Sheeran | ? | ✅ |
| Arktische Affen | ? | ✅ |
| Coldplay | ? | ✅ |
| Die Woche | ? | ? |
Kategorie: Gov
- Gescannt: 3
- ✅ Pass: 100 %
- ? Blockiert: 0 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Weißes Haus | ? | ✅ |
| Elysée | ? | ✅ |
| Europa | ? | ✅ |
Kategorie: Wissenschaft
- Gescannt: 28
- ✅ Pass: 82 %
- ? Blockiert: 18 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Google Scholar | ? | ✅ |
| Sci-Hub | ? | ✅ |
| Pubpeer | ? | ✅ |
| Scopus | ? | ? |
| Elsevier | ? | ? |
| Sciencedirect | ? | ? |
| MDPI | ? | ✅ |
| Springer | ? | ✅ |
| Wiley | ? | ✅ |
| American Chemical Society | ? | ✅ |
| PubMed | ? | ✅ |
| Akademie | ? | ✅ |
| Wissenschaft | ? | ? |
| Arxiv | ? | ✅ |
| Amerikanische physische Gesellschaft | ? | ✅ |
| Mendeley | ? | ✅ |
| Natur | ? | ? |
| Taylor & Francis | ? | ✅ |
| Oxford University Press | ? | ✅ |
| Cambridge University Press | ? | ✅ |
| Royal Society of Chemistry | ? | ✅ |
| ResearchGate | ? | ✅ |
| Bnf | ? | ✅ |
| Cairn | ? | ✅ |
| Persee | ? | ✅ |
| Gallica | ? | ✅ |
| Hal | ? | ✅ |
| Openedition | ? | ✅ |
Kategorie: Dev
- Gescannt: 3
- ✅ Pass: 67 %
- ? Blockiert: 33 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Github | ? | ✅ |
| Gitlab | ? | ✅ |
| Stapelüberlauf | ? | ? |
Kategorie: Andere Inhalte
- Gescannt: 19
- ✅ Pass: 74 %
- ? Blockiert: 26 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| Wikipedia | ? | ✅ |
| Medium | ? | ? |
| Substanz | ? | ✅ |
| Häufiger Kriechen | ? | ✅ |
| Internetarchiv | ? | ✅ |
| Wayback -Maschine | ? | ✅ |
| Vorstellung | ? | ✅ |
| Wetter | ? | ? |
| Accuweather | ? | ✅ |
| Météo Frankreich | ? | ✅ |
| Getty -Bilder | ? | ✅ |
| Shutterstock | ? | ? |
| Adobe -Aktie | ? | ? |
| Unplash | ? | ? |
| Pexels | ? | ✅ |
| Pixabay | ? | ✅ |
| Flickr | ? | ✅ |
| 500px | ? | ✅ |
| Giphy | ? | ✅ |
Kategorie: Andere
- Gescannt: 1
- ✅ Pass: 100 %
- ? Blockiert: 0 %
- ❓ Unbekannt: 0 %
| Name | Land | Status |
|---|
| In der Tat | ? | ✅ |
WTF -Liste
AKA: Verstehen sie ihr Geschäftsmodell? ?
| Name | Status |
|---|
| Getty -Bilder | ✅ |
| Pexels | ✅ |
| 500px | ✅ |
Schamliste
AKA: Das ist öffentliches Interesse. ?
| Name | Status |
|---|
| Medium | ? |
| Quora | ? |
| Elsevier | ? |
| Scopus | ? |
| Wissenschaft | ? |
| Sciencedirect | ? |
| Natur | ? |
? Beitragen
Auf der Suche nach Beiträgen:
- Datenbank der Website anArchy
- Chinesische Websites
- Neue Kategorien
Bitte öffnen Sie Probleme!
- Ping mich auf Twitter @samuelberthe (DMS, erwähnt, was auch immer :))
- Geben Sie das Projekt auf
- Beheben offener Probleme oder fordern Sie neue Funktionen an
Zögern Sie nicht;)
Bauen
python -m venv venv
source ./venv/bin/activate
pip3 install -r requirements.txt
python3 scrape.py
# then copy the last version into readme
? Mitwirkende
? Zeigen Sie Ihre Unterstützung
Geben Sie ein ️, wenn dieses Projekt Ihnen geholfen hat!
Lizenz
Copyright © 2024 Samuel Berthe.
Dieses Projekt ist MIT lizenziert.