O grande firewall GPT?
Esta coleção é uma lista com curadoria de sites que empregam o arquivo robots.txt para restringir o acesso a agentes de IA, rastreadores de IA e GPTs.
Será atualizado mensalmente.

Agentes de usuário e robots.txt
O arquivo robots.txt permite que os proprietários do site controlem e limitassem o acesso desses agentes de usuários a determinadas áreas de seu site, especificando regras e diretrizes.
# OpenAI’s web crawler: GPT3.5, GPT4, ChatGPT
# https://platform.openai.com/docs/bots
User-agent: GPTBot
# ChatGPT plugins
# https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
# OpenAI Search bot
# https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
# Google's web crawler: Bard, VertexAI, Gemini
# https://blog.google/technology/ai/an-update-on-web-publisher-controls/
User-agent: Google-Extended
# Apple's web crawler, dedicated to GenAI projects
# https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
# Claude
User-agent: anthropic-ai
# Claude Bot
User-agent: ClaudeBot
# Claude web
User-agent: Claude-Web
# Cohere
User-agent: Cohere-ai
# Perplexity
User-agent: PerplexityBot
# Common Crawl
# https://commoncrawl.org/ccbot
User-agent: CCBot
# Omglibot: webz.io
# https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
User-agent: Omgilibot
User-agent: Omgili
User-agent: Webzio-Extended
# Facebook: Llama
# https://developers.facebook.com/docs/sharing/bot/
User-agent: FacebookBot
# ByteDance: Duobao
User-agent: Bytespider
# Censorship area
Disallow: /
Isenção de responsabilidade
Observe que esta lista de bloqueio destina -se apenas a fins informativos. Apesar do nome do projeto instigante, não há problema em desaprovar a rastreamento da web e proteger a propriedade do conteúdo.
2024-05 Atualização
Categoria: Pressione
- Digitalizado: 66
- ✅ Passagem: 38 %
- ? Bloqueado: 62 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Os tempos | ? | ? |
| BBC | ? | ? |
| O guardião | ? | ? |
| O economista | ? | ? |
| Times financeiros | ? | ? |
| O independente | ? | ✅ |
| O telégrafo | ? | ? |
| Correio diário | ? | ? |
| O sol | ? | ? |
| Espelho diário | ? | ? |
| Daily Express | ? | ? |
| Washington Post | ? | ? |
| EUA hoje | ? | ✅ |
| Fox News | ? | ✅ |
| ABC News | ? | ? |
| NBC News | ? | ? |
| CBS News | ? | ? |
| Los Angeles Times | ? | ? |
| Chicago Tribune | ? | ✅ |
| New York Post | ? | ? |
| New York Daily News | ? | ✅ |
| O nova -iorquino | ? | ? |
| Vício | ? | ✅ |
| New York Times | ? | ? |
| Wall Street Journal | ? | ? |
| CNN | ? | ? |
| El País | ? | ✅ |
| Süddeutsche Zeitung | ? | ? |
| Der Spiegel | ? | ? |
| Corriere della Sera | ? | ? |
| La Repubblica | ? | ? |
| Le Monde | ? | ? |
| Libertação | ? | ? |
| Le Figaro | ? | ? |
| 20 minutos | ? | ? |
| Ouest France | ? | ? |
| Le Parisien | ? | ? |
| L'Equipe | ? | ? |
| Le Point | ? | ? |
| Marianne | ? | ? |
| Le Nouvel Observateur | ? | ? |
| L'A Express | ? | ? |
| França 24 | ? | ? |
| Bfmtv | ? | ? |
| Cnews | ? | ✅ |
| Le Monde Diplomatique | ? | ✅ |
| MediaPart | ? | ? |
| Courrier International | ? | ? |
| Brut | ? | ✅ |
| IMDB | ? | ✅ |
| Alocina | ? | ✅ |
| Fakt | ? | ✅ |
| Super Express | ? | ✅ |
| Gazeta Wyborcza | ? | ? |
| RzeczPospolita | ? | ✅ |
| Dziennik Gazeta Prawna | ? | ✅ |
| Polityka | ? | ✅ |
| Newsweek Polska | ? | ✅ |
| Gość Niedzielny | ? | ✅ |
| Sieci | ? | ✅ |
| Faça rzeczy | ? | ✅ |
| Twój Styl | ? | ✅ |
| Zwierciadło | ? | ✅ |
| WYSOKIE OBCASY Extra | ? | ? |
| Pani | ? | ✅ |
| Elle | ? | ✅ |
Categoria: vídeo sob demanda
- Digitalizado: 9
- ✅ Passagem: 56 %
- ? Bloqueado: 44 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Vídeo primário | ? | ✅ |
| Netflix | ? | ✅ |
| Disney+ | ? | ? |
| Hulu | ? | ? |
| HBO Max | ? | ✅ |
| Canal+ | ? | ? |
| Francetv | ? | ✅ |
| TF1 | ? | ? |
| 6Play | ? | ✅ |
Categoria: música
- Digitalizado: 6
- ✅ Passagem: 67 %
- ? Bloqueado: 33 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Soundcloud | ? | ? |
| YouTube | ? | ✅ |
| Música da Apple | ? | ✅ |
| Spotify | ? | ? |
| Deezer | ? | ✅ |
| Lastfm | ? | ✅ |
Categoria: Podcast
- Digitalizado: 8
- ✅ Passagem: 75 %
- ? Bloqueado: 25 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Podcasts do Google | ? | ✅ |
| Podcast da Apple | ? | ✅ |
| Spotify Podcaster | ? | ? |
| Buzzsprout | ? | ✅ |
| Podbean | ? | ✅ |
| Acast | ? | ✅ |
| Audiomeans | ? | ✅ |
| Radio France | ? | ? |
Categoria: x
- Digitalizado: 6
- ✅ Passagem: 67 %
- ? Bloqueado: 33 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Pornhub | ? | ? |
| Youporn | ? | ? |
| Xnxx | ? | ✅ |
| Xvideos | ? | ✅ |
| Xhamster | ? | ✅ |
| SOMENTEFAN | ? | ✅ |
Categoria: Religião
- Digitalizado: 5
- ✅ Passagem: 100 %
- ? Bloqueado: 0 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Bíblia | ? | ✅ |
| Gateway da Bíblia | ? | ✅ |
| Testemunhas de Jeová | ? | ✅ |
| Vaticano | ? | ✅ |
| Islamweb | ? | ✅ |
Categoria: mídia social
- Digitalizado: 13
- ✅ Passagem: 31 %
- ? Bloqueado: 62 %
- ❓ Desconhecido: 8 %
| Nome | País | Status |
|---|
| Facebook | ? | ? |
| Instagram | ? | ? |
| Reddit | ? | ✅ |
| Notícias de hacker | ? | ❓ |
| Lagostas | ? | ? |
| Pinterest | ? | ? |
| Tiktok | ? | ✅ |
| Twitter | ? | ? |
| LinkedIn | ? | ✅ |
| Quora | ? | ? |
| Vk | ? | ✅ |
| TripAdvisor | ? | ? |
| Yelp | ? | ? |
Categoria: Artista
- Digitalizado: 42
- ✅ Passagem: 76 %
- ? Bloqueado: 19 %
- ❓ Desconhecido: 5 %
| Nome | País | Status |
|---|
| Michael Jackson | ? | ✅ |
| Madonna | ? | ✅ |
| Taylor Swift | ? | ? |
| Rihanna | ? | ✅ |
| Bruno Mars | ? | ✅ |
| Justin Bieber | ? | ? |
| Beyoncé | ? | ✅ |
| Katy Perry | ? | ? |
| Lady Gaga | ? | ? |
| Hardwell | ? | ✅ |
| Dimitri Vegas e Like Mike | ? | ✅ |
| Kanye West | ? | ❓ |
| Ervilhas de olhos pretos | ? | ✅ |
| Imagine Dragons | ? | ✅ |
| Vinte e um pilotos | ? | ✅ |
| Maroon 5 | ? | ? |
| Selena Gomez | ? | ? |
| Usher | ? | ? |
| Stromae | ? | ✅ |
| Aya Nakamura | ? | ❓ |
| Soprano | ? | ✅ |
| Johnny Hallyday | ? | ✅ |
| Grand Corps Malade | ? | ✅ |
| Zaho | ? | ✅ |
| Jean Louis Aubert | ? | ✅ |
| Camelia Jordana | ? | ✅ |
| Indochina | ? | ✅ |
| Tryo | ? | ✅ |
| David Guetta | ? | ✅ |
| MC Solaar | ? | ✅ |
| Zaz | ? | ✅ |
| Christine e as rainhas | ? | ✅ |
| Boulevard des Airs | ? | ✅ |
| Calogero | ? | ✅ |
| Hoshi | ? | ✅ |
| Avicii | ? | ✅ |
| Adele | ? | ✅ |
| Calvin Harris | ? | ✅ |
| Ed Sheeran | ? | ✅ |
| Macacos do Ártico | ? | ✅ |
| Coldplay | ? | ✅ |
| The Weeknd | ? | ? |
Categoria: Gov
- Digitalizado: 3
- ✅ Passagem: 100 %
- ? Bloqueado: 0 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Casa Branca | ? | ✅ |
| Elysée | ? | ✅ |
| Europa | ? | ✅ |
Categoria: Ciência
- Digitalizado: 28
- ✅ Passagem: 82 %
- ? Bloqueado: 18 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Google Scholar | ? | ✅ |
| Sci-Hub | ? | ✅ |
| Pubpeer | ? | ✅ |
| Scopus | ? | ? |
| Elsevier | ? | ? |
| ScienceDirect | ? | ? |
| Mdpi | ? | ✅ |
| Springer | ? | ✅ |
| Wiley | ? | ✅ |
| American Chemical Society | ? | ✅ |
| PubMed | ? | ✅ |
| Academia | ? | ✅ |
| Ciência | ? | ? |
| Arxiv | ? | ✅ |
| Sociedade Física Americana | ? | ✅ |
| Mendeley | ? | ✅ |
| Natureza | ? | ? |
| Taylor e Francis | ? | ✅ |
| Oxford University Press | ? | ✅ |
| Cambridge University Press | ? | ✅ |
| Sociedade Real de Química | ? | ✅ |
| Pesquisa | ? | ✅ |
| Bnf | ? | ✅ |
| Cairn | ? | ✅ |
| Persee | ? | ✅ |
| Gallica | ? | ✅ |
| Hal | ? | ✅ |
| Abertura | ? | ✅ |
Categoria: Dev
- Digitalizado: 3
- ✅ Passagem: 67 %
- ? Bloqueado: 33 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Github | ? | ✅ |
| Gitlab | ? | ✅ |
| Pilha estouro | ? | ? |
Categoria: outro conteúdo
- Digitalizado: 19
- ✅ Passagem: 74 %
- ? Bloqueado: 26 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| Wikipedia | ? | ✅ |
| Médio | ? | ? |
| Substack | ? | ✅ |
| Rastreamento comum | ? | ✅ |
| Arquivo da Internet | ? | ✅ |
| Wayback Machine | ? | ✅ |
| Noção | ? | ✅ |
| Clima | ? | ? |
| Accuweather | ? | ✅ |
| Météo França | ? | ✅ |
| Getty Images | ? | ✅ |
| Shutterstock | ? | ? |
| Adobe Stock | ? | ? |
| Unsplash | ? | ? |
| Pexels | ? | ✅ |
| Pixabay | ? | ✅ |
| Flickr | ? | ✅ |
| 500px | ? | ✅ |
| Gify | ? | ✅ |
Categoria: Outro
- Digitalizado: 1
- ✅ Passagem: 100 %
- ? Bloqueado: 0 %
- ❓ Desconhecido: 0 %
| Nome | País | Status |
|---|
| De fato | ? | ✅ |
Lista WTF
AKA: Eles entendem seu modelo de negócios? ?
| Nome | Status |
|---|
| Getty Images | ✅ |
| Pexels | ✅ |
| 500px | ✅ |
Lista de vergonha
AKA: Isso é interesse público. ?
| Nome | Status |
|---|
| Médio | ? |
| Quora | ? |
| Elsevier | ? |
| Scopus | ? |
| Ciência | ? |
| ScienceDirect | ? |
| Natureza | ? |
? Contribuindo
Procurando contribuições:
- Enriqueça o banco de dados do site
- Sites chineses
- Novas categorias
Por favor, abra problemas!
- Me ping no twitter @samuelberthe (dms, menciona, seja o que for :))
- Bifurcar o projeto
- Corrigir problemas abertos ou solicitar novos recursos
Não hesite;)
Construir
python -m venv venv
source ./venv/bin/activate
pip3 install -r requirements.txt
python3 scrape.py
# then copy the last version into readme
? Colaboradores
? Mostre seu apoio
Dê a um ️ se este projeto o ajudar!
Licença
Copyright © 2024 Samuel Berthe.
Este projeto está licenciado pelo MIT.