偉大的GPT防火牆?
該集合是使用robots.txt文件來限制對AI代理,AI爬網和GPT的訪問的網站的策劃列表。
它將每月更新。

用戶代理和機器人.txt
robots.txt文件允許網站所有者通過指定規則和指令來控制和限制這些用戶代理到其網站某些領域的訪問。
# OpenAI’s web crawler: GPT3.5, GPT4, ChatGPT
# https://platform.openai.com/docs/bots
User-agent: GPTBot
# ChatGPT plugins
# https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
# OpenAI Search bot
# https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
# Google's web crawler: Bard, VertexAI, Gemini
# https://blog.google/technology/ai/an-update-on-web-publisher-controls/
User-agent: Google-Extended
# Apple's web crawler, dedicated to GenAI projects
# https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
# Claude
User-agent: anthropic-ai
# Claude Bot
User-agent: ClaudeBot
# Claude web
User-agent: Claude-Web
# Cohere
User-agent: Cohere-ai
# Perplexity
User-agent: PerplexityBot
# Common Crawl
# https://commoncrawl.org/ccbot
User-agent: CCBot
# Omglibot: webz.io
# https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
User-agent: Omgilibot
User-agent: Omgili
User-agent: Webzio-Extended
# Facebook: Llama
# https://developers.facebook.com/docs/sharing/bot/
User-agent: FacebookBot
# ByteDance: Duobao
User-agent: Bytespider
# Censorship area
Disallow: /
免責聲明
請注意,此區塊列表僅用於信息目的。儘管有令人髮指的項目名稱,但禁止網絡爬網和保護內容所有權是可以的。
2024-05更新
類別:按
- 掃描:66
- ✅傳球:38%
- ?阻止:62%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| 時代 | ? | ? |
| 英國廣播公司 | ? | ? |
| 監護人 | ? | ? |
| 經濟學家 | ? | ? |
| 金融時報 | ? | ? |
| 獨立 | ? | ✅ |
| 電報 | ? | ? |
| 每日郵報 | ? | ? |
| 太陽 | ? | ? |
| 每日鏡子 | ? | ? |
| 每日快車 | ? | ? |
| 華盛頓郵報 | ? | ? |
| 今日美國 | ? | ✅ |
| 福克斯新聞 | ? | ✅ |
| ABC新聞 | ? | ? |
| NBC新聞 | ? | ? |
| CBS新聞 | ? | ? |
| 洛杉磯時報 | ? | ? |
| 芝加哥論壇報 | ? | ✅ |
| 紐約郵報 | ? | ? |
| 紐約每日新聞 | ? | ✅ |
| 紐約客 | ? | ? |
| 副 | ? | ✅ |
| 紐約時報 | ? | ? |
| 華爾街日報 | ? | ? |
| CNN | ? | ? |
| ElPaís | ? | ✅ |
| SüddeutscheZeitung | ? | ? |
| der spiegel | ? | ? |
| Corriere Della Sera | ? | ? |
| La Repubblica | ? | ? |
| 勒蒙德 | ? | ? |
| 解放 | ? | ? |
| Le Figaro | ? | ? |
| 20分鐘 | ? | ? |
| 奧斯特法國 | ? | ? |
| Le Parisien | ? | ? |
| l'equipe | ? | ? |
| 勒點 | ? | ? |
| 瑪麗安 | ? | ? |
| Le Nouvel Observateur | ? | ? |
| l'express | ? | ? |
| 法國24 | ? | ? |
| BFMTV | ? | ? |
| CNEWS | ? | ✅ |
| Le Monde Diplomatique | ? | ✅ |
| MediaPart | ? | ? |
| 庫里爾國際 | ? | ? |
| 布魯特 | ? | ✅ |
| IMDB | ? | ✅ |
| 分配 | ? | ✅ |
| fakt | ? | ✅ |
| 超級快報 | ? | ✅ |
| Gazeta Wyborcza | ? | ? |
| rzeczpospolita | ? | ✅ |
| Dziennik Gazeta Prawna | ? | ✅ |
| polityka | ? | ✅ |
| 新聞周刊波爾斯卡 | ? | ✅ |
| GośćNiedzielny | ? | ✅ |
| Sieci | ? | ✅ |
| 做rzeczy | ? | ✅ |
| TwójStyl | ? | ✅ |
| Zwierciadło | ? | ✅ |
| wysokie obcasy額外 | ? | ? |
| 帕尼 | ? | ✅ |
| 埃勒 | ? | ✅ |
類別:視頻按需
- 掃描:9
- ✅通過:56%
- ?阻塞:44%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| 主要視頻 | ? | ✅ |
| Netflix | ? | ✅ |
| 迪士尼+ | ? | ? |
| 胡魯 | ? | ? |
| HBO Max | ? | ✅ |
| 運河+ | ? | ? |
| Francetv | ? | ✅ |
| TF1 | ? | ? |
| 6play | ? | ✅ |
類別:音樂
- 掃描:6
- ✅通過:67%
- ?阻止:33%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| Soundcloud | ? | ? |
| Youtube | ? | ✅ |
| 蘋果音樂 | ? | ✅ |
| Spotify | ? | ? |
| 迪爾 | ? | ✅ |
| LastFM | ? | ✅ |
類別:播客
- 掃描:8
- ✅通過:75%
- ?阻塞:25%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| Google播客 | ? | ✅ |
| 蘋果播客 | ? | ✅ |
| Spotify Podcaster | ? | ? |
| BuzzsProut | ? | ✅ |
| podbean | ? | ✅ |
| acast | ? | ✅ |
| 有聲音 | ? | ✅ |
| 法國電台 | ? | ? |
類別:x
- 掃描:6
- ✅通過:67%
- ?阻止:33%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| Pornhub | ? | ? |
| youporn | ? | ? |
| xnxx | ? | ✅ |
| xvideos | ? | ✅ |
| Xhamster | ? | ✅ |
| 只有芬 | ? | ✅ |
類別:宗教
- 掃描:5
- ✅通過:100%
- ?阻塞:0%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| 聖經 | ? | ✅ |
| 聖經門戶 | ? | ✅ |
| 耶和華見證人 | ? | ✅ |
| 教廷 | ? | ✅ |
| 伊斯蘭韋布 | ? | ✅ |
類別:社交媒體
- 掃描:13
- ✅傳球:31%
- ?阻止:62%
- ❓未知:8%
| 姓名 | 國家 | 地位 |
|---|
| Facebook | ? | ? |
| Instagram | ? | ? |
| reddit | ? | ✅ |
| 黑客新聞 | ? | ❓ |
| 龍蝦 | ? | ? |
| Pinterest | ? | ? |
| 蒂克托克 | ? | ✅ |
| 嘰嘰喳喳 | ? | ? |
| LinkedIn | ? | ✅ |
| Quora | ? | ? |
| VK | ? | ✅ |
| TripAdvisor | ? | ? |
| 喊叫 | ? | ? |
類別:藝術家
- 掃描:42
- ✅通過:76%
- ?阻止:19%
- ❓未知:5%
| 姓名 | 國家 | 地位 |
|---|
| 邁克爾·傑克遜 | ? | ✅ |
| 麥當娜 | ? | ✅ |
| 泰勒·斯威夫特 | ? | ? |
| 蕾哈娜 | ? | ✅ |
| 布魯諾·馬爾斯(Bruno Mars) | ? | ✅ |
| 賈斯汀·比伯 | ? | ? |
| 碧昂絲 | ? | ✅ |
| 凱蒂·佩里(Katy Perry) | ? | ? |
| 女神卡卡 | ? | ? |
| 哈德威爾 | ? | ✅ |
| Dimitri Vegas和Mike | ? | ✅ |
| 坎耶·韋斯特 | ? | ❓ |
| 黑眼豌豆 | ? | ✅ |
| 想像一下龍 | ? | ✅ |
| 二十一個飛行員 | ? | ✅ |
| 魔力紅 | ? | ? |
| 賽琳娜·戈麥斯(Selena Gomez) | ? | ? |
| 迎來 | ? | ? |
| 基質 | ? | ✅ |
| Aya Nakamura | ? | ❓ |
| 女高音 | ? | ✅ |
| 約翰尼·赫利日(Johnny Hallyday) | ? | ✅ |
| 大兵團馬拉德 | ? | ✅ |
| Zaho | ? | ✅ |
| 讓·路易斯·奧伯特(Jean Louis Aubert) | ? | ✅ |
| Camelia Jordana | ? | ✅ |
| 印度學 | ? | ✅ |
| Tryo | ? | ✅ |
| 大衛·吉塔(David Guetta) | ? | ✅ |
| MC Solaar | ? | ✅ |
| 扎茲 | ? | ✅ |
| 克里斯汀和皇后 | ? | ✅ |
| Boulevard des Airs | ? | ✅ |
| Calogero | ? | ✅ |
| Hoshi | ? | ✅ |
| avicii | ? | ✅ |
| 阿黛爾 | ? | ✅ |
| 加爾文·哈里斯(Calvin Harris) | ? | ✅ |
| 埃德·希蘭(Ed Sheeran) | ? | ✅ |
| 北極猴子 | ? | ✅ |
| 冷玩具 | ? | ✅ |
| Weeknd | ? | ? |
類別:政府
- 掃描:3
- ✅通過:100%
- ?阻塞:0%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| 白宮 | ? | ✅ |
| Elysée | ? | ✅ |
| 歐洲 | ? | ✅ |
類別:科學
- 掃描:28
- ✅通過:82%
- ?阻塞:18%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| Google Scholar | ? | ✅ |
| 科學樞紐 | ? | ✅ |
| Pubpeer | ? | ✅ |
| scopus | ? | ? |
| Elsevier | ? | ? |
| 科學方 | ? | ? |
| MDPI | ? | ✅ |
| 施普林格 | ? | ✅ |
| 威利 | ? | ✅ |
| 美國化學學會 | ? | ✅ |
| PubMed | ? | ✅ |
| 學術界 | ? | ✅ |
| 科學 | ? | ? |
| arxiv | ? | ✅ |
| 美國體育社會 | ? | ✅ |
| 門德利 | ? | ✅ |
| 自然 | ? | ? |
| 泰勒和弗朗西斯 | ? | ✅ |
| 牛津大學出版社 | ? | ✅ |
| 劍橋大學出版社 | ? | ✅ |
| 皇家化學學會 | ? | ✅ |
| 研究門 | ? | ✅ |
| BNF | ? | ✅ |
| 凱恩 | ? | ✅ |
| Persee | ? | ✅ |
| 加里卡 | ? | ✅ |
| 哈爾 | ? | ✅ |
| 開放 | ? | ✅ |
類別:開發
- 掃描:3
- ✅通過:67%
- ?阻止:33%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| github | ? | ✅ |
| GitLab | ? | ✅ |
| 堆棧溢出 | ? | ? |
類別:其他內容
- 掃描:19
- ✅傳球:74%
- ?阻止:26%
- ❓未知:0%
| 姓名 | 國家 | 地位 |
|---|
| 維基百科 | ? | ✅ |
| 中等的 | ? | ? |
| 替代 | ? | ✅ |
| 常見的爬網 | ? | ✅ |
| 互聯網檔案 | ? | ✅ |
| Wayback機器 | ? | ✅ |
| 概念 | ? | ✅ |
| 天氣 | ? | ? |
| Accuweather | ? | ✅ |
| 法國梅特 | ? | ✅ |
| 蓋蒂圖像 | ? | ✅ |
| 快門 | ? | ? |
| Adobe Stock | ? | ? |
| Unplash | ? | ? |
| pexels | ? | ✅ |
| Pixabay | ? | ✅ |
| Flickr | ? | ✅ |
| 500px | ? | ✅ |
| giphy | ? | ✅ |
類別:其他
- 掃描:1
- ✅通過:100%
- ?阻塞:0%
- ❓未知:0%
WTF列表
又名:他們了解自己的業務模式嗎? ?
| 姓名 | 地位 |
|---|
| 蓋蒂圖像 | ✅ |
| pexels | ✅ |
| 500px | ✅ |
恥辱清單
又名:這是公共利益。 ?
| 姓名 | 地位 |
|---|
| 中等的 | ? |
| Quora | ? |
| Elsevier | ? |
| scopus | ? |
| 科學 | ? |
| 科學方 | ? |
| 自然 | ? |
?貢獻
尋找貢獻:
請打開問題!
- 在Twitter @samuelberthe上ping我(DMS,提到,任何:))
- 分叉項目
- 修復開放問題或請求新功能
不要猶豫;)
建造
python -m venv venv
source ./venv/bin/activate
pip3 install -r requirements.txt
python3 scrape.py
# then copy the last version into readme
?貢獻者
?表示您的支持
如果這個項目對您有所幫助,請給!
執照
版權所有©2024 Samuel Berthe。
該項目已獲得MIT許可。