ไฟร์วอลล์ GPT ที่ยอดเยี่ยม?
คอลเลกชันนี้เป็นรายการที่รวบรวมไว้ของเว็บไซต์ที่ใช้ไฟล์ robots.txt เพื่อ จำกัด การเข้าถึงตัวแทน AI, AI Crawlers และ GPTS
มันจะได้รับการอัปเดตทุกเดือน

ตัวแทนผู้ใช้ & robots.txt
ไฟล์ robots.txt อนุญาตให้เจ้าของเว็บไซต์ควบคุมและ จำกัด การเข้าถึงตัวแทนผู้ใช้เหล่านี้ไปยังบางพื้นที่ของเว็บไซต์ของพวกเขาโดยการระบุกฎและคำสั่ง
# OpenAI’s web crawler: GPT3.5, GPT4, ChatGPT
# https://platform.openai.com/docs/bots
User-agent: GPTBot
# ChatGPT plugins
# https://platform.openai.com/docs/bots
User-agent: ChatGPT-User
# OpenAI Search bot
# https://platform.openai.com/docs/bots
User-agent: OAI-SearchBot
# Google's web crawler: Bard, VertexAI, Gemini
# https://blog.google/technology/ai/an-update-on-web-publisher-controls/
User-agent: Google-Extended
# Apple's web crawler, dedicated to GenAI projects
# https://support.apple.com/en-us/119829
User-agent: Applebot-Extended
# Claude
User-agent: anthropic-ai
# Claude Bot
User-agent: ClaudeBot
# Claude web
User-agent: Claude-Web
# Cohere
User-agent: Cohere-ai
# Perplexity
User-agent: PerplexityBot
# Common Crawl
# https://commoncrawl.org/ccbot
User-agent: CCBot
# Omglibot: webz.io
# https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
User-agent: Omgilibot
User-agent: Omgili
User-agent: Webzio-Extended
# Facebook: Llama
# https://developers.facebook.com/docs/sharing/bot/
User-agent: FacebookBot
# ByteDance: Duobao
User-agent: Bytespider
# Censorship area
Disallow: /
คำเตือน
โปรดทราบว่ารายการบล็อกนี้มีวัตถุประสงค์เพื่อวัตถุประสงค์ในการให้ข้อมูลเท่านั้น แม้จะมีชื่อโครงการที่กระตุ้น แต่ก็ไม่เป็นไรที่จะไม่อนุญาตให้คลานผ่านเว็บและปกป้องความเป็นเจ้าของเนื้อหา
อัปเดต 2024-05
หมวดหมู่: กด
- สแกน: 66
- ✅ผ่าน: 38 %
- - บล็อก: 62 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| เวลา | - | - |
| บีบีซี | - | - |
| ผู้พิทักษ์ | - | - |
| นักเศรษฐศาสตร์ | - | - |
| เวลาการเงิน | - | - |
| อิสระ | - | |
| โทรเลข | - | - |
| เดลี่เมล์ | - | - |
| ดวงอาทิตย์ | - | - |
| กระจกรายวัน | - | - |
| Express Daily | - | - |
| โพสต์วอชิงตัน | - | - |
| สหรัฐอเมริกาวันนี้ | - | |
| Fox News | - | |
| ข่าวเอบีซี | - | - |
| ข่าวเอ็นบีซี | - | - |
| ข่าวซีบีเอส | - | - |
| ลอสแองเจลีสไทมส์ | - | - |
| ชิคาโกทริบูน | - | |
| นิวยอร์กโพสต์ | - | - |
| New York Daily News | - | |
| ชาวนิวยอร์ก | - | - |
| รอง | - | |
| นิวยอร์กไทม์ส | - | - |
| วารสารวอลล์สตรีท | - | - |
| ซีเอ็นเอ็น | - | - |
| El País | - | |
| Süddeutsche Zeitung | - | - |
| Der Spiegel | - | - |
| Corriere Della Sera | - | - |
| la repubblica | - | - |
| le monde | - | - |
| libération | - | - |
| Le Figaro | - | - |
| 20 นาที | - | - |
| ฝรั่งเศส | - | - |
| Le Parisien | - | - |
| L'Equipe | - | - |
| Le Point | - | - |
| ชาวแมเรียน | - | - |
| Le Nouvel Observateur | - | - |
| L'EXPRES | - | - |
| ฝรั่งเศส 24 | - | - |
| BFMTV | - | - |
| CNEWS | - | |
| นักการทูต Le Monde | - | |
| สื่อกลาง | - | - |
| Courrier International | - | - |
| โหดร้าย | - | |
| IMDB | - | |
| จัดสรร | - | |
| คนโง่ | - | |
| Super Express | - | |
| Gazeta Wyborcza | - | - |
| Rzeczpospolita | - | |
| Dziennik Gazeta Prawna | - | |
| polityka | - | |
| Newsweek Polska | - | |
| gość niedzielny | - | |
| sieci | - | |
| ทำ rzeczy | - | |
| twój styl | - | |
| Zwierciadło | - | |
| Wysokie obcasy พิเศษ | - | - |
| Pani | - | |
| เอลล์ | - | |
หมวดหมู่: Video on Demand
- สแกน: 9
- ✅ผ่าน: 56 %
- - บล็อก: 44 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| วิดีโอสำคัญ | - | |
| netflix | - | |
| ดิสนีย์+ | - | - |
| ฮูลู | - | - |
| HBO Max | - | |
| คลอง+ | - | - |
| francetv | - | |
| TF1 | - | - |
| 6 เล่น | - | |
หมวดหมู่: ดนตรี
- สแกน: 6
- ✅ผ่าน: 67 %
- - บล็อก: 33 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| SoundCloud | - | - |
| YouTube | - | |
| เพลงแอปเปิ้ล | - | |
| ทำให้เป็นสปอต | - | - |
| Deezer | - | |
| lastfm | - | |
หมวดหมู่: พอดคาสต์
- สแกน: 8
- ✅ผ่าน: 75 %
- - บล็อก: 25 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| Google Podcasts | - | |
| พอดคาสต์แอปเปิ้ล | - | |
| Spotify Podcaster | - | - |
| Buzzsprout | - | |
| Podbean | - | |
| เอะอะ | - | |
| ผู้ตรวจการได้ยิน | - | |
| วิทยุฝรั่งเศส | - | - |
หมวดหมู่: x
- สแกน: 6
- ✅ผ่าน: 67 %
- - บล็อก: 33 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| โป๊ | - | - |
| YouPorn | - | - |
| xnxx | - | |
| XVIDEOS | - | |
| xhamster | - | |
| คนเดียว | - | |
หมวดหมู่: ศาสนา
- สแกน: 5
- ✅ผ่าน: 100 %
- - บล็อก: 0 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| คัมภีร์ไบเบิล | - | |
| เกตเวย์พระคัมภีร์ | - | |
| พยานพระยะโฮวา | - | |
| วาติกัน | - | |
| Islamweb | - | |
หมวดหมู่: โซเชียลมีเดีย
- สแกน: 13
- ✅ผ่าน: 31 %
- - บล็อก: 62 %
- ❓ไม่ทราบ: 8 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| Facebook | - | - |
| Instagram | - | - |
| สีแดง | - | |
| ข่าวแฮ็กเกอร์ | - | |
| กุ้งมังกร | - | - |
| Pinterest | - | - |
| tiktok | - | |
| Twitter | - | - |
| LinkedIn | - | |
| quora | - | - |
| VK | - | |
| TripAdvisor | - | - |
| ร้องเอ๋ง | - | - |
หมวดหมู่: ศิลปิน
- สแกน: 42
- ✅ผ่าน: 76 %
- - บล็อก: 19 %
- ❓ไม่ทราบ: 5 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| Michael Jackson | - | |
| มาดอนน่า | - | |
| Taylor Swift | - | - |
| Rihanna | - | |
| บรูโน่มาร์ส | - | |
| Justin Bieber | - | - |
| Beyoncé | - | |
| Katy Perry | - | - |
| เลดี้กาก้า | - | - |
| ฮันเวลล์ | - | |
| Dimitri Vegas & Like Mike | - | |
| Kanye West | - | |
| ถั่วตาดำ | - | |
| ลองนึกภาพมังกร | - | |
| นักบินยี่สิบเอ็ด | - | |
| Maroon 5 | - | - |
| เซเลนาโกเมซ | - | - |
| นำ | - | - |
| สโตรเมะ | - | |
| Aya Nakamura | - | |
| นักร้องเสียงโซปราโน | - | |
| Johnny Hallyday | - | |
| Grand Corps Malade | - | |
| ชาวซาโฮ | - | |
| Jean Louis Aubert | - | |
| Camelia Jordana | - | |
| อินโฮกิสา | - | |
| Tryo | - | |
| David Guetta | - | |
| MC Solaar | - | |
| ซัซ | - | |
| คริสตินและราชินี | - | |
| Boulevard des Airs | - | |
| calogero | - | |
| โฮชิ | - | |
| Avicii | - | |
| อเดล | - | |
| คาลวินแฮร์ริส | - | |
| Ed Sheeran | - | |
| ลิงอาร์กติก | - | |
| Coldplay | - | |
| Weeknd | - | - |
หมวดหมู่: Gov
- สแกน: 3
- ✅ผ่าน: 100 %
- - บล็อก: 0 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| ทำเนียบขาว | - | |
| elysée | - | |
| ยุโรป | - | |
หมวดหมู่: วิทยาศาสตร์
- สแกน: 28
- ✅ผ่าน: 82 %
- - บล็อก: 18 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| Google Scholar | - | |
| ศาลา | - | |
| pubpeer | - | |
| scopus | - | - |
| เอลส์เวียร์ | - | - |
| ScienceDirect | - | - |
| MDPI | - | |
| เครื่องพ่น | - | |
| ไวลีย์ | - | |
| สมาคมเคมีอเมริกัน | - | |
| PubMed | - | |
| นักวิชาการ | - | |
| ศาสตร์ | - | - |
| arxiv | - | |
| สังคมกายภาพอเมริกัน | - | |
| เมนเดลีย์ | - | |
| ธรรมชาติ | - | - |
| เทย์เลอร์และฟรานซิส | - | |
| สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด | - | |
| สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ | - | |
| ราชสมาคมเคมี | - | |
| การวิจัย | - | |
| BNF | - | |
| ถ่านหิน | - | |
| เพอร์ส | - | |
| Gallica | - | |
| ฮัล | - | |
| การเปิดกว้าง | - | |
หมวดหมู่: Dev
- สแกน: 3
- ✅ผ่าน: 67 %
- - บล็อก: 33 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| คนอื่น ๆ | - | |
| Gitlab | - | |
| สแต็คล้น | - | - |
หมวดหมู่: เนื้อหาอื่น ๆ
- สแกน: 19
- ✅ผ่าน: 74 %
- - บล็อก: 26 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| วิกิพีเดีย | - | |
| ปานกลาง | - | - |
| ซอกตะคอก | - | |
| การรวบรวมข้อมูลทั่วไป | - | |
| คลังอินเทอร์เน็ต | - | |
| เครื่อง Wayback | - | |
| ความคิด | - | |
| สภาพอากาศ | - | - |
| Accuweather | - | |
| Météoฝรั่งเศส | - | |
| Getty Images | - | |
| Shutterstock | - | - |
| Adobe Stock | - | - |
| สาด | - | - |
| ปั้น | - | |
| พิกซาเบย์ | - | |
| ฟลิคก์ | - | |
| 500px | - | |
| เป็นของยแล้ว | - | |
หมวดหมู่: อื่น ๆ
- สแกน: 1
- ✅ผ่าน: 100 %
- - บล็อก: 0 %
- ❓ไม่ทราบ: 0 %
| ชื่อ | ประเทศ | สถานะ |
|---|
| อย่างแท้จริง | - | |
รายการ WTF
AKA: พวกเขาเข้าใจรูปแบบธุรกิจของพวกเขาหรือไม่? -
| ชื่อ | สถานะ |
|---|
| Getty Images | |
| ปั้น | |
| 500px | |
รายการความอับอาย
AKA: นี่คือผลประโยชน์สาธารณะ -
| ชื่อ | สถานะ |
|---|
| ปานกลาง | - |
| quora | - |
| เอลส์เวียร์ | - |
| scopus | - |
| ศาสตร์ | - |
| ScienceDirect | - |
| ธรรมชาติ | - |
- การบริจาค
กำลังมองหาผลงาน:
- เพิ่มฐานข้อมูลเว็บไซต์
- เว็บไซต์จีน
- หมวดหมู่ใหม่
กรุณาเปิดปัญหา!
- ping ฉันบน Twitter @samuelberthe (DMS กล่าวถึงอะไรก็ได้ :))
- แยกโครงการ
- แก้ไขปัญหาที่เปิดอยู่หรือขอคุณสมบัติใหม่
อย่าลังเล;)
สร้าง
python -m venv venv
source ./venv/bin/activate
pip3 install -r requirements.txt
python3 scrape.py
# then copy the last version into readme
- ผู้มีส่วนร่วม
- แสดงการสนับสนุนของคุณ
ให้️ถ้าโครงการนี้ช่วยคุณได้!
ใบอนุญาต
ลิขสิทธิ์© 2024 Samuel Berthe
โครงการนี้ได้รับใบอนุญาต MIT