ดาวน์โหลด fundus - ดาวน์โหลดซอร์สโค้ด fundus

fundus

ซอร์สโค้ดอื่น ๆ

v0.4.6

ดาวน์โหลด

นักรวบรวมข้อมูลข่าว ง่าย ๆ ใน Python พัฒนาที่ Humboldt University of Berlin

เริ่มต้นอย่างรวดเร็ว | บทเรียน แหล่งข่าว กระดาษ

อวัยวะคือ:

ตัวรวบรวมข้อมูลข่าวคงที่ Fundus ช่วยให้คุณรวบรวมข้อมูลบทความข่าวออนไลน์ด้วยรหัส Python เพียงไม่กี่บรรทัด! ไม่ว่าจะเป็นจากเว็บไซต์สดหรือชุดข้อมูล CC-News
แพ็คเกจ Python โอเพนซอร์ซ อวัยวะถูกสร้างขึ้นจากความคิดในการสร้างบางสิ่งด้วยกัน เรายินดีต้อนรับการมีส่วนร่วมของคุณเพื่อช่วยให้อวัยวะเติบโตขึ้น!

เริ่มต้นอย่างรวดเร็ว

ในการติดตั้งจาก PIP เพียงทำ:

 pip install fundus

อวัยวะต้องใช้ Python 3.8+

ตัวอย่างที่ 1: รวบรวมบทความข่าวภาษาอังกฤษจำนวนมาก

ลองใช้อวัยวะเพื่อรวบรวมข้อมูลบทความ 2 บทความจากสำนักพิมพ์ที่อยู่ในสหรัฐอเมริกา

 from fundus import PublisherCollection , Crawler

# initialize the crawler for news publishers based in the US
crawler = Crawler ( PublisherCollection . us )

# crawl 2 articles and print
for article in crawler . crawl ( max_articles = 2 ):
    print ( article )

นั่นมันอยู่แล้ว!

หากคุณเรียกใช้รหัสนี้ควรพิมพ์สิ่งนี้:

 Fundus-Article:
- Title: "Feinstein's Return Not Enough for Confirmation of Controversial New [...]"
- Text:  "Democrats jammed three of President Joe Biden's controversial court nominees
          through committee votes on Thursday thanks to a last-minute [...]"
- URL:    https://freebeacon.com/politics/feinsteins-return-not-enough-for-confirmation-of-controversial-new-hampshire-judicial-nominee/
- From:   FreeBeacon (2023-05-11 18:41)

Fundus-Article:
- Title: "Northwestern student government freezes College Republicans funding over [...]"
- Text:  "Student government at Northwestern University in Illinois "indefinitely" froze
          the funds of the university's chapter of College Republicans [...]"
- URL:    https://www.foxnews.com/us/northwestern-student-government-freezes-college-republicans-funding-poster-critical-lgbtq-community
- From:   FoxNews (2023-05-09 14:37)

งานพิมพ์นี้บอกคุณว่าคุณรวบรวมบทความสองบทความได้สำเร็จ!

สำหรับแต่ละบทความรายละเอียดการพิมพ์:

"ชื่อ" ของบทความคือพาดหัวของมัน
"ข้อความ" คือบทความหลักบทความ
"url" ซึ่งมันถูกคลาน
แหล่งข่าวคือ "จาก"

ตัวอย่างที่ 2: รวบรวมข้อมูลแหล่งข่าวเฉพาะ

บางทีคุณอาจต้องการรวบรวมข้อมูลแหล่งข่าวเฉพาะแทน มารวบรวมบทความข่าวจาก Washington Times เท่านั้น:

 from fundus import PublisherCollection , Crawler

# initialize the crawler for The New Yorker
crawler = Crawler ( PublisherCollection . us . TheNewYorker )

# crawl 2 articles and print
for article in crawler . crawl ( max_articles = 2 ):
    print ( article )

ตัวอย่างที่ 3: รวบรวมข้อมูล 1 ล้านบทความ

ในการรวบรวมข้อมูลจำนวนมากของข้อมูลอวัยวะอาศัยอยู่ที่ CommonCrawl Web Archive โดยเฉพาะอย่างยิ่งการรวบรวมข้อมูลข่าว CC-NEWS หากคุณไม่คุ้นเคยกับ CommonCrawl หรือ CC-NEWS ลองดูเว็บไซต์ของพวกเขา เพียงนำเข้า CCNewsCrawler ของเราและตรวจสอบให้แน่ใจว่าได้ตรวจสอบการสอนของเราล่วงหน้า

 from fundus import PublisherCollection , CCNewsCrawler

# initialize the crawler using all publishers supported by fundus
crawler = CCNewsCrawler ( * PublisherCollection )

# crawl 1 million articles and print
for article in crawler . crawl ( max_articles = 1000000 ):
  print ( article )

หมายเหตุ : โดยค่าเริ่มต้นตัวรวบรวมข้อมูลจะใช้คอร์ CPU ที่มีอยู่ทั้งหมดในระบบของคุณ เพื่อประสิทธิภาพที่ดีที่สุดเราขอแนะนำให้กำหนดจำนวนกระบวนการโดยใช้พารามิเตอร์ processes ด้วยตนเอง กฎง่ายๆคือการจัดสรร one process per 200 Mbps of bandwidth สิ่งนี้อาจแตกต่างกันไปขึ้นอยู่กับความเร็วหลัก

หมายเหตุ : การรวบรวมข้อมูลด้านบนใช้เวลา ~ 7 ชั่วโมงโดยใช้ PublisherCollection ทั้งหมดบนเครื่องที่มีการเชื่อมต่อ 1,000 Mbps, Core I9-13905H, 64GB RAM, Windows 11 และไม่มีการพิมพ์บทความ เวลาโดยประมาณอาจแตกต่างกันอย่างมากขึ้นอยู่กับผู้เผยแพร่ที่ใช้และแบนด์วิดท์ที่มีอยู่ นอกจากนี้ผู้จัดพิมพ์ทุกคนไม่รวมอยู่ในการรวบรวม CC-NEWS (โดยเฉพาะอย่างยิ่งสำนักพิมพ์ที่อยู่ในสหรัฐอเมริกา) สำหรับการสร้างคลังข้อมูลขนาดใหญ่เรายังสามารถใช้ตัวรวบรวมข้อมูลปกติได้โดยใช้เฉพาะ Sitemaps ซึ่งต้องใช้แบนด์วิดท์น้อยลงอย่างมีนัยสำคัญ

 from fundus import PublisherCollection , Crawler , Sitemap

# initialize a crawler for us/uk based publishers and restrict to Sitemaps only
crawler = Crawler ( PublisherCollection . us , PublisherCollection . uk , restrict_sources_to = [ Sitemap ])

# crawl 1 million articles and print
for article in crawler . crawl ( max_articles = 1000000 ):
  print ( article )

บทเรียน

เรามี บทช่วยสอนด่วน เพื่อให้คุณเริ่มต้นด้วยห้องสมุด:

บทช่วยสอน 1: วิธีรวบรวมข้อมูลข่าวสารด้วยอวัยวะ
บทช่วยสอน 2: วิธีรวบรวมบทความจาก CC-News
บทช่วยสอน 3: คลาสบทความ
บทช่วยสอน 4: วิธีกรองบทความ
บทช่วยสอน 5: หัวข้อขั้นสูง
บทช่วยสอน 6: การบันทึก

หากคุณต้องการมีส่วนร่วมในการตรวจสอบบทเรียนเหล่านี้:

วิธีการมีส่วนร่วม
วิธีเพิ่มผู้เผยแพร่

แหล่งข่าวสนับสนุนในปัจจุบัน

คุณสามารถค้นหาผู้เผยแพร่ที่สนับสนุนได้ ที่นี่

นอกจากนี้: การเพิ่มผู้เผยแพร่ใหม่นั้นง่าย - พิจารณาสนับสนุนโครงการ!

เกณฑ์มาตรฐานการประเมิน

ตรวจสอบเกณฑ์มาตรฐานการประเมินของเรา

ตารางต่อไปนี้สรุปผลการดำเนินงานโดยรวมของอวัยวะและการประเมินผลการตรวจสอบในแง่ของความแม่นยำ Rouge-Lsum เฉลี่ยการเรียกคืนและคะแนน F1 และค่าเบี่ยงเบนมาตรฐานของพวกเขา ตารางถูกจัดเรียงตามลำดับจากมากไปน้อยกว่าคะแนน F1:

มีดโกน	ความแม่นยำ	ระลึกถึง	คะแนน F1	รุ่น
เงินทุน	99.89 _{± 0.57}	96.75 _{± 12.75}	97.69 _{± 9.75}	0.4.1
ทราฟิลาทูรา	93.91 _{± 12.89}	96.85 _{± 15.69}	93.62 _{± 16.73}	1.12.0
ข่าว	97.95 _{± 10.08}	91.89 _{± 16.15}	93.39 _{± 14.52}	1.6.13
BTE	81.09 _{± 19.41}	98.23 _{± 8.61}	87.14 _{± 15.48}	-
Justext	86.51 _{± 18.92}	90.23 _{± 20.61}	86.96 _{± 19.76}	3.0.1
เดือด	85.96 _{± 18.55}	91.21 _{± 19.15}	86.52 _{± 18.03}	-
หม้อต้มน้ำ	82.89 _{± 20.65}	82.11 _{± 29.99}	79.90 _{± 25.86}	1.3.0

อ้างถึง

โปรดอ้างอิงกระดาษต่อไปนี้เมื่อใช้อวัยวะหรือการสร้างในงานของเรา:

 @inproceedings { dallabetta-etal-2024-fundus ,
    title = " Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions " ,
    author = " Dallabetta, Max  and
      Dobberstein, Conrad  and
      Breiding, Adrian  and
      Akbik, Alan " ,
    editor = " Cao, Yixin  and
      Feng, Yang  and
      Xiong, Deyi " ,
    booktitle = " Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) " ,
    month = aug,
    year = " 2024 " ,
    address = " Bangkok, Thailand " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.acl-demos.29 " ,
    pages = " 305--314 " ,
}

ติดต่อ

โปรดส่งอีเมลคำถามหรือความคิดเห็นของคุณไปที่ Max Dallabetta

การบริจาค

ขอบคุณสำหรับความสนใจในการบริจาค! มีหลายวิธีในการมีส่วนร่วม เริ่มต้นด้วยแนวทางของผู้สนับสนุนของเราจากนั้นตรวจสอบปัญหาที่เปิดเหล่านี้สำหรับงานที่เฉพาะเจาะจง

ใบอนุญาต

มิกซ์

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.4.6
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 9.13MB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด