fundus Download - fundus -Quellcode herunterladen

fundus

Anderer Quellcode

v0.4.6

Herunterladen

Ein sehr einfacher Nachrichten -Crawler in Python. Entwickelt an der Humboldt University of Berlin.

Schneller Start | Tutorials | Nachrichtenquellen | Papier

Fundus ist:

Ein statischer Nachrichten -Crawler. Mit Fundus können Sie Online -Nachrichtenartikel mit nur wenigen Zeilen von Python -Code kriechen! Sei es von Live-Websites oder dem CC-News-Datensatz.
Ein Open-Source-Python-Paket. Fundus basiert auf der Idee, etwas zusammen zu bauen. Wir begrüßen Ihren Beitrag, um dem Funduswachstum zu helfen!

Schneller Start

Um von PIP zu installieren, tun Sie einfach:

 pip install fundus

Fundus erfordert Python 3.8+.

Beispiel 1: Kriechen Sie eine Reihe englischsprachiger Nachrichtenartikel

Verwenden wir Fundus, um 2 Artikel von in den USA ansässigen Publishers zu kriechen.

 from fundus import PublisherCollection , Crawler

# initialize the crawler for news publishers based in the US
crawler = Crawler ( PublisherCollection . us )

# crawl 2 articles and print
for article in crawler . crawl ( max_articles = 2 ):
    print ( article )

Das ist es schon!

Wenn Sie diesen Code ausführen, sollte er so etwas ausdrucken:

 Fundus-Article:
- Title: "Feinstein's Return Not Enough for Confirmation of Controversial New [...]"
- Text:  "Democrats jammed three of President Joe Biden's controversial court nominees
          through committee votes on Thursday thanks to a last-minute [...]"
- URL:    https://freebeacon.com/politics/feinsteins-return-not-enough-for-confirmation-of-controversial-new-hampshire-judicial-nominee/
- From:   FreeBeacon (2023-05-11 18:41)

Fundus-Article:
- Title: "Northwestern student government freezes College Republicans funding over [...]"
- Text:  "Student government at Northwestern University in Illinois "indefinitely" froze
          the funds of the university's chapter of College Republicans [...]"
- URL:    https://www.foxnews.com/us/northwestern-student-government-freezes-college-republicans-funding-poster-critical-lgbtq-community
- From:   FoxNews (2023-05-09 14:37)

Dieser Ausdruck sagt Ihnen, dass Sie zwei Artikel erfolgreich gekrochen haben!

Für jeden Artikel die Ausdruckdetails:

Der "Titel" des Artikels, dh seine Überschrift
Der "Text", dh der Hauptartikelkörpertext
Die "URL", aus der sie gekrochen war
Die Nachrichtenquelle ist "von" von "von"

Beispiel 2: Kriechen Sie eine bestimmte Nachrichtenquelle

Vielleicht möchten Sie stattdessen eine bestimmte Nachrichtenquelle kriechen. Lassen Sie uns nur Nachrichtenartikel aus der Washington Times kriechen:

 from fundus import PublisherCollection , Crawler

# initialize the crawler for The New Yorker
crawler = Crawler ( PublisherCollection . us . TheNewYorker )

# crawl 2 articles and print
for article in crawler . crawl ( max_articles = 2 ):
    print ( article )

Beispiel 3: 1 Million Artikel kriechen

Um eine so große Menge an Daten zu kriechen, stützt sich Fundus auf das CommonCrawl Webarchiv, insbesondere die Nachrichten, die CC-NEWS . Wenn Sie mit CommonCrawl oder CC-NEWS nicht vertraut sind, lesen Sie ihre Websites. Importieren Sie einfach unseren CCNewsCrawler und schauen Sie sich vorab unserem Tutorial an.

 from fundus import PublisherCollection , CCNewsCrawler

# initialize the crawler using all publishers supported by fundus
crawler = CCNewsCrawler ( * PublisherCollection )

# crawl 1 million articles and print
for article in crawler . crawl ( max_articles = 1000000 ):
  print ( article )

Hinweis : Standardmäßig verwendet der Crawler alle verfügbaren CPU -Kerne in Ihrem System. Für eine optimale Leistung empfehlen wir, die Anzahl der Prozesse mit dem Parameter processes manuell festzulegen. Eine gute Faustregel ist es, one process per 200 Mbps of bandwidth zuzuweisen. Dies kann je nach Kerngeschwindigkeit variieren.

HINWEIS : Der obige Crawl dauerte ~ 7 Stunden mit der gesamten PublisherCollection auf einer Maschine mit einer Verbindung von 1000 Mbit / s, dem Kern I9-13905H, 64 GB RAM, Windows 11 und ohne Drucken der Artikel. Die geschätzte Zeit kann je nach dem verwendeten Verlag und der verfügbaren Bandbreite erheblich variieren. Darüber hinaus sind nicht alle Verlage im CC-NEWS Crawl (insbesondere in den USA ansässigen Verlage) enthalten. Bei einer großen Korpuserstellung kann man auch den regulären Crawler verwenden, indem man nur Sitemaps verwendet, was eine erhebliche Bandbreite erfordert.

 from fundus import PublisherCollection , Crawler , Sitemap

# initialize a crawler for us/uk based publishers and restrict to Sitemaps only
crawler = Crawler ( PublisherCollection . us , PublisherCollection . uk , restrict_sources_to = [ Sitemap ])

# crawl 1 million articles and print
for article in crawler . crawl ( max_articles = 1000000 ):
  print ( article )

Tutorials

Wir bieten kurze Tutorials , um Ihnen mit der Bibliothek beginnen zu können:

Tutorial 1: Wie man Nachrichten mit Fundus kriecht
Tutorial 2: Wie man Artikel von CC-News kriecht
Tutorial 3: Die Artikelklasse
Tutorial 4: Wie man Artikel filtert
Tutorial 5: Fortgeschrittene Themen
Tutorial 6: Protokollierung

Wenn Sie einen Beitrag leisten möchten, sehen Sie sich die folgenden Tutorials an:

Wie man beiträgt
So fügen Sie einen Verlag hinzu

Derzeit unterstützte Nachrichtenquellen

Die derzeit unterstützten Verlage finden Sie hier .

Außerdem: Hinzufügen eines neuen Verlags ist einfach - überlegen Sie, ob Sie zum Projekt beigetragen haben!

Bewertungsbenchmark

Schauen Sie sich unseren Bewertungsbenchmark an.

Die folgende Tabelle fasst die Gesamtleistung von Fundus und bewertete Scrapers in Bezug auf gemittelte Rouge-Lsum-Präzision, Rückruf und F1-Score und deren Standardabweichung zusammen. Die Tabelle ist in absteigender Reihenfolge über den F1-Score sortiert:

Schaber	Präzision	Abrufen	F1-Score	Version
Fundus	99,89 _{± 0,57}	96,75 _{± 12,75}	97,69 _{± 9,75}	0.4.1
Trafilatura	93,91 _{± 12,89}	96,85 _{± 15,69}	93,62 _{± 16,73}	1.12.0
Nachrichten	97,95 _{± 10,08}	91,89 _{± 16,15}	93,39 _{± 14,52}	1.6.13
Bte	81.09 _{± 19.41}	98,23 _{± 8,61}	87,14 _{± 15,48}	/
gerechtfertig	86,51 _{± 18,92}	90,23 _{± 20,61}	86,96 _{± 19,76}	3.0.1
Boilernet	85,96 _{± 18,55}	91,21 _{± 19,15}	86,52 _{± 18,03}	/
Kesselpipe	82,89 _{± 20,65}	82,11 _{± 29,99}	79,90 _{± 25,86}	1.3.0

Zitieren

Bitte zitieren Sie das folgende Papier, wenn Sie Fundus verwenden oder auf unserer Arbeit aufbauen:

 @inproceedings { dallabetta-etal-2024-fundus ,
    title = " Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions " ,
    author = " Dallabetta, Max  and
      Dobberstein, Conrad  and
      Breiding, Adrian  and
      Akbik, Alan " ,
    editor = " Cao, Yixin  and
      Feng, Yang  and
      Xiong, Deyi " ,
    booktitle = " Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations) " ,
    month = aug,
    year = " 2024 " ,
    address = " Bangkok, Thailand " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://aclanthology.org/2024.acl-demos.29 " ,
    pages = " 305--314 " ,
}

Kontakt

Bitte senden Sie Ihre Fragen oder Kommentare per E -Mail an Max Dallabetta

Beitragen

Vielen Dank für Ihr Interesse am Beitrag! Es gibt viele Möglichkeiten, sich zu engagieren. Beginnen Sie mit unseren Beitragsrichtlinien und überprüfen Sie diese offenen Probleme auf bestimmte Aufgaben.

Lizenz

MIT

Expandieren

Zusätzliche Informationen

Version v0.4.6
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-18
Größe 9.13MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

fundus

Schneller Start

Beispiel 1: Kriechen Sie eine Reihe englischsprachiger Nachrichtenartikel

Beispiel 2: Kriechen Sie eine bestimmte Nachrichtenquelle

Beispiel 3: 1 Million Artikel kriechen

Tutorials

Derzeit unterstützte Nachrichtenquellen

Bewertungsbenchmark

Zitieren

Kontakt

Beitragen

Lizenz

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express