A RAG (Retrival Augmented Generation) based fully open source software which provides summaries of related news articles built using ChromaDB vector database, mixtral-8x7b-instruct-v0.1 LLM (through Replicate AI), New York Times web scraper, dhivyeshrk/bart-large-cnn-samsum Fine-Tuned model for text summarization and sentence-transformers/sentence-t5-base embeddings from Umarmung.
Daten für verschiedene Kategorien von Nachrichtenartikeln wurden aus den folgenden RSS-formatierten Dateien erhalten: Technologie: https://rs.nytimes.com/services/xml/rss/nyt/technology.xml Sports: https https://rs.nytimes.com/services/xml/rss/nyt/science.xml Health: https://rss.nytimes.com/services/xml/rss/nyt/science.xml
Die Schlagzeilen, Beschreibungen und Domänen für jeden Nachrichtenartikel werden mit den Einbettungen der Satz-T5-Base vektorisiert und in einem anhaltenden Chromadb-Client gespeichert. Links zu den jeweiligen Nachrichtenartikeln werden auch in der Metadaten gespeichert. Darüber hinaus werden Nachrichten aus jeder Domäne in einer anderen Chromadb -Sammlungsinstanz für ein effizientes Abruf gespeichert.
Das Web-Scraping wurde mit dem von der NY Times API bereitgestellten Schaber durchgeführt, der nur ~ 40-60 Wörter aus den Nachrichten enthält. Die Wand kann auch mit BeautifulSoup4 leicht umgangen werden, aber nicht ganz sicher über ihre Rechtmäßigkeit.
Für die sofortige Kategorisierung haben wir das MixTral-8x7b-Instruct-V0.1-Modell aufgrund seiner außergewöhnlichen Funktionen, der Cloud-basierten Ausführung bei Replikat-KI und mühelosen Verhinderbarkeit der Halluzination verwendet. Für die Textzusammenfassung verwenden wir eine fein abgestimmte Version des Bart-Large-Modells von Huggingface, die ursprünglich von Facebook vorgeschlagen wurde. Das Modell wurde auf dem Datensatz von CNN_DailyMail trainiert und mit dem Samsum-Datensatz weiter fein abgestimmt, wodurch die Verbesserung von 103% in Rouge2-Benchmark erzielt wird. Es ist ein ziemlich leichtes Modell mit einer Größe von ~ 1,6 GB. Links: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replikat.com/mistalai/mixtral-8x7b-instruct-v0.1
Verwenden Sie Ihre API -Schlüssel aus der New York Times -API und replizieren Sie die AI -API und ersetzen Sie sie in Web_Scrape_NYT.py bzw. categorize_prompt.py. Dann laufen Sie Main.py