Retrieval Augmented Generation for news Download - Retrieval Augmented Generation for news Source Code Download

Retrieval Augmented Generation for news

Autre code source

1.0.0

Télécharger

Génération de la récupération pour news

Un logiciel entièrement open source RAG (Retrval Augmented Generation) qui fournit des résumés d'articles de presse connexes construits à l'aide de la base de données vectorielle ChromAdB, Mixtral-8x7B-Instruct-V0.1 LLM (via Replicate AI), le nouveau gratte Étreinte.

Architecture du système

Collecte de données

Des données pour différentes catégories d'articles de presse ont été obtenues à partir des fichiers formés RSS suivants: Technologie: https://rss.nytimes.com/services/xml/rss.nyt/technology.xml sports: https://rs.nytimes.com/services/xml/rss/nyt/sports.xml science: https://rs.nytimes.com/services/xml/rss/nyt/science.xml Santé: https://rs.nytimes.com/services/xml/rss/nyt/science.xml

Les titres, descriptions et les domaines de chaque article de presse sont vectorisés à l'aide des intégres de base de phrase-T5 et stockés dans un client chromadb persistant. Les liens vers les articles de presse respectifs sont également stockés dans les métadonnées. De plus, les nouvelles de chaque domaine sont stockées dans une instance de collection ChromADB différente pour une récupération efficace.

Grattage Web

Le grattage Web a été effectué en utilisant le grattoir fourni par l'API NY Times, qui ne donne que ~ 40 à 60 mots de l'actualité. Le mur peut être contourné facilement même avec BeautifulSoup4 mais pas tout à fait sûr de sa légalité.

Formatage des données

Pour la catégorisation rapide, nous avons utilisé le modèle Mixtral-8x7B-Instruct-V0.1 en raison de ses capacités exceptionnelles, de l'exécution basée sur le cloud sur une IA répliqué et de la prévention sans effort d'hallucination. Pour la sous-estimation du texte, nous utilisons une version affinée du modèle BART-Garg de HuggingFace proposé à l'origine par Facebook. Le modèle a été formé sur un ensemble de données CNN_DailyMail et a été affiné sur l'ensemble de données Samsum, réalisant une amélioration de 103% de la référence Rouge2. Il s'agit d'un modèle assez léger avec une taille de ~ 1,6 Go. Liens: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-struct-v0.1

Usage

Utilisez vos touches API de l'API de New York Times et reproduisez API AI et remplacez-les dans web_scrape_nyt.py et catégorize_prompt.py respectivement. Puis exécutez main.py

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-28
taille 492.78KB
Provenant de Github

Applications connexes

Télécommande pour SoundBridge

2024-11-09
Ariana Nouvelles

2024-11-09
Retrieval based Voice Conversion WebUI

2024-11-01
Génération Zéro Défis CODEX

2022-11-02
Génération Zéro – Troubles alpins

2022-08-20
ACTUALITÉS BMS

2009-04-21

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout