Un logiciel entièrement open source RAG (Retrval Augmented Generation) qui fournit des résumés d'articles de presse connexes construits à l'aide de la base de données vectorielle ChromAdB, Mixtral-8x7B-Instruct-V0.1 LLM (via Replicate AI), le nouveau gratte Étreinte.
Des données pour différentes catégories d'articles de presse ont été obtenues à partir des fichiers formés RSS suivants: Technologie: https://rss.nytimes.com/services/xml/rss.nyt/technology.xml sports: https://rs.nytimes.com/services/xml/rss/nyt/sports.xml science: https://rs.nytimes.com/services/xml/rss/nyt/science.xml Santé: https://rs.nytimes.com/services/xml/rss/nyt/science.xml
Les titres, descriptions et les domaines de chaque article de presse sont vectorisés à l'aide des intégres de base de phrase-T5 et stockés dans un client chromadb persistant. Les liens vers les articles de presse respectifs sont également stockés dans les métadonnées. De plus, les nouvelles de chaque domaine sont stockées dans une instance de collection ChromADB différente pour une récupération efficace.
Le grattage Web a été effectué en utilisant le grattoir fourni par l'API NY Times, qui ne donne que ~ 40 à 60 mots de l'actualité. Le mur peut être contourné facilement même avec BeautifulSoup4 mais pas tout à fait sûr de sa légalité.
Pour la catégorisation rapide, nous avons utilisé le modèle Mixtral-8x7B-Instruct-V0.1 en raison de ses capacités exceptionnelles, de l'exécution basée sur le cloud sur une IA répliqué et de la prévention sans effort d'hallucination. Pour la sous-estimation du texte, nous utilisons une version affinée du modèle BART-Garg de HuggingFace proposé à l'origine par Facebook. Le modèle a été formé sur un ensemble de données CNN_DailyMail et a été affiné sur l'ensemble de données Samsum, réalisant une amélioration de 103% de la référence Rouge2. Il s'agit d'un modèle assez léger avec une taille de ~ 1,6 Go. Liens: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-struct-v0.1
Utilisez vos touches API de l'API de New York Times et reproduisez API AI et remplacez-les dans web_scrape_nyt.py et catégorize_prompt.py respectivement. Puis exécutez main.py