Retrieval Augmented Generation for news - Retrieval Augmented Generation for news

Retrieval Augmented Generation for news

شفرة المصدر الأخرى

1.0.0

تنزيل

استرجاع الجيل المفعول للأغذية

برنامج RAG (الجيل المعزز مع المعزز Retrival) يعتمد على المصادر بالكامل والذي يوفر ملخصات للمقالات الإخبارية ذات الصلة المصممة باستخدام قاعدة بيانات ناقلات ChromadB ، MIXTRAL-8X7B-INSTRUCT-V0.1 LLM (من خلال النسخ المتماثل من AI) ، STRING-BASE-TUND-BASE-TRANSTING-TRANSTANC التضمين من Huggingface.

بنية النظام

جمع البيانات

تم الحصول على بيانات عن فئات مختلفة من المقالات الإخبارية من الملفات التالية rss-formatted: التكنولوجيا: https://rss.nytimes.com/services/xml/rss/nyt/technology.xml Sports: https://rss.nytimes.com/services/xml/rss/nyt/sports.xml https://rss.nytimes.com/services/xml/rss/nyt/science.xml الصحة: https://rss.nytimes.com/services/xml/rss/nyt/science.xml

تتم عناوين العناوين والأوصاف والمجالات لكل مقالة إخبارية باستخدام تضمينات الجملة-T5 وتخزينها في عميل chromadb المستمر. يتم أيضًا تخزين الروابط إلى المقالات الإخبارية المعنية في البيانات الوصفية. بالإضافة إلى ذلك ، يتم تخزين الأخبار من كل مجال في مثيل مجموعة مختلفة من Chromadb لاسترجاع فعال.

تجريف الويب

تم إجراء تجريف الويب باستخدام مكشطة توفرها NY Times API ، والتي تعطي فقط 40-60 كلمة من الأخبار. يمكن تجاوز الجدار بسهولة حتى مع BeautifulSoup4 ولكن ليس متأكدًا تمامًا من شرعيةه.

تنسيق البيانات

بالنسبة للتصنيف السريع ، استخدمنا نموذج Mixtral-8x7B-instruct-V0.1 بسبب قدراته الاستثنائية ، والتنفيذ المستند إلى مجموعة النظراء على التكرار الذكاء الاصطناعي والوقاية من الهلوسة. لتكوين النصوص ، نستخدم إصدارًا دقيقًا من طراز Bart-Large من Huggingface الذي اقترحه Facebook أصلاً. تم تدريب النموذج على مجموعة بيانات CNN_DailyMail وتم ضبطه بشكل أكبر على مجموعة بيانات Samsum ، مما يحقق 103 ٪ من التحسين في ROUGE2. إنه نموذج خفيف الوزن إلى حد ما بحجم 1.6 جيجابايت. الروابط: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-instruct-v0.1

الاستخدام

استخدم مفاتيح API الخاصة بك من API New York Times وقم بتكرار AI API واستبدلها في Web_Scrape_nyt.py و Consigorize_prompt.py على التوالي. ثم تشغيل main.py

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-28
الحجم 492.78KB
من Github

تطبيقات ذات صلة

جهاز التحكم عن بعد لSoundBridge

2024-11-09
أخبار أريانا

2024-11-09
Retrieval based Voice Conversion WebUI

2024-11-01
الجيل صفر يتحدى الدستور الغذائي

2022-11-02
الجيل صفر – اضطرابات جبال الألب

2022-08-20
أخبار بي إم إس

2009-04-21

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل