A RAG (Retrival Augmented Generation) based fully open source software which provides summaries of related news articles built using ChromaDB vector database, mixtral-8x7b-instruct-v0.1 LLM (through Replicate AI), New York Times web scraper, dhivyeshrk/bart-large-cnn-samsum Fine-Tuned model for text summarization and sentence-transformers/sentence-t5-base embeddings Huggingfaceから。
さまざまなカテゴリのニュース記事のデータは、次のRSS形式のファイルから取得されました:テクノロジー:https://rss.nytimes.com/services/xml/rss/nyt/technology.xmlスポーツ:https://rss.nytimes.com/services/xml/rss/nyt/sports.xml科学: https://rss.nytimes.com/services/xml/rss/nyt/science.xml Health:https://rss.nytimes.com/services/xml/rss/nyt/science.xml
すべてのニュース記事の見出し、説明、およびドメインは、Sente-T5ベースの埋め込みを使用してベクトル化され、永続的なChromaDBクライアントに保存されます。それぞれのニュース記事へのリンクもメタデータに保存されます。さらに、各ドメインからのニュースは、効率的な検索のために異なるChromADBコレクションインスタンスに保存されます。
Webスクレイピングは、NY Times APIが提供するスクレーパーを使用して行われました。壁は、BeautifulSoup4でも簡単にバイパスできますが、その合法性についてはよくわかりません。
迅速な分類のために、その卓越した機能、複製AIのクラウドベースの実行、および幻覚の簡単な予防可能性により、MixTral-8X7B-Instruct-V0.1モデルを使用しました。テキスト責任については、Facebookが元々提案したHuggingfaceのBart-Largeモデルの微調整バージョンを使用します。このモデルはCNN_Dailymailデータセットでトレーニングされており、Samsumデータセットでさらに微調整されており、Rouge2ベンチマークの103%の改善を達成しています。サイズは約1.6 GBのかなり軽量モデルです。リンク:https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-intruct-v0.1
New York Times APIのAPIキーを使用し、AI APIを複製し、それぞれweb_scrape_nyt.pyに置き換えて、それぞれcaltealize_prompt.pyに置き換えます。次に、main.pyを実行します