Retrieval Augmented Generation for news生成 - Retrieval Augmented Generation for news拡張生成

Retrieval Augmented Generation for news

その他のソースコード

1.0.0

ダウンロード

回収された新生のために、新たなもの

A RAG (Retrival Augmented Generation) based fully open source software which provides summaries of related news articles built using ChromaDB vector database, mixtral-8x7b-instruct-v0.1 LLM (through Replicate AI), New York Times web scraper, dhivyeshrk/bart-large-cnn-samsum Fine-Tuned model for text summarization and sentence-transformers/sentence-t5-base embeddings Huggingfaceから。

システムアーキテクチャ

データ収集

さまざまなカテゴリのニュース記事のデータは、次のRSS形式のファイルから取得されました：テクノロジー：https：//rss.nytimes.com/services/xml/rss/nyt/technology.xmlスポーツ：https：//rss.nytimes.com/services/xml/rss/nyt/sports.xml科学： https://rss.nytimes.com/services/xml/rss/nyt/science.xml Health：https：//rss.nytimes.com/services/xml/rss/nyt/science.xml

すべてのニュース記事の見出し、説明、およびドメインは、Sente-T5ベースの埋め込みを使用してベクトル化され、永続的なChromaDBクライアントに保存されます。それぞれのニュース記事へのリンクもメタデータに保存されます。さらに、各ドメインからのニュースは、効率的な検索のために異なるChromADBコレクションインスタンスに保存されます。

ウェブスクレイピング

Webスクレイピングは、NY Times APIが提供するスクレーパーを使用して行われました。壁は、BeautifulSoup4でも簡単にバイパスできますが、その合法性についてはよくわかりません。

データフォーマット

迅速な分類のために、その卓越した機能、複製AIのクラウドベースの実行、および幻覚の簡単な予防可能性により、MixTral-8X7B-Instruct-V0.1モデルを使用しました。テキスト責任については、Facebookが元々提案したHuggingfaceのBart-Largeモデルの微調整バージョンを使用します。このモデルはCNN_Dailymailデータセットでトレーニングされており、Samsumデータセットでさらに微調整されており、Rouge2ベンチマークの103％の改善を達成しています。サイズは約1.6 GBのかなり軽量モデルです。リンク：https：//huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-intruct-v0.1