Retrieval Augmented Generation for news - Pengambilan Retrieval Augmented Generation for news

Retrieval Augmented Generation for news

Kode sumber lainnya

1.0.0

Unduh

Retrieval-augmented-generation-for-news

Perangkat lunak Rag (Retrival Augmented Generation) yang didasarkan sepenuhnya open source yang memberikan ringkasan artikel berita terkait yang dibangun menggunakan database vektor chromadb, mixtral-8x7b-instruct-v0.1 llm (melalui replikasi AI), scraper web-bom-ting-ting-tanya-tarik-tarize-tran-tran-transum-tinize, dari Huggingface.

Arsitektur Sistem

Pengumpulan data

Data untuk berbagai kategori artikel berita diperoleh dari file RSS-format yang diformat berikut: Teknologi: https://rss.nytimes.com/services/xml/rss/nyt/technology.xml Sports: https:/rss.nytimes.com/services/xml/rsss/nytpport: solids.nytimes.com/services/xml/RSSSSSSSSSS.NYS.NIME.SERVICES.SERVICES/SXML/RSSSSSSSSSSS.Sport https://rss.nytimes.com/services/xml/rss/nyt/science.xml Health: https://rss.nytimes.com/services/xml/rss/nyt/science.xml

Berita utama, deskripsi, dan domain untuk setiap artikel berita di vektor menggunakan embeddings kalimat-t5-base dan disimpan dalam klien Chromadb yang persisten. Tautan ke artikel berita masing -masing juga disimpan di metadata. Selain itu, berita dari setiap domain disimpan dalam contoh koleksi Chromadb yang berbeda untuk pengambilan yang efisien.

Mengikis web

Pengikisan web telah dilakukan dengan menggunakan pengikis yang disediakan oleh NY Times API, yang hanya memberikan ~ 40-60 kata dari berita. Dindingnya dapat dilewati dengan mudah bahkan dengan Beautifulsoup4 tetapi tidak begitu yakin tentang legalitasnya.

Pemformatan data

Untuk kategorisasi yang cepat, kami telah menggunakan model Mixtral-8x7b-Instruct-V0.1 karena kemampuannya yang luar biasa, eksekusi berbasis cloud pada replikasi AI dan pencegahan halusasi yang mudah. Untuk sumsum teks, kami menggunakan versi model Bart-Large yang disesuaikan dari Huggingface yang awalnya diusulkan oleh Facebook. Model ini telah dilatih pada dataset CNN_DAILYMAIL dan selanjutnya disesuaikan dengan dataset Samsum, mencapai peningkatan 103% dalam benchmark Rouge2. Ini adalah model yang cukup ringan dengan ukuran ~ 1,6 GB. Tautan: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-instruct-v0.1

Penggunaan

Gunakan kunci API Anda dari New York Times API dan replikasi AI API dan gantilah di web_scrape_nyt.py dan categorize_promppt.py masing -masing. Lalu jalankan main.py

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-28
ukuran 492.78KB
Berasal dari Github

Aplikasi Terkait

Jarak Jauh untuk SoundBridge

2024-11-09
Berita Ariana

2024-11-09
Retrieval based Voice Conversion WebUI

2024-11-01
Tantangan Generasi Nol CODEX

2022-11-02
Generasi Nol – Kerusuhan Alpen

2022-08-20
BERITA BMS

2009-04-21

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua