Perangkat lunak Rag (Retrival Augmented Generation) yang didasarkan sepenuhnya open source yang memberikan ringkasan artikel berita terkait yang dibangun menggunakan database vektor chromadb, mixtral-8x7b-instruct-v0.1 llm (melalui replikasi AI), scraper web-bom-ting-ting-tanya-tarik-tarize-tran-tran-transum-tinize, dari Huggingface.
Data untuk berbagai kategori artikel berita diperoleh dari file RSS-format yang diformat berikut: Teknologi: https://rss.nytimes.com/services/xml/rss/nyt/technology.xml Sports: https:/rss.nytimes.com/services/xml/rsss/nytpport: solids.nytimes.com/services/xml/RSSSSSSSSSS.NYS.NIME.SERVICES.SERVICES/SXML/RSSSSSSSSSSS.Sport https://rss.nytimes.com/services/xml/rss/nyt/science.xml Health: https://rss.nytimes.com/services/xml/rss/nyt/science.xml
Berita utama, deskripsi, dan domain untuk setiap artikel berita di vektor menggunakan embeddings kalimat-t5-base dan disimpan dalam klien Chromadb yang persisten. Tautan ke artikel berita masing -masing juga disimpan di metadata. Selain itu, berita dari setiap domain disimpan dalam contoh koleksi Chromadb yang berbeda untuk pengambilan yang efisien.
Pengikisan web telah dilakukan dengan menggunakan pengikis yang disediakan oleh NY Times API, yang hanya memberikan ~ 40-60 kata dari berita. Dindingnya dapat dilewati dengan mudah bahkan dengan Beautifulsoup4 tetapi tidak begitu yakin tentang legalitasnya.
Untuk kategorisasi yang cepat, kami telah menggunakan model Mixtral-8x7b-Instruct-V0.1 karena kemampuannya yang luar biasa, eksekusi berbasis cloud pada replikasi AI dan pencegahan halusasi yang mudah. Untuk sumsum teks, kami menggunakan versi model Bart-Large yang disesuaikan dari Huggingface yang awalnya diusulkan oleh Facebook. Model ini telah dilatih pada dataset CNN_DAILYMAIL dan selanjutnya disesuaikan dengan dataset Samsum, mencapai peningkatan 103% dalam benchmark Rouge2. Ini adalah model yang cukup ringan dengan ukuran ~ 1,6 GB. Tautan: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-instruct-v0.1
Gunakan kunci API Anda dari New York Times API dan replikasi AI API dan gantilah di web_scrape_nyt.py dan categorize_promppt.py masing -masing. Lalu jalankan main.py