ซอฟต์แวร์โอเพนซอร์สแบบเต็มรูปแบบ (การปรับเปลี่ยน Ragmented) ซึ่งให้บทสรุปของบทความข่าวที่เกี่ยวข้องที่สร้างขึ้นโดยใช้ฐานข้อมูลเวกเตอร์ Chromadb, Mixtral-8x7b-Instruct-V0.1 LLM (ผ่านการทำซ้ำ AI) ฝังตัวจาก HuggingFace
ข้อมูลสำหรับหมวดหมู่ของบทความข่าวต่าง ๆ ได้มาจากไฟล์ rss-formatted ต่อไปนี้: เทคโนโลยี: https://rss.nytimes.com/services/xml/rss/nyt/technology.xml Sports: https://rss.nytimes.com https://rss.nytimes.com/services/xml/rss/nyt/science.xml สุขภาพ: https://rss.nytimes.com/services/xml/rss/nyt/science.xml
พาดหัวข่าวคำอธิบายและโดเมนสำหรับทุกบทความข่าวจะถูกนำไปใช้โดยใช้การฝังตัวของประโยค T5-base และเก็บไว้ในไคลเอนต์ Chromadb ถาวร ลิงก์ไปยังบทความข่าวที่เกี่ยวข้องจะถูกเก็บไว้ในข้อมูลเมตา นอกจากนี้ข่าวจากแต่ละโดเมนจะถูกเก็บไว้ในอินสแตนซ์คอลเลกชัน Chromadb ที่แตกต่างกันเพื่อการดึงที่มีประสิทธิภาพ
การขูดเว็บได้ดำเนินการโดยใช้เครื่องขูดที่จัดทำโดย NY Times API ซึ่งให้เพียง 40-60 คำจากข่าว ผนังสามารถบายพาสได้อย่างง่ายดายแม้จะมี BeautifulSoup4 แต่ไม่แน่ใจเกี่ยวกับความถูกต้องตามกฎหมาย
สำหรับการจัดหมวดหมู่ที่รวดเร็วเราได้ใช้โมเดล Mixtral-8x7b-Instruct-V0.1 เนื่องจากความสามารถพิเศษการดำเนินการบนคลาวด์ในการทำซ้ำ AI และการป้องกันภาพหลอนได้อย่างง่ายดาย สำหรับการส่งข้อความเราใช้รุ่น BART ขนาดใหญ่จาก HuggingFace ที่เสนอโดย Facebook แบบจำลองได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูล CNN_Dailymail และปรับแต่งเพิ่มเติมในชุดข้อมูล Samsum ซึ่งได้รับการปรับปรุง 103% ในเกณฑ์มาตรฐาน Rouge2 มันเป็นรุ่นที่มีน้ำหนักเบาพอสมควรที่มีขนาดประมาณ 1.6 GB ลิงค์: https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replication.com/mistralai/mixtral-8x7b-instruct-v0.1
ใช้คีย์ API ของคุณจาก New York Times API และทำซ้ำ AI API และแทนที่พวกเขาใน web_scrape_nyt.py และ categorize_prompt.py ตามลำดับ จากนั้นเรียกใช้ main.py