RAG (retrival ugmented Generation) 기반 완전 오픈 소스 소프트웨어 기반 완전히 오픈 소스 소프트웨어, ChromADB 벡터 데이터베이스, Mixtral-8x7b-Instruct-V0.1 LLM (복제 AI를 통해), New York Times Web Scraper, Dhivyeshrk/Bart-Large-CNN-Samsum 텍스트 및 문장 주머니리/Sentence-Base/Sentence-Bass/Sentence-Base를위한 New York Times Web Scraper를 사용하여 구축 된 관련 뉴스 기사의 요약을 제공합니다. 포옹 페이스의 내부.
다양한 범주의 뉴스 기사에 대한 데이터는 다음 RSS- 형식화 된 파일에서 얻었습니다. 기술 : https://rss.nytimes.com/services/xml/rss/nyt/technology.xml sports : https://rss.nytimes.com/services/xml/rsss/nyt/sports.xml Science : https://rss.nytimes.com/services/xml/rss/nyt/science.xml health : https://rss.nytimes.com/services/xml/rsssss/nyt/science.xml
모든 뉴스 기사에 대한 헤드 라인, 설명 및 도메인은 문장 -T5-베이스 임베딩을 사용하여 벡터화되고 지속적인 ChromADB 클라이언트에 저장됩니다. 각 뉴스 기사에 대한 링크는 메타 데이터에도 저장됩니다. 또한, 각 도메인의 뉴스는 효율적인 검색을 위해 다른 ChromADB 수집 인스턴스에 저장됩니다.
웹 스크래핑은 NY Times API가 제공 한 스크레이퍼를 사용하여 수행되었으며, 뉴스에서 ~ 40-60 단어 만 제공합니다. BeautifulSoup4에서도 벽은 쉽게 우회 할 수 있지만 합법성에 대해서는 확실하지 않습니다.
즉각적인 분류를 위해, 우리는 탁월한 기능, 복제 AI에 대한 클라우드 기반 실행 및 환각의 손쉬운 예방성으로 인해 Mixtral-8x7b-Instruct-V0.1 모델을 사용했습니다. Text-Summarization의 경우 Facebook에서 처음 제안한 Huggingface에서 미세 조정 된 Bart-Large 모델을 사용합니다. 이 모델은 CNN_Dailymail 데이터 세트에 대한 교육을 받았으며 Samsum 데이터 세트에서 더 미세 조정되어 Rouge2 벤치 마크에서 103% 개선을 달성했습니다. 크기가 ~ 1.6GB 인 상당히 가벼운 모델입니다. 링크 : https://huggingface.co/dhivyeshrk/bart-large-cnn-samsum https://replicate.com/mistralai/mixtral-8x7b-instruct-v0.1
New York Times API의 API 키를 사용하고 AI API를 복제하고 Web_SCRAPE_NYT.PY로 교체하고 각각 CATERIZE_PROMPT.PY로 교체하십시오. 그런 다음 main.py를 실행하십시오