
KnowledgeGPT ได้รับการออกแบบมาเพื่อรวบรวมข้อมูลจากแหล่งต่าง ๆ รวมถึงอินเทอร์เน็ตและข้อมูลท้องถิ่นซึ่งสามารถใช้ในการสร้างพรอมต์ การแจ้งเตือนเหล่านี้สามารถใช้งานได้โดยโมเดล GPT-3 ของ OpenAI เพื่อสร้างคำตอบที่เก็บไว้ในฐานข้อมูลสำหรับการอ้างอิงในอนาคต
ในการทำสิ่งนี้ให้สำเร็จข้อความจะถูกแปลงเป็นเวกเตอร์ขนาดคงที่โดยใช้โมเดลโอเพนซอร์สหรือ OpenAI เมื่อมีการส่งแบบสอบถามข้อความจะถูกเปลี่ยนเป็นเวกเตอร์และเปรียบเทียบกับความรู้ที่เก็บไว้ที่ฝังอยู่ ข้อมูลที่เกี่ยวข้องมากที่สุดจะถูกเลือกและใช้เพื่อสร้างบริบทที่รวดเร็ว
KnowledgeGPT สนับสนุนแหล่งข้อมูลต่าง ๆ รวมถึงเว็บไซต์, PDF, ไฟล์ PowerPoint (PPTX) และเอกสาร (เอกสาร) นอกจากนี้ยังสามารถแยกข้อความจากคำบรรยายและเสียงของ YouTube (ใช้เทคโนโลยีคำพูดเป็นข้อความ) และใช้เป็นแหล่งข้อมูล สิ่งนี้ช่วยให้สามารถรวบรวมข้อมูลที่หลากหลายและใช้สำหรับการสร้างพรอมต์และคำตอบ
การติดตั้ง PYPI, รันในเทอร์มินัล: pip install knowledgegpt
หรือคุณสามารถใช้เวอร์ชันล่าสุดได้จากที่เก็บ: pip install -r requirements.txt จากนั้น pip install .
ดาวน์โหลดรูปแบบภาษาที่จำเป็นสำหรับการแยกวิเคราะห์: python3 -m spacy download en_core_web_sm
uvicorn server:app --reload
# Import the library
from knowledgegpt . extractors . web_scrape_extractor import WebScrapeExtractor
# Import OpenAI and Set the API Key
import openai
from example_config import SECRET_KEY
openai . api_key = SECRET_KEY
# Define target website
url = "https://en.wikipedia.org/wiki/Bombard_(weapon)"
# Initialize the WebScrapeExtractor
scrape_website = WebScrapeExtractor ( url = url , embedding_extractor = "hf" , model_lang = "en" )
# Prompt the OpenAI Model
answer , prompt , messages = scrape_website . extract ( query = "What is a bombard?" , max_tokens = 300 , to_save = True , mongo_client = db )
# See the answer
print ( answer )
# Output: 'A bombard is a type of large cannon used during the 14th to 15th centuries.'ตัวอย่างอื่น ๆ สามารถพบได้ในโฟลเดอร์ตัวอย่าง แต่เพื่อให้ความคิดที่ดีขึ้นเกี่ยวกับวิธีการใช้ห้องสมุดนี่คือตัวอย่างง่ายๆ:
# Basic Usage
basic_extractor = BaseExtractor ( df )
answer , prompt , messages = basic_extractor . extract ( "What is the title of this PDF?" , max_tokens = 300 ) # PDF Extraction
pdf_extractor = PDFExtractor ( pdf_file_path , extraction_type = "page" , embedding_extractor = "hf" , model_lang = "en" )
answer , prompt , messages = pdf_extractor . extract ( query , max_tokens = 1500 ) # PPTX Extraction
ppt_extractor = PowerpointExtractor ( file_path = ppt_file_path , embedding_extractor = "hf" , model_lang = "en" )
answer , prompt , messages = ppt_extractor . extract ( query , max_tokens = 500 ) # DOCX Extraction
docs_extractor = DocsExtractor ( file_path = "../example.docx" , embedding_extractor = "hf" , model_lang = "en" , is_turbo = False )
answer , prompt , messages =
docs_extractor . extract ( query = "What is an object detection system?" , max_tokens = 300 ) # Extraction from Youtube video (audio)
scrape_yt_audio = YoutubeAudioExtractor ( video_id = url , model_lang = 'tr' , embedding_extractor = 'hf' )
answer , prompt , messages = scrape_yt_audio . extract ( query = query , max_tokens = 1200 )
# Extraction from Youtube video (transcript)
scrape_yt_subs = YTSubsExtractor ( video_id = url , embedding_extractor = 'hf' , model_lang = 'en' )
answer , prompt , messages = scrape_yt_subs . extract ( query = query , max_tokens = 1200 )docker build -t knowledgegptimage .
docker run -p 8888:8888 knowledgegptimage(จะขยายออกไป ... )
(เพื่ออัปเดตด้วยภาพที่ดีกว่า)