
KnowledgeGpt soll Informationen aus verschiedenen Quellen sammeln, einschließlich des Internets und der lokalen Daten, mit denen Eingabeaufforderungen erstellt werden können. Diese Eingabeaufforderungen können dann vom GPT-3-Modell von OpenAI verwendet werden, um Antworten zu generieren, die anschließend in einer Datenbank zur zukünftigen Referenz gespeichert werden.
Um dies zu erreichen, wird der Text zunächst unter Verwendung von Open Source- oder OpenAI-Modellen in einen Vektor mit fester Größe umgewandelt. Wenn eine Abfrage eingereicht wird, wird der Text ebenfalls in einen Vektor umgewandelt und mit den gespeicherten Wissensbettungen verglichen. Die relevantesten Informationen werden dann ausgewählt und verwendet, um einen schnellen Kontext zu generieren.
KnowledgeGPT unterstützt verschiedene Informationsquellen, einschließlich Websites, PDFs, PowerPoint -Dateien (PPTX) und Dokumenten (DOCS). Darüber hinaus kann es Text aus YouTube-Untertiteln und Audio (mithilfe von Sprach-Text-Technologie) extrahieren und als Informationsquelle verwenden. Dies ermöglicht eine Vielzahl von Informationen, die gesammelt und zum Generieren von Angaben und Antworten verwendet werden können.
PYPI -Installation, im Terminal ausgeführt: pip install knowledgegpt
Oder Sie können die neueste Version aus dem Repository: pip install -r requirements.txt und dann pip install .
Laden Sie das benötigte Sprachmodell für Parsen herunter: python3 -m spacy download en_core_web_sm
uvicorn server:app --reload
# Import the library
from knowledgegpt . extractors . web_scrape_extractor import WebScrapeExtractor
# Import OpenAI and Set the API Key
import openai
from example_config import SECRET_KEY
openai . api_key = SECRET_KEY
# Define target website
url = "https://en.wikipedia.org/wiki/Bombard_(weapon)"
# Initialize the WebScrapeExtractor
scrape_website = WebScrapeExtractor ( url = url , embedding_extractor = "hf" , model_lang = "en" )
# Prompt the OpenAI Model
answer , prompt , messages = scrape_website . extract ( query = "What is a bombard?" , max_tokens = 300 , to_save = True , mongo_client = db )
# See the answer
print ( answer )
# Output: 'A bombard is a type of large cannon used during the 14th to 15th centuries.'Andere Beispiele finden Sie im Beispiel -Ordner. Aber um eine bessere Vorstellung davon zu geben, wie die Bibliothek verwendet wird, finden Sie hier ein einfaches Beispiel:
# Basic Usage
basic_extractor = BaseExtractor ( df )
answer , prompt , messages = basic_extractor . extract ( "What is the title of this PDF?" , max_tokens = 300 ) # PDF Extraction
pdf_extractor = PDFExtractor ( pdf_file_path , extraction_type = "page" , embedding_extractor = "hf" , model_lang = "en" )
answer , prompt , messages = pdf_extractor . extract ( query , max_tokens = 1500 ) # PPTX Extraction
ppt_extractor = PowerpointExtractor ( file_path = ppt_file_path , embedding_extractor = "hf" , model_lang = "en" )
answer , prompt , messages = ppt_extractor . extract ( query , max_tokens = 500 ) # DOCX Extraction
docs_extractor = DocsExtractor ( file_path = "../example.docx" , embedding_extractor = "hf" , model_lang = "en" , is_turbo = False )
answer , prompt , messages =
docs_extractor . extract ( query = "What is an object detection system?" , max_tokens = 300 ) # Extraction from Youtube video (audio)
scrape_yt_audio = YoutubeAudioExtractor ( video_id = url , model_lang = 'tr' , embedding_extractor = 'hf' )
answer , prompt , messages = scrape_yt_audio . extract ( query = query , max_tokens = 1200 )
# Extraction from Youtube video (transcript)
scrape_yt_subs = YTSubsExtractor ( video_id = url , embedding_extractor = 'hf' , model_lang = 'en' )
answer , prompt , messages = scrape_yt_subs . extract ( query = query , max_tokens = 1200 )docker build -t knowledgegptimage .
docker run -p 8888:8888 knowledgegptimage(Verlängert werden ...)
(Mit einem besseren Bild aktualisiert werden)