VerAIzon
1.0.0
抹布(檢索增強一代)聊天機器人伴隨Mistral-7B,專門針對Verizon客戶服務量身定制。

使用data_extraction.py文件通過迭代提取來收集數據。該代碼僅以2個鏈接開頭 - [https://www.verizon.com/home/internet/',https:/'https://community.verizon.com/'],然後在運行時,它刪除了這兩個網頁中的所有鏈接,並在這兩個網頁中進行了所有鏈接,並創建了大約一個數據集的數據,大約是1000 pages的數據。另一個數據來源是https://www.verizon.com/about/terms-conditions/user-guides上可用的用戶加油站。
LLMS無法處理整個數據,因此我們需要將數據分為一小部分文本。使用Langchain分裂的遞歸字符將數據集拆分為小塊。一旦有了小塊,我們就可以通過HuggingFace Embeddings使用All-Minilm-L12-V2模型來創建其嵌入。
一旦我們將嵌入與文本塊相對應,我們就可以將其存儲在矢量數據庫中。出於我們的目的,我們使用了FAISS(Facebook AI相似性搜索)矢量店,因為在計算大量數據時相似性時,它是高效的。
對於檢索部分,我們將用戶問題作為輸入,並使用FAISS搜索可能會回答用戶查詢的FAISS搜索中找到最匹配的塊。
一旦我們擁有最匹配的塊,我們就可以將它們標記為上下文,並將其傳遞到模型的自定義提示中。出於目的,我們使用了以下提示 -
[ INST ] You are a Verizon company 's chatbot, Only use the following pieces of context to answer the user' s question . If the answer is not present in context , just say that you don 't know and display the following link "https://www.verizon.com/support/residential/contact-us/contactuslanding.htm", don' t try to make up an answer .[ / INST ]
Context : { context }
Question : { question }
answer : 現在,此提示將傳遞給LLM以獲取輸出。我們使用的LLM是Mistral-7b(當前的開源狀態)。