本筆記本包含步驟和代碼,以證明Watsonx.ai中檢索Aug的支持的支持。它介紹了用於數據檢索,知識基礎構建和查詢以及模型測試的命令。
使用LLM模型,Langchain和Milvus創建檢索增強發電(RAG)系統。這將使我們能夠在不細化大型語言模型(LLM)的情況下詢問有關我們的文檔的問題(未包含在培訓數據中)。使用抹佈時,如果您有一個問題,則首先要進行檢索步驟,以獲取特殊數據庫的任何相關文檔,該數據庫是索引這些文檔的矢量數據庫。
檢索增強發電(RAG)是一種多功能模式,可以解鎖需要事實召回信息的許多用例,例如以自然語言查詢知識基礎。
大型語言模型(LLMS)已證明了他們了解上下文並為各種NLP任務提供準確答案的能力,包括摘要(包括摘要,問答)。雖然能夠為接受培訓的信息提供很好的答案,但當主題是關於他們“不知道”的信息時,他們傾向於幻覺,但IE不包括在他們的培訓數據中。檢索增強一代將外部資源與LLM相結合。因此,抹布的主要兩個組成部分是獵犬和發電機。
檢索器部分可以描述為能夠編碼我們的數據的系統,因此在對其進行查詢時可以輕鬆地檢索其相關部分。編碼是使用文本嵌入式完成的,即經過訓練的模型來創建信息的向量表示。實現獵犬的最佳選擇是矢量數據庫。作為矢量數據庫,有多種選擇,無論是開源還是商業產品。很少有Chromadb,Mevius,Faiss,Pinecone,編織。我們在筆記本中的選項將是Chromadb(持久性)的本地實例。
對於發電機部分,明顯的選項是LLM。在此筆記本中,我們將使用Kaggle Model Collection的量化Llama V2模型。
獵犬和發電機的編排將使用Langchain完成。 Langchain的專門功能使我們能夠以一行代碼創建接收器生成器。
以最簡單的形式,抹布需要3個步驟:
Wikipedia的690,000個單詞的清潔文字。
有三個問題文件,一個針對學生的學生:S08,S09和S10。
“ QuestionAnswerpairs.txt”文件既包含問題和答案。該文件中的列如下:
被認為是貧窮的問題被從該數據集中丟棄了。
經常有相同問題的多行,如果這些問題是由多個人回答的。 https://www.kaggle.com/rtatman/questionanswer-dataset