RAG Retrieval Augmented Generation下載 - RAG Retrieval Augmented Generation代碼下載

RAG Retrieval Augmented Generation

其他源碼

1.0.0

下載

抹布 - 檢索增強一代

使用watsonx使用抹布方法回答自然語言問題

本筆記本包含步驟和代碼，以證明Watsonx.ai中檢索Aug的支持的支持。它介紹了用於數據檢索，知識基礎構建和查詢以及模型測試的命令。

客觀的

使用LLM模型，Langchain和Milvus創建檢索增強發電（RAG）系統。這將使我們能夠在不細化大型語言模型（LLM）的情況下詢問有關我們的文檔的問題（未包含在培訓數據中）。使用抹佈時，如果您有一個問題，則首先要進行檢索步驟，以獲取特殊數據庫的任何相關文檔，該數據庫是索引這些文檔的矢量數據庫。

檢索增強發電（RAG）是一種多功能模式，可以解鎖需要事實召回信息的許多用例，例如以自然語言查詢知識基礎。

定義：

LLM-大語言模型
Langchain-旨在簡化使用LLMS創建應用程序的框架
向量數據庫 - 通過高dimmensional向量組織數據的數據庫
MILVUS-矢量數據庫
抹布 - 檢索增強一代（請參見下面有關破布的更多詳細信息）

什麼是檢索增強發電（RAG）系統？

大型語言模型（LLMS）已證明了他們了解上下文並為各種NLP任務提供準確答案的能力，包括摘要（包括摘要，問答）。雖然能夠為接受培訓的信息提供很好的答案，但當主題是關於他們“不知道”的信息時，他們傾向於幻覺，但IE不包括在他們的培訓數據中。檢索增強一代將外部資源與LLM相結合。因此，抹布的主要兩個組成部分是獵犬和發電機。

檢索器部分可以描述為能夠編碼我們的數據的系統，因此在對其進行查詢時可以輕鬆地檢索其相關部分。編碼是使用文本嵌入式完成的，即經過訓練的模型來創建信息的向量表示。實現獵犬的最佳選擇是矢量數據庫。作為矢量數據庫，有多種選擇，無論是開源還是商業產品。很少有Chromadb，Mevius，Faiss，Pinecone，編織。我們在筆記本中的選項將是Chromadb（持久性）的本地實例。

對於發電機部分，明顯的選項是LLM。在此筆記本中，我們將使用Kaggle Model Collection的量化Llama V2模型。

獵犬和發電機的編排將使用Langchain完成。 Langchain的專門功能使我們能夠以一行代碼創建接收器生成器。

以最簡單的形式，抹布需要3個步驟：