Retrieval Augmented Generation RAG Using Hugging Face Embeddings抹布下載 - Retrieval Augmented Generation RAG Using Hugging Face Embeddings源代碼下載

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

其他源碼

1.0.0

下載

使用擁抱的臉部嵌入檢索授權一代（抹布）

該項目演示瞭如何使用擁抱的面部嵌入和Chromadb實施檢索型發電機（RAG）管道，以進行有效的語義搜索。解決方案讀取，處理和嵌入文本數據，使用戶能夠對數據進行準確而快速的查詢。

特徵

數據集集成：擁抱面的負載和過程數據集。
文本塊：將大文本分成可管理的塊以嵌入。
嵌入式生成：利用擁抱的面部嵌入（ BAAI/bge-base-en-v1.5 ）將文本塊轉換為矢量表示。
Chromadb存儲：在Chromadb中存放嵌入，以便於檢索。
語義搜索：根據提供的語義相似性，根據提供的提示符查詢存儲的數據以獲取相關文本。

安裝

在運行筆記本之前，請確保安裝必要的庫：

pip install chromadb
pip install llama-index

您還需要克隆所需的數據集，如果您只想檢查一下並測試工作:)：

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

它如何工作

加載數據集：
- 筆記本將“評估學生寫作”數據集加載，並將文本分成塊以嵌入。
嵌入創建：
- 使用BAAI/bge-base-en-v1.5模型，將文本塊轉換為向量嵌入。您可以任何喜歡的型號。
Chromadb整合：
- 生成的嵌入以及它們相應的文本塊，存儲在Chromadb中，以進行持久和以後的查詢。
語義搜索：
- 提供了查詢功能，用於使用給定的輸入查詢搜索矢量數據庫。根據與查詢的相似性返回相關塊。

用法

要使用代碼，請在安裝依賴項並克隆所需的數據集後運行筆記本。以下命令可用於查詢存儲的嵌入：

 query_collection ( "Your search query here" , n_results = 1 )

這將根據提供的查詢返回最相關的文本塊。

例子

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)