Retrieval Augmented Generation RAG Using Hugging Face Embeddings
1.0.0
该项目演示了如何使用拥抱的面部嵌入和Chromadb实施检索型发电机(RAG)管道,以进行有效的语义搜索。解决方案读取,处理和嵌入文本数据,使用户能够对数据进行准确而快速的查询。
BAAI/bge-base-en-v1.5 )将文本块转换为矢量表示。在运行笔记本之前,请确保安装必要的库:
pip install chromadb
pip install llama-index您还需要克隆所需的数据集,如果您只想检查一下并测试工作:):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split加载数据集:
嵌入创建:
BAAI/bge-base-en-v1.5模型,将文本块转换为向量嵌入。您可以任何喜欢的型号。Chromadb整合:
语义搜索:
要使用代码,请在安装依赖项并克隆所需的数据集后运行笔记本。以下命令可用于查询存储的嵌入:
query_collection ( "Your search query here" , n_results = 1 )这将根据提供的查询返回最相关的文本块。
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)这里有2个文件。简单的一个只需创建一个单个文件的矢量数据库,并且一个可以在具有不同扩展的多个文件上使用的,并创建它们的矢量数据库,您也可以在文本模型上对其进行测试。
该存储库是根据MIT许可证获得许可的。