Retrieval Augmented Generation RAG Using Hugging Face Embeddings
1.0.0
このプロジェクトは、効率的なセマンティック検索のためにハグする顔の埋め込みとChromaDBを使用して、検索された生成(RAG)パイプラインを実装する方法を示しています。ソリューションはテキストデータを読み取り、処理、埋め込み、ユーザーがデータで正確で高速なクエリを実行できるようにします。
BAAI/bge-base-en-v1.5 )を利用して、テキストチャンクをベクトル表現に変換します。ノートブックを実行する前に、必要なライブラリがインストールされていることを確認してください。
pip install chromadb
pip install llama-indexまた、あなたがそれをチェックして、動作をテストしたい場合は、顔を抱きしめることから必要なデータセットをクローンする必要があります:):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitデータセットのロード:
作成の埋め込み:
BAAI/bge-base-en-v1.5モデルを使用して、テキストチャンクはベクター埋め込みに変換されます。好みのモデルは任意のモデルです。ChromaDB統合:
セマンティック検索:
コードを使用するには、依存関係をインストールし、必要なデータセットをクローニングした後にノートブックを実行するだけです。次のコマンドを使用して、保存された埋め込みを照会できます。
query_collection ( "Your search query here" , n_results = 1 )これにより、提供されたクエリに基づいて、最も関連性の高いテキストチャンクが返されます。
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)ここには2つのファイルがあります。単純なものは、単一のファイルのベクトルデータベースを作成するだけで、Advanceは異なる拡張機能を備えた複数のファイルで動作し、それらのベクトルデータベースを作成できます。また、テキストGenモデルでテストすることもできます。
このリポジトリは、MITライセンスの下でライセンスされています。