Semantic Search using Gen AI UniversalSentenceEncoder FAISS
1.0.0
これは、コードの主な目的を反映しています。これは、インデックスにFAISSを使用してテキストドキュメントのデータセットでセマンティック検索を実行することと、埋め込みを生成するためのユニバーサルレンネートエンコーダを使用することです。
このコードで:
さまざまなトピックにまたがるドキュメントのコレクションである20のNewsGroups Datasetを取得します。
電子メールヘッダー、アドレス、句読点、番号を削除して各ドキュメントを前処理し、均一性のためにテキストを小文字に変換します。
Universal Sente Encoderを利用して埋め込みを生成し、各ドキュメントを意味の意味をキャプチャして固定長の数値表現に変換します。
FAISSインデックス、高速類似性検索ライブラリを作成し、ドキュメントの埋め込みを追加して、効率的な類似性検索を可能にします。
ユーザーのクエリをプリプセスし、埋め込みを生成し、インデックスから最も類似したドキュメントを取得する検索関数を定義します。
類似性によってランク付けされた上部の結果を表示するクエリのサンプル(「モーターサイクル」)で機能を示します。