embedding_studioダウンロードembedding_studioソースコードのダウンロード

embedding_studio

その他のソースコード

v0.0.1

ダウンロード

ウェブサイト•ドキュメント•課題とソリューション•ユースケース

Embedding Studioは、組み合わせた埋め込みモデルとベクトルデータベースを包括的な検索エンジンにシームレスに変換するように設計された革新的なオープンソースフレームワークです。クリックストリームコレクション用の機能性が組み込まれており、検索エクスペリエンスの継続的な改善、埋め込みモデルの自動適応により、フルサイクル検索エンジン用のすぐに使用できるソリューションを提供します。

コミュニティサポート

埋め込みスタジオは、チームの熱意とともに成長します。リポジトリ上のあなたの星は、私たちが発展し続けるのに役立ちます。
私たちの目標を達成するために私たちに参加してください：

特徴

ベクトルデータベースをフルサイクル検索エンジンに変えます
？§clickStreamなどのユーザーのフィードバックを収集します
（*）イライラする待ち時間なしで、フライで検索エクスペリエンスを改善します
（*）検索品質を監視します
反復的なメトリック微調整手順を介して埋め込みモデルを改善する
？（*）推論のために埋め込みモデルの新しいバージョンを使用します
（*）カタログデータへの埋め込みを事前に微調整します。
？（*）ゼロショットクエリパーサーを使用して改善して、構造化されたデータベースと構造化されていない検索を混合します。

（*） - 開発の機能

埋め込みスタジオは高度にカスタマイズ可能なので、あなたはあなた自身を持参できます：

データソース
ベクトルデータベース
クリックストリームデータベース
埋め込みモデル

埋め込みスタジオはいつ最適なのですか？

こちらの詳細。

広範なカタログと豊富な非構造化データを備えた企業。
？§？パーソナライズされたエクスペリエンスを優先する顧客中心のプラットフォーム。
進化するコンテンツとユーザーの好みを備えた動的コンテンツプラットフォーム。
??微妙なおよび多面的な検索クエリを処理するプラットフォーム。
検索プロセスにおける混合データ型の統合。
ユーザーインタラクションを通じて継続的な最適化を求めるプラットフォーム。
？強力でありながら手頃なソリューションを求めている予算に配慮した組織。

課題は解決できます

免責事項：埋め込みスタジオはさらに別のベクターデータベースではありません。これは、ベクターデータベースをすべてのニュアンスを持つ検索エンジンに変換できるフレームワークです。

カタログだけではありませんが、簡単なデモが必要です
静的な検索品質ですが、時間とともに改善したい
ユーザーエクスペリエンスの改善には時間がかかりすぎて、ユーザーはイライラしていると感じます
ゆっくりとリソースの使い果たされたインデックスの更新
構造化された構造化と非構造化された検索の組み合わせ、そしてそれらを結合する方法がわかりません
構造化されていないクエリを使用した構造化された検索、そしてそれらを適切に解析する必要があります
新鮮なアイテムが迷子になっています

課題と解決策の詳細はこちら

概要

当社のフレームワークを使用すると、ユーザーエクスペリエンスに基づいてモデルを継続的に微調整し、ユーザークエリの検索結果をより速くより正確に形成することができます。

$ color {red} { textsf {red：}} $グラフでは、フルテキスト検索（FTS）、最近隣接検索（NNS）などの機能強化のない典型的な検索ソリューションは、赤でマークされています。追加のツールを使用しないと、検索品質は時間の経過とともに変化しません。

$ color {orange} { textsf {orange：}} $いくつかのフィードバック（クリック、レビュー、投票、ディスカッションなど）を蓄積するソリューションが描かれ、完全なモデル再トレーニングを開始します。これらのソリューションの主な問題は、完全なモデル再訓練は時間のかかる高価な手順であり、反応的な調整がないことです（たとえば、製品が突然需要の増加を経験し、検索システムがまだ適応していない場合）。

$ color {＃6666ff} { textsf {indigo：}} $ユーザーのフィードバックを収集し、古いバージョンと新しいバージョンの違いに関するモデルを迅速に再訓練できるソリューションを提案します。これにより、システムのよりスムーズで関連性の高い検索品質曲線が可能になります。

埋め込みスタジオチャート

ドキュメント

公式のドキュメントをご覧ください。

はじめる

こんにちは、構造化されていない世界！

埋め込みスタジオを試すには、事前に構成されたデモンストレーションプロジェクトを開始できます。パブリックS3バケットに保存されたデータセット、ユーザークリック用のエミュレータ、モデルを微調整するための基本的なスクリプトを準備しました。要件に適応することにより、モデルの微調整を開始できます。

システムで動作するdocker compose versionコマンドがあることを確認してください。

Docker Compose version v2.23.3

Docker-Composeバージョンコマンドを試すこともできます。今後、新しいDocker Composeバージョンコマンドを使用しますが、Docker-Composeバージョンコマンドもシステムでうまく機能する場合があります。

まず、次のコマンドを実行して、すべての埋め込みスタジオサービスを作成します。

docker compose up -d

すべてのサービスが終了したら、埋め込みスタジオの使用を開始できます。ユーザー検索セッションをシミュレートしましょう。埋め込みスタジオAPIを呼び出してユーザーの動作をエミュレートする事前に構築されたスクリプトを実行します。

docker compose --profile demo_stage_clickstream up -d

スクリプトの実行後、モデルの微調整を開始できます。次のコマンドを実行します。

docker compose --profile demo_stage_finetuning up -d

これにより、微調整者が処理するタスクがキューになります。微調整キューですべてのタスクを取得するには、エンドポイント/api/v1/fine-tuning/taskにGETリクエストを送信します。

curl -X GET http://localhost:5000/api/v1/fine-tuning/task

答えは次のようなものになります：

[
  {
    "fine_tuning_method" : " Default Fine Tuning Method " ,
    "status" : " processing " ,
    "created_at" : " 2023-12-21T14:30:25.823000 " ,
    "updated_at" : " 2023-12-21T14:32:16.673000 " ,
    "batch_id" : " 65844a671089823652b83d43 " ,
    "id" : " 65844c019fa7cf0957d04758 "
  }
]

タスクIDを取得したら、Endpoint /api/v1/fine-tuning/task/{task_id}にGETリクエストを送信することにより、微調整の進行状況を直接監視できます。

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

結果は、すべてのタスクをクエリするときに受け取ったものと似ています。進行状況を追跡するためのより便利な方法については、http：// localhost：5001でMLFLOWを使用できます。

また、 fine_tuning_workerのログをチェックして、すべてが正しく機能していることを確認することも有益です。これを行うには、コマンドを使用してすべてのサービスをリストします。

docker logs embedding_studio-fine_tuning_worker-1

すべてが正常に完了した場合、次のようなログが表示されます。

Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,931] [PID 7] [Thread-6] [pytorch_lightning.utilities.rank_zero] [INFO] ` Trainer.fit ` stopped: ` max_epochs=3 ` reached.
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Save model (best only, current quality: 8.426392069685529e-05)
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Save model for 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:06,009] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [WARNING] No finished experiments found with model uploaded, except initial
[2023-12-21 14:59:16,432] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Upload is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Saving is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current run 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:16,445] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current run is finished
[2023-12-21 14:59:16,656] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current iteration 2
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current iteration is finished
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.worker] [INFO] Fine tuning of the embedding model was completed successfully !

おめでとう！モデルの改善に成功しました！

最適なモデルをダウンロードするには、埋め込みスタジオAPIを使用できます。

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

すべてが問題ない場合、次の出力が表示されます。

{
  "fine_tuning_method" : " Default Fine Tuning Method " , 
  "status" : " done " , 
  "best_model_url" : " http://localhost:5001/get-artifact?path=model%2Fdata%2Fmodel.pth&run_uuid=571304f0c330448aa8cbce831944cfdd " , 
  ...
}

およびbest_model_urlフィールドには、httpアクセス可能なmodel.pthファイルが含まれています。

次のコマンドを実行して、 *.pthファイルをダウンロードできます。

wget http://localhost:5001/get-artifact ? path=model%2Fdata%2Fmodel.pth & run_uuid=571304f0c330448aa8cbce831944cfdd

貢献

埋め込みスタジオへの貢献を歓迎します！

ライセンス

埋め込みスタジオは、バージョン2.0のApacheライセンスに基づいてライセンスされています。完全なライセンステキストについては、ライセンスを参照してください。

拡大する

追加情報

バージョン v0.0.1
タイプその他のソースコード
更新時間 2025-03-12
サイズ 10.51MB
から Github

embedding_studio

特徴

埋め込みスタジオはいつ最適なのですか？

課題は解決できます

概要

ドキュメント

はじめる

こんにちは、構造化されていない世界！

貢献

ライセンス

PwR Studio

studio

langgraph studio

DiffSynth Studio

sam2 studio

gb studio

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express