embedding_studio下載 - embedding

embedding_studio

其他源碼

v0.0.1

下載

網站•文檔•挑戰和解決方案•用例

Embedding Studio是一個創新的開源框架，旨在無縫將組合的嵌入模型和矢量數據庫轉換為全面的搜索引擎。通過內置功能，可用於ClickStream集合，持續改進搜索體驗以及自動改編嵌入模型，它為全週期搜索引擎提供了開箱即用的解決方案。

社區支持

嵌入工作室隨著我們團隊的熱情而增長。您在存儲庫上的明星有助於我們繼續發展。
加入我們實現我們的目標：

特徵

將矢量數據庫變成全週期搜索引擎
？收集用戶反饋，例如clickstream
（*）在不令人沮喪的等待時間的情況下改善搜索體驗
（*）監視您的搜索質量
通過迭代度量微調程序改善嵌入模型
？（*）將嵌入模型的新版本用於推理
（*）直到將嵌入目錄數據進行微調之前。
？（*）使用並改進零擊查詢解析器將結構化數據庫與非結構化搜索混合在一起。

（*） - 開發中的功能

嵌入工作室是可以自定義的，因此您可以自定義：

數據源
向量數據庫
單擊數據庫
嵌入模型

什麼時候嵌入工作室最適合？

在這裡有更多關於它的信息。

擁有廣泛目錄和豐富的非結構化數據的企業。
？️？以客戶為中心的平台優先考慮個性化體驗。
具有不斷發展的內容和用戶偏好的動態內容平台。
？平台處理細微差別和多方面的搜索查詢。
混合數據類型在搜索過程中的集成。
通過用戶交互尋求持續優化的平台。
？注重預算意識的組織尋求強大而負擔得起的解決方案。

可以解決挑戰

免責聲明：嵌入工作室並不是另一個矢量數據庫，它是一個框架，可以將矢量數據庫轉換為具有所有細微差別的搜索引擎。

只有目錄，但您想要一個快速演示
靜態搜索質量，但您希望隨著時間的推移將其改進
用戶體驗改進需要太長，您的用戶感到自己感到沮喪
緩慢而資源耗盡的索引更新
結構化和非結構化搜索的混合，您不知道如何結合它們
帶有非結構化查詢的結構化搜索，您想正確解析它們
新鮮物品丟失了

有關挑戰和解決方案的更多信息

概述

我們的框架使您能夠根據用戶體驗不斷地微調模型，從而使您更快，更準確地形成搜索結果。

$ color {red} { textsf {red：}} $在圖表上，典型的搜索解決方案沒有增強功能，例如全文搜索（FTS），最近的鄰居搜索（NNS）和其他，以紅色標記。沒有使用其他工具，隨著時間的推移，搜索質量保持不變。

$ color {橙色} { textsf {橙色：}} $描繪的解決方案會積累一些反饋（點擊，評論，投票，討論等），然後啟動完整的模型再培訓。這些解決方案的主要問題是完整的模型再培訓是一個耗時且昂貴的程序，因此缺乏反應性調整（例如，當產品突然遇到需求增加並且搜索系統尚未適應它時）。

$ color {＃6666ff} { textsf {indigo：}} $我們提出了一種解決方案，該解決方案允許收集用戶反饋並迅速對新版本和新版本之間的區別進行迅速檢驗。這使您的系統可以更平滑，更相關的搜索質量曲線。

嵌入工作室圖表

文件

查看我們的正式文檔。

入門

您好，非結構化的世界！

要嘗試嵌入工作室，您可以啟動預先配置的演示項目。我們已經準備了一個存儲在公共S3存儲桶中的數據集，用戶點擊的模擬器以及用於微調模型的基本腳本。通過將其調整為您的要求，您可以為模型啟動微調。

確保您在系統上使用docker compose version命令：

Docker Compose version v2.23.3

您也可以嘗試Docker-Compose版本命令。向前邁進，我們將使用較新的Docker Compose版本命令，但是Docker-Compose版本命令也可以在您的系統上成功使用。

首先，通過執行以下命令來提出所有嵌入工作室服務：

docker compose up -d

一旦所有服務啟動，您就可以開始使用Embedding Studio。讓我們模擬用戶搜索會話。我們將運行一個預構建的腳本，該腳本將調用嵌入式工作室API並效仿用戶行為：

docker compose --profile demo_stage_clickstream up -d

腳本執行後，您可以啟動模型進行微調。執行以下命令：

docker compose --profile demo_stage_finetuning up -d

這將排隊由微調工人處理的任務。要在微調隊列中獲取所有任務，請將GET請求發送到端點/api/v1/fine-tuning/task ：

curl -X GET http://localhost:5000/api/v1/fine-tuning/task

答案將是：

[
  {
    "fine_tuning_method" : " Default Fine Tuning Method " ,
    "status" : " processing " ,
    "created_at" : " 2023-12-21T14:30:25.823000 " ,
    "updated_at" : " 2023-12-21T14:32:16.673000 " ,
    "batch_id" : " 65844a671089823652b83d43 " ,
    "id" : " 65844c019fa7cf0957d04758 "
  }
]

擁有任務ID後，您可以通過將get請求發送到端點/api/v1/fine-tuning/task/{task_id} ：

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

結果將類似於查詢所有任務時收到的內容。對於更方便的跟踪進度方法，您可以在http：// localhost：5001使用MLFLOW。

檢查fine_tuning_worker的日誌以確保一切正常運行，這也是有益的。為此，請使用命令列出所有服務：

docker logs embedding_studio-fine_tuning_worker-1

如果一切成功完成，您會看到類似的日誌：

Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,931] [PID 7] [Thread-6] [pytorch_lightning.utilities.rank_zero] [INFO] ` Trainer.fit ` stopped: ` max_epochs=3 ` reached.
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Save model (best only, current quality: 8.426392069685529e-05)
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Save model for 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:06,009] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [WARNING] No finished experiments found with model uploaded, except initial
[2023-12-21 14:59:16,432] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Upload is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Saving is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current run 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:16,445] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current run is finished
[2023-12-21 14:59:16,656] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current iteration 2
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current iteration is finished
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.worker] [INFO] Fine tuning of the embedding model was completed successfully !

恭喜！您已經成功改進了模型！

要下載最佳型號，您可以使用Embedding Studio API：

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

如果一切正常，您將看到以下輸出：

{
  "fine_tuning_method" : " Default Fine Tuning Method " , 
  "status" : " done " , 
  "best_model_url" : " http://localhost:5001/get-artifact?path=model%2Fdata%2Fmodel.pth&run_uuid=571304f0c330448aa8cbce831944cfdd " , 
  ...
}

和best_model_url字段包含HTTP訪問model.pth 。

您可以通過執行以下命令下載 *.pth文件：

wget http://localhost:5001/get-artifact ? path=model%2Fdata%2Fmodel.pth & run_uuid=571304f0c330448aa8cbce831944cfdd

貢獻

我們歡迎嵌入工作室的貢獻！

執照

嵌入Studio已獲得Apache許可證版本2.0的許可。有關完整許可文本，請參見許可證。

展開

附加信息

版本 v0.0.1
類型其他源碼
更新時間 2025-03-12
大小 10.51MB
來自於 Github

相關應用

PwR Studio

2024-11-14
studio

2024-11-13
langgraph studio

2024-11-09
DiffSynth Studio

2024-11-08
sam2 studio

2024-11-08
gb studio

2024-11-06

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部