將概念標籤解析到現有數據庫中的標準化標識符中,這是註釋生物醫學數據的基本要求。儘管有幾種註釋服務,包括生物質量和翻譯名稱分辨率服務,但其中大多數依賴於直接的匹配機制(分別是MGREP和SOLR)。不幸的是,當處理具有標準化標識符或處理同義詞時表現出很大變化的概念標籤時,這些機制通常會缺乏。
我們建議探索媒介相似性搜索的使用,以提高概念解決的準確性。我們將利用Translator Babel項目收集的廣泛數據集,其中包括來自生物醫學領域的大量標識符,標籤和同義詞的存儲庫(PubChem,Chembl,Chembl,Uniprot,Mondo,Mondo,Mondo,OMIM,HGNC,Drugbank等)。
在生物醫學鏈接的註釋黑客馬拉松期間,我們的主要目標如下:
名稱“分辨率服務”將被公開為開放式API,以概念標籤為輸入,並返回由帶有分數和其ID curie的字典表示的匹配實體列表,標籤,標籤,同義詞。
| 姓名 | 創建 | Github星星 | 寫在 | SDK | 查詢語言/API* | 實施向量功能 | 評論 |
|---|---|---|---|---|---|---|---|
| QDRANT | 2020年7月 | 〜14k | 銹 | Python,JS,Rust,Go,.net | OpenAPI,GRPC | 餘弦,歐幾里得,點 | 可以用作本地獨立工具,在內存或磁盤上持續使用,而無需部署Web服務 |
| 米爾維斯 | 2019年10月 | 〜24K | 去 | Python,JS,Java,去 | Openapi❓️ | 餘弦,歐幾里得,內部產品 | 又名。 Zilliz雲 |
| 色度 | 2022年10月 | 〜9K | Python | Python,JS | Openapi❓️ | ||
| 編織 | 2016年3月 | 〜8K | 去 | Python,JS,Java,去 | GraphQL API | 餘弦,歐幾里得 | |
| PGVECTOR | 2021年4月 | 〜6.5k | c | 通過Postgres SDK❓️ | SQL | 餘弦,歐幾里得,內部產品,出租車 | 集成在Postgresql中 |
*查詢語言/API指定可以使用哪種查詢語言或API來查詢矢量數據庫中的信息
所有這些產品都是開源的,他們都提出了一個簡單的Web UI來探索矢量數據庫。
他們中的大多數都有現代而簡單的API(除了居住在PostgreSQL中的PGVECTOR之外)
文本嵌入式模型的參考基準:https://huggingface.co/blog/mteb
排行榜:https://huggingface.co/spaces/mteb/leaderboard
流行的嵌入模型:
bge-large-en-v1.5text-embedding-ada-002sentence-transformers/all-MiniLM-L6-v2jina-embeddings-v2-base-enembed-english-v3.0 定義。
矢量數據庫的現有基準:
19/01/2024的初步結果(Babel同義詞尚未滿載,丟失毒品的文件:基因,蛋白質,生物,途徑,UMLS):大多數問題似乎與“大鼠”和“ ACP-044劑量A”分開解決(沒有時間,但沒有有趣的結果)
開始服務:
docker compose up -d進入workspace容器以運行加載腳本。
下載Babel同義詞並將它們加載到VectordB中:
make load(實驗)PGVECTOR中的PubDictionalies:
python src/pubdict_load.pylimit功能(如果VectordB的第2個結果是從同一點起的,那麼我們將僅返回1個結果,這將與用戶要求的2個限制匹配)可能的解決方案是使用Postgres和PGVector,其中有2個表(一個用於嵌入,一個用於概念信息),但這將使系統比JSON商店更複雜。
是否有任何自我託管vectordb可以為一個點支持多個未命名的向量? (QDRANT當前僅支持多個命名向量,這些向量不適合我們的用例)
簡介演示文稿:https://docs.google.com/presentation/d/1_ntmf-lthvybbvfusdxsdxsdbeb0wm_yr_yr_yr_yr_yr_yr_bvnnt-ivlktc/edit
PubDictionaries實驗:https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgzifn22v9kpzfo4etxl89m/edit
結論介紹:https://docs.google.com/presentation/d/1sjeuo4oegnmamtrvcawb0tzjzr9sgnyh-efwtjf9999lg/edit
Preprint Biohackrxiv論文:http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-4f35-8768-8768-8768-8faf62d731fa e
演示API:https://concept-resolver.137.120.31.102.nip.io