将概念标签解析到现有数据库中的标准化标识符中,这是注释生物医学数据的基本要求。尽管有几种注释服务,包括生物质量和翻译名称分辨率服务,但其中大多数依赖于直接的匹配机制(分别是MGREP和SOLR)。不幸的是,当处理具有标准化标识符或处理同义词时表现出很大变化的概念标签时,这些机制通常会缺乏。
我们建议探索媒介相似性搜索的使用,以提高概念解决的准确性。我们将利用Translator Babel项目收集的广泛数据集,其中包括来自生物医学领域的大量标识符,标签和同义词的存储库(PubChem,Chembl,Chembl,Uniprot,Mondo,Mondo,Mondo,OMIM,HGNC,Drugbank等)。
在生物医学链接的注释黑客马拉松期间,我们的主要目标如下:
名称“分辨率服务”将被公开为开放式API,以概念标签为输入,并返回由带有分数和其ID curie的字典表示的匹配实体列表,标签,标签,同义词。
| 姓名 | 创建 | Github星星 | 写在 | SDK | 查询语言/API* | 实施向量功能 | 评论 |
|---|---|---|---|---|---|---|---|
| QDRANT | 2020年7月 | 〜14k | 锈 | Python,JS,Rust,Go,.net | OpenAPI,GRPC | 余弦,欧几里得,点 | 可以用作本地独立工具,在内存或磁盘上持续使用,而无需部署Web服务 |
| 米尔维斯 | 2019年10月 | 〜24K | 去 | Python,JS,Java,去 | Openapi❓️ | 余弦,欧几里得,内部产品 | 又名。 Zilliz云 |
| 色度 | 2022年10月 | 〜9K | Python | Python,JS | Openapi❓️ | ||
| 编织 | 2016年3月 | 〜8K | 去 | Python,JS,Java,去 | GraphQL API | 余弦,欧几里得 | |
| PGVECTOR | 2021年4月 | 〜6.5k | c | 通过Postgres SDK❓️ | SQL | 余弦,欧几里得,内部产品,出租车 | 集成在Postgresql中 |
*查询语言/API指定可以使用哪种查询语言或API来查询矢量数据库中的信息
所有这些产品都是开源的,他们都提出了一个简单的Web UI来探索矢量数据库。
他们中的大多数都有现代而简单的API(除了居住在PostgreSQL中的PGVECTOR之外)
文本嵌入式模型的参考基准:https://huggingface.co/blog/mteb
排行榜:https://huggingface.co/spaces/mteb/leaderboard
流行的嵌入模型:
bge-large-en-v1.5text-embedding-ada-002sentence-transformers/all-MiniLM-L6-v2jina-embeddings-v2-base-enembed-english-v3.0 定义。
矢量数据库的现有基准:
19/01/2024的初步结果(Babel同义词尚未满载,丢失毒品的文件:基因,蛋白质,生物,途径,UMLS):大多数问题似乎与“大鼠”和“ ACP-044剂量A”分开解决(没有时间,但没有有趣的结果)
开始服务:
docker compose up -d进入workspace容器以运行加载脚本。
下载Babel同义词并将它们加载到VectordB中:
make load(实验)PGVECTOR中的PubDictionalies:
python src/pubdict_load.pylimit功能(如果VectordB的第2个结果是从同一点起的,那么我们将仅返回1个结果,这将与用户要求的2个限制匹配)可能的解决方案是使用Postgres和PGVector,其中有2个表(一个用于嵌入,一个用于概念信息),但这将使系统比JSON商店更复杂。
是否有任何自我托管vectordb可以为一个点支持多个未命名的向量? (QDRANT当前仅支持多个命名向量,这些向量不适合我们的用例)
简介演示文稿:https://docs.google.com/presentation/d/1_ntmf-lthvybbvfusdxsdxsdbeb0wm_yr_yr_yr_yr_yr_yr_bvnnt-ivlktc/edit
PubDictionaries实验:https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgzifn22v9kpzfo4etxl89m/edit
结论介绍:https://docs.google.com/presentation/d/1sjeuo4oegnmamtrvcawb0tzjzr9sgnyh-efwtjf9999lg/edit
Preprint Biohackrxiv论文:http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-4f35-8768-8768-8768-8faf62d731fa e
演示API:https://concept-resolver.137.120.31.102.nip.io