Download concept resolver - Download do Código Fonte concept resolver

concept resolver

Outro código-fonte

1.0.0

Baixar

Um serviço de resolução de nomes para conceitos biomédicos, usando bancos de dados de vetores e pesquisa de similaridade

Declaração de problemas

A resolução de rótulos conceituais para identificadores padronizados de bancos de dados existentes é um requisito fundamental no processo de anotação de dados biomédicos. Enquanto vários serviços de anotação, incluindo bioportal e o serviço de resolução de nomes do tradutor, estão disponíveis, a maioria deles depende de mecanismos de correspondência simples (respectivamente MGREP e SOLR). Infelizmente, esses mecanismos geralmente ficam aquém ao lidar com rótulos conceituais que exibem variações substanciais de identificadores padronizados ou ao lidar com sinônimos.

Abordagem

Propomos explorar o uso da pesquisa de similaridade vetorial para melhorar a precisão da resolução conceitual. Aproveitaremos o extenso conjunto de dados coletado pelo Projeto Babel, que inclui um vasto repositório de identificadores, rótulos e sinônimos do domínio biomédico (Pubchem, Chembl, Uniprot, Mondo, Omim, HGNC, DrugBank e muito mais).

Objetivos

Durante o hackathon da anotação vinculada biomédica, nossos principais objetivos são os seguintes:

Escolhendo um modelo de banco de dados vetorial e modelo de incorporação de texto : avaliaremos o banco de dados de vetores de código aberto disponível e os modelos de incorporação de texto para escolher um que atenda às nossas necessidades. Também podemos escolher múltiplos e comparar seus resultados.
Ingestão de dados: estabeleceremos um fluxo de trabalho para gerar incorporações e ingerir os dados do Projeto Babel do tradutor em um banco de dados vetorial. Este banco de dados servirá como base para o nosso serviço de resolução de nomes.
Pesquisa de similaridade vetorial: implementaremos um serviço que permitirá que os usuários recuperem identificadores em potencial para um determinado rótulo conceitual, juntamente com as pontuações indicando o grau de confiança. Este serviço usará a implementação de pesquisa de similaridade do banco de dados vetorial
Avaliação : examinaremos os conjuntos de dados existentes para comparar a eficiência de nossa abordagem e compará -la aos serviços existentes
Explorando casos de uso: Além da resolução conceitual, exploraremos uma série de casos de uso em potencial que podem se beneficiar do banco de dados do vetor. Isso pode incluir descoberta de sinônimos, mapeamento conceitual e recomendação de conceitos.

O serviço de resolução de nome será exposto como uma API descrita em OpenAPI que toma um rótulo conceitual como entrada e retornará uma lista de entidades correspondentes, representadas por um dicionário com a pontuação e seu id curie, etiqueta, sinônimos.

Bancos de dados vetoriais

Nome	Criação	Estrelas do Github	Escrito em	Sdk for	Linguagem de consulta/API*	Implementar funções vetoriais	Comentário
QDRANT	Julho de 2020	~ 14K	Ferrugem	Python, js, ferrugem, go, .net	Openapi, Grpc	Cosseno, Euclid, ponto	Pode ser usado como ferramenta independente local, na memória ou persistente no disco, sem implantar um serviço da web
Milvus	Outubro de 2019	~ 24k	Ir	Python, JS, Java, vá	OpenApi ❓️	cosseno, euclides, produto interno	aka. Zilliz Cloud
Chroma	Outubro de 2022	~ 9K	Python	Python, JS	OpenApi ❓️
Tecelava	Março de 2016	~ 8k	Ir	Python, JS, Java, vá	API do GraphQL	Cosseno, Euclid
PGVECTOR	Abril de 2021	~ 6,5k	C	Através do Postgres Sdk ❓️	SQL	Cosseno, Euclid, Produto Interior, Taxicab	Integrado no PostgreSQL

*Consulta Language/API Especifica qual tipo de linguagem de consulta ou API pode ser usada para consultar as informações dentro do banco de dados vetorial

Todos esses produtos são de código aberto e todos propõem uma interface da web simples para explorar o banco de dados do vetor.

A maioria deles tem uma API moderna e simples (além do PGVector, que vive no PostgreSQL)

Modelos de incorporação de texto

Benchmark de referência para modelos de incorporação de texto: https://huggingface.co/blog/mteb

Robôlego: https://huggingface.co/spaces/mteb/leaderboard

Modelos de incorporação populares:

Flagembedding bge-large-en-v1.5
OpeniAI text-embedding-ada-002
HUGGING sentence-transformers/all-MiniLM-L6-v2
Jina jina-embeddings-v2-base-en
Coere embed-english-v3.0

Conjunto de dados de referência

A ser definido.

Benchmarks existentes para bancos de dados vetoriais:

Benchmarking Vizinhos mais próximos: https://github.com/erikbern/ann-benchmarks/
Artigo sobre benchmarks para bancos de dados de vetores: https://marketing.fmops.ai/blog/vector-benchmarking/
VectordBBench de Milvus/Zilliz: https://github.com/zilliztech/vectordbbench
Referência de QDRANT: https://qdrant.tech/benchmarks/

Benchmark de dados biomédicos

NCBI Disease Corpus: https://www.ncbi.nlm.nih.gov/cbbresearch/dogan/disease/
Bactérias Biotope 4: https://sites.google.com/view/bb-2019/dataset
Biowic: uma referência de avaliação para representação de conceito biomédico
- https://github.com/hrouhizadeh/biowic
- https://huggingface.co/datasets/hrouhizadeh/biowic

Mapeamento de problemas no serviço de resolução de nomes

Translatorsri/NameResolution#81
- "Fasciite isquêmica"
- "Doença isquêmica"
"Rat"/"Rats" não retorna Rattus Norwegicus o suficiente (tradutoresries/nameresolução#127)
"Angiotensina II" não deve combinar "angiotensina" no primeiro (tradutoresri/nameresolution#90)
"ACP-044 Dose A" Timeout (Translatorsri/NameResolution#95)
"Long Covid-19" não deve corresponder "por muito tempo" no primeiro (tradutoresri/nameresolution#72)
"Depressão" deve corresponder "ao transtorno depressivo" mais alto na lista
"Tipo de diabetes ..." pendura
"Alzheimer" dá "vacinas contra Alzheimer" antes da "doença de Alzheimer"
"Staphylococcus negativo da coagulase" pendura

Resultados preliminares em 19/01/2024 (Sinônimos de Babel ainda não estão totalmente carregados, faltando arquivos após medicamento: gene, proteína, organismos, caminho, UMLS): a maioria dos problemas parece ser resolvida além de "rato" e "dose de ACP-044 a" (não tem tempo, mas não há resultados interessantes)

Execute o projeto

Start Services:

docker compose up -d

Entre no contêiner workspace para executar os scripts de carregamento.

Faça o download dos sinônimos de Babel e carregue -os no vectordb:

make load

(Experimental) Carregar pubdicionários em PGVector:

python src/pubdict_load.py

Limitações atuais

O banco de dados vetorial auto-hospedado atual não suporta vários vetores para um único ponto. O que nos obriga a criar pontos diferentes para os diferentes sinônimos e requer desduplicação dos resultados ao procurar. Que nos impedem de usar adequadamente o recurso limit a partir do vectordb (se os 2 resultaram do VectordB forem do mesmo ponto, retornaremos apenas 1 resultados, que não corresponderão ao limite de 2 solicitados pelo usuário)

A solução possível seria usar o Postgres e o PGVector, com 2 tabelas (uma para incorporação, uma para o conceito Infos), mas que tornaria o sistema muito mais complexo que uma loja JSON.

Existe algum vectordb auto-hospedado que possa suportar vários vetores sem nome para um único ponto? (Atualmente, o QDRANT suporta apenas vários vetores nomeados que não se encaixam no nosso caso de uso)

Para conjuntos de dados realmente grandes, como a incorporação do Babel Sinônimo, pode ser bastante intensiva na CPU. Levamos ~ 18 semanas de tempo da CPU para indexar 14 milhões de rótulos.
Para corresponder às funcionalidades originais da NameResolution, mais trabalho precisará ser feito para melhorar a ordem dos resultados (as correspondências de pré -flabel devem ser mais importantes do que as correspondências em sinônimos, preferência por tipos de prefixo/biolink, etc.)

Documentos

Introdução Apresentação: https://docs.google.com/presentation/d/1_ntmf-lthvybbvfusdxsdbeb0wm_yr_bvnnt-ivlktc/edit

Experimento dos pubdictários: https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgzifn22v9kpzfo4etxl89m/edit

Conclusão Apresentação: https://docs.google.com/presentation/d/1sjeuo4oenmamtrvcawb0tzjzr9sgnyh-efwtjf99lg/edit

Artigo pré-imprimor biohackrxiv: http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-8768-8faf62d731fa/paper.pdf

API Demo: https://concept-resolver.137.120.31.102.nip.io

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-26
tamanho 22.98KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos