concept resolver 다운로드 - concept resolver 소스 코드 다운로드

concept resolver

기타 소스코드

1.0.0

다운로드

벡터 데이터베이스 및 유사성 검색을 사용하는 생의학 개념에 대한 이름 해상도 서비스

문제 진술

기존 데이터베이스에서 표준화 된 식별자로 개념 레이블을 해결하는 것은 생체 의학 데이터 주석을 달성하는 과정에서 기본 요구 사항입니다. Bioportal 및 Translator Name Resolution Service를 포함한 여러 주석 서비스는 이용 가능하지만 대부분은 간단한 매칭 메커니즘 (각각 MGREP 및 SOLR)에 의존합니다. 불행히도, 이러한 메커니즘은 표준화 된 식별자의 상당한 변형을 나타내는 개념 레이블을 다룰 때 또는 동의어를 다룰 때 종종 부족합니다.

접근하다

우리는 개념 해상도의 정확성을 향상시키기 위해 벡터 유사성 검색의 사용을 탐색 할 것을 제안합니다. Biomedical Domain (Pubchem, Chembl, Uniprot, Mondo, Omim, HGNC, Drugbank 등)의 방대한 식별자, 레이블 및 동의어 리포지토리, 레이블 및 동의어가 포함 된 번역기 Babel Project에서 수집 한 광범위한 데이터 세트를 활용할 것입니다.

목표

생의학 연결된 주석 해커 톤 동안, 우리의 주요 목표는 다음과 같습니다.

벡터 데이터베이스 및 텍스트 임베딩 모델 선택 : 사용 가능한 오픈 소스 벡터 데이터베이스 및 텍스트 임베드 모델을 평가하여 필요에 맞는 것을 선택합니다. 우리는 또한 여러 번 선택하고 결과를 비교할 수도 있습니다.
데이터 수집 : 우리는 임베딩을 생성하고 번역기 바벨 프로젝트에서 데이터를 벡터 데이터베이스로 수집하기위한 워크 플로를 설정합니다. 이 데이터베이스는 우리의 이름 해상도 서비스의 기초 역할을합니다.
벡터 유사성 검색 : 사용자가 자신감의 정도를 나타내는 점수와 함께 주어진 개념 레이블에 대한 잠재적 식별자를 검색 할 수있는 서비스를 구현합니다. 이 서비스는 벡터 데이터베이스 유사성 검색 구현을 사용합니다.
평가 : 우리는 기존 데이터 세트를 조사하여 접근 방식의 효율성을 벤치마킹하고이를 기존 서비스와 비교할 것입니다.
사용 사례 탐색 : 개념 해상도 외에도 벡터 데이터베이스의 혜택을받을 수있는 다양한 잠재적 사용 사례를 탐색 할 것입니다. 여기에는 동의어 발견, 개념 매핑 및 개념 추천이 포함될 수 있습니다.

Name Resolution Service는 개념 레이블을 입력으로 취하는 OpenApi가 설명한 API로 노출되며, 점수와 ID 퀴리, 레이블, 동의어가있는 사전으로 표시되는 일치 엔티티 목록을 반환합니다.

벡터 데이터베이스

이름	창조	Github 스타	작성	SDK	쿼리 언어/API*	벡터 함수를 구현합니다	논평
qdrant	2020 년 7 월	~ 14K	녹	Python, JS, Rust, Go, .NET	OpenApi, Grpc	코사인, 유클리드, 도트	웹 서비스를 배포하지 않고 로컬 독립형 도구, 메모리 또는 디스크에서 영구적으로 사용할 수 있습니다.
밀버	2019 년 10 월	~ 24K	가다	Python, JS, Java, Go	OpenApi .️	코사인, 유클리드, 내부 제품	일명. Zilliz Cloud
크로마	2022 년 10 월	~ 9k	파이썬	파이썬, JS	OpenApi .️
직조	2016 년 3 월	~ 8k	가다	Python, JS, Java, Go	GraphQL API	코사인, 유클리드
pgvector	2021 년 4 월	~ 6.5k	기음	Postgres SDK ❓️을 통해	SQL	코사인, 유클리드, 내부 제품, 택시	PostgreSQL에 통합

*Query Language/API는 벡터 데이터베이스 내부의 정보를 쿼리하는 데 어떤 유형의 쿼리 언어 또는 API를 지정합니다.

이러한 모든 제품은 오픈 소스이며 벡터 데이터베이스를 탐색하기 위해 간단한 웹 UI를 제안합니다.

그들 대부분은 현대적이고 간단한 API를 가지고 있습니다 (PostgreSQL 내에 사는 pgvector를 제외하고)

텍스트 임베딩 모델

텍스트 임베딩 모델에 대한 참조 벤치 마크 : https://huggingface.co/blog/mteb

리더 보드 : https://huggingface.co/spaces/mteb/leaderboard

인기있는 임베딩 모델 :

깃발 베딩 bge-large-en-v1.5
Openai text-embedding-ada-002
Huggingface sentence-transformers/all-MiniLM-L6-v2
jina-embeddings-v2-base-en
Cohere embed-english-v3.0

벤치 마크 데이터 세트

정의됩니다.

벡터 데이터베이스의 기존 벤치 마크 :

가장 가까운 이웃 벤치마킹 : https://github.com/erikbern/ann-benchmarks/
벡터 데이터베이스의 벤치 마크에 대한 기사 : https://marketing.fmops.ai/blog/vector-benchmarking/
Milvus/Zilliz의 vectordbbench : https://github.com/zilliztech/vectordbbench
Qdrant의 벤치 마크 : https://qdrant.tech/benchmarks/

생체 의학 데이터 벤치 마크

NCBI 질병 코퍼스 : https://www.ncbi.nlm.nih.gov/cbbresearch/dogan/disease/
Bacteria Biotope 4 : https://sites.google.com/view/bb-2019/dataset
Biowic : 생의학 개념 표현에 대한 평가 벤치 마크
- https://github.com/hrouhizadeh/biowic
- https://huggingface.co/datasets/hrouhizadeh/biowic

이름 해상도 서비스의 매핑 문제

번역기/nameresolution#81
- "허혈성 근막염"
- "허혈성 질환"
"Rat"/"Rats"는 Rattus Norwegicus High를 충분히 반환하지 않습니다 (Translatorsri/Nameresolution#127)
"안지오텐신 II"는 첫 번째에서 "안지오텐신"과 일치하지 않아야합니다 (Translatorsri/nameresolution#90)
"ACP-044 용량 A"시간 초과 (Translatorsri/Nameresolution#95)
"Long Covid-19"는 첫 번째에서 "Long"과 일치하지 않아야합니다 (Translatorsri/Nameresolution#72)
"우울증"은 목록에서 "우울 장애"가 더 높아야합니다
"당뇨병 유형 ..."
"알츠하이머"는 "알츠하이머 병"전에 "알츠하이머 백신"을 제공합니다.
"응고 제 음성 포도상 구균"이 매달려 있습니다

19/01/2024의 예비 결과 (아직 완전히로드되지 않은 바벨 동의어, 약물 후 파일 누락 : 유전자, 단백질, 유기체, 경로, UMLS) : 대부분의 문제는 "쥐"및 "ACP-044 용량 A"와는 별도로 해결되는 것 같습니다 (시간이 없지만 흥미로운 결과는 없습니다)

프로젝트를 실행하십시오

서비스 시작 :

docker compose up -d

로딩 스크립트를 실행하려면 workspace 컨테이너로 들어갑니다.

Babel 동의어를 다운로드하여 Vectordb에로드하십시오.

make load

(실험) PGVECTOR의 부하 PubDictionaries :

python src/pubdict_load.py

현재 제한

현재 자체 주최 벡터 데이터베이스는 단일 지점에 대해 여러 벡터를 지원하지 않습니다. 이것은 우리가 다른 동의어에 대해 다른 지점을 만들도록 강요하고 조회 할 때 결과를 중복 제거해야합니다. VectordB의 limit 기능을 올바르게 사용하지 못하게합니다 (VectordB의 첫 번째 결과가 같은 시점에서 나온 경우 1 개의 결과 만 반환하면 사용자가 요청한 2의 한계와 일치하지 않습니다).

가능한 솔루션은 2 개의 테이블 (임베딩 용, 컨셉트 인포를위한 하나)와 함께 Postgres 및 PGVector를 사용하는 것입니다.

단일 지점에 대해 여러 개의 이름없는 벡터를 지원할 수있는 자체 주최 vectordB가 있습니까? (Qdrant는 현재 사용 사례에 맞지 않는 다중 이름의 벡터 만 지원합니다)

Babel 동의어 데이터 세트 포함과 같은 대규모 데이터 세트의 경우 CPU 집약적 일 수 있습니다. 1,400 만 개의 레이블을 색인하는 데 ~ 18 주 동안 CPU 시간이 걸렸습니다.
원래 이름 지정 기능과 일치하려면 결과 순서를 향상시키기 위해 더 많은 작업을 수행해야합니다 (프리 플라벨 매치는 동의어 일치, 접두사/Biolink 유형에 의한 선호도 등)보다 더 중요합니다).

서류

소개 프레젠테이션 : https://docs.google.com/presentation/d/1_ntmf-lthvybbvfusdxsdbeb0wm_yr_bvnnt-ivlktc/edit

PubDictionaries 실험 : https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgzifn2v9kpzfo4etxl89m/edit

결론 프레젠테이션 : https://docs.google.com/presentation/d/1sjeuo4oegnmamtrvcawb0tzjzr9sgnyh-efwtjf99lg/edit

Preprint Biohackrxiv 논문 : http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-8768-8faf62d731fa/paper.pdf

데모 API : https://concept-resolver.137.120.31.102.nip.io

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-05-26
크기 22.98KB
출처 Github

concept resolver

벡터 데이터베이스 및 유사성 검색을 사용하는 생의학 개념에 대한 이름 해상도 서비스

문제 진술

접근하다

목표

벡터 데이터베이스

텍스트 임베딩 모델

벤치 마크 데이터 세트

생체 의학 데이터 벤치 마크

이름 해상도 서비스의 매핑 문제

프로젝트를 실행하십시오

현재 제한

서류

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express