concept resolver concept resolver

concept resolver

Anderer Quellcode

1.0.0

Herunterladen

Ein Name Resolution -Service für biomedizinische Konzepte unter Verwendung von Vektordatenbanken und Ähnlichkeitssuche

Problemanweisung

Das Auflösen von Konzeptbezeichnungen für standardisierte Identifikatoren aus vorhandenen Datenbanken ist eine grundlegende Voraussetzung für den Prozess der Annotierung biomedizinischer Daten. Während mehrere Annotationsdienste, einschließlich Bioportal- und Übersetzer -Namensauflösungsdienst, verfügbar sind, stützen sich die meisten von ihnen auf einfache Matching -Mechanismen (jeweils MGREP bzw. Solr). Leider sind diese Mechanismen häufig zu kurz, wenn es sich um Konzeptbezeichnungen handelt, die wesentliche Abweichungen von standardisierten Kennungen oder beim Umgang mit Synonymen aufweisen.

Ansatz

Wir schlagen vor, die Verwendung der Vektor -Ähnlichkeitssuche zu untersuchen, um die Genauigkeit der Konzeptauflösung zu verbessern. Wir werden den umfangreichen Datensatz nutzen, der vom Übersetzer Babel -Projekt gesammelt wurde, das ein riesiges Repository von Kennungen, Etiketten und Synonymen aus dem biomedizinischen Bereich enthält (Pubchem, Chembl, UniProt, Mondo, Omim, HGNC, Drugbank und mehr).

Ziele

Während des biomedizinischen verknüpften Annotation -Hackathons sind unsere Hauptziele wie folgt:

Auswählen eines Vektor-Datenbank- und Text-Einbettungsmodells : Wir werden die verfügbaren Open-Source-Vektordatenbank und Text-Emboding-Modelle bewerten, um einen, der zu unseren Anforderungen entspricht, auszuwählen. Wir könnten auch mehrere auswählen und ihre Ergebnisse vergleichen.
Datenaufnahme: Wir werden einen Workflow einrichten, um Einbettungen zu generieren und die Daten des Übersetzers Babel -Projekt in eine Vektordatenbank aufzunehmen. Diese Datenbank dient als Grundlage für unseren Namensauflösungsdienst.
Vektor -Ähnlichkeitssuche: Wir werden einen Dienst implementieren, mit dem Benutzer potenzielle Kennungen für ein bestimmtes Konzeptetikett abrufen können, zusammen mit Punktzahlen, die den Grad des Vertrauens anzeigen. Dieser Dienst verwendet die Implementierung der Vektordatenbank -Ähnlichkeitssuche
Evaluierung : Wir werden vorhandene Datensätze prüfen, um die Effizienz unseres Ansatzes zu bewerten und sie mit vorhandenen Diensten zu vergleichen
Untersuchung von Anwendungsfällen: Zusätzlich zur Konzeptauflösung werden wir eine Reihe potenzieller Anwendungsfälle untersuchen, die von der Vektor -Datenbank profitieren können. Dies kann Synonym -Entdeckung, Konzeptzuordnung und Konzeptempfehlung umfassen.

Der Namensauflösungsdienst wird als eine von OpenAPI beschriebene API freigelegt, die ein Konzeptetikett als Eingabe nimmt und eine Liste der passenden Einheiten zurückgibt, die durch ein Wörterbuch mit der Punktzahl und deren ID-Curie-Etikett Synonyme dargestellt werden.

Vektordatenbanken

Name	Schaffung	Github Sterne	Geschrieben in	SDK für	Abfragesprache/API*	Vektorfunktionen implementieren	Kommentar
Qdrant	Juli 2020	~ 14k	Rost	Python, JS, Rost, Go, .net	OpenAPI, GRPC	Cosinus, Euklid, Punkt	Kann als lokales eigenständiges Tool verwendet werden, im Speicher oder als dauerhaft auf der Festplatte, ohne einen Webdienst bereitzustellen
Milvus	Oktober 2019	~ 24k	Gehen	Python, JS, Java, Go	OpenAPI ❓️	Cosinus, Euklid, inneres Produkt	AKA. Zilliz Cloud
Chroma	Oktober 2022	~ 9k	Python	Python, JS	OpenAPI ❓️
Waviate	März 2016	~ 8k	Gehen	Python, JS, Java, Go	GraphQL API	Cosinus, Euklid
pgVector	April 2021	~ 6,5K	C	Durch Postgres SDK ❓️	Sql	Cosinus, Euklid, inneres Produkt, Taxi	In postgresql integriert

*Abfragelicht/API Gibt an, welche Art von Abfragesprache oder API verwendet werden kann, um die Informationen in der Vektor -Datenbank abzufragen

Alle diese Produkte sind Open Source, und alle schlagen eine einfache Web -Benutzeroberfläche vor, um die Vektordatenbank zu untersuchen.

Die meisten von ihnen haben eine moderne und einfache API (abgesehen von PGVector, die in Postgresql lebt)

Texteinbettungsmodelle

Referenz -Benchmark für Texteinbettungsmodelle: https://huggingface.co/blog/mteb

Rangliste: https://huggingface.co/spaces/mteb/leaderboard

Beliebte Einbettungsmodelle:

Flagembedding bge-large-en-v1.5
Openai text-embedding-ada-002
Harmingface sentence-transformers/all-MiniLM-L6-v2
Jina Ai jina-embeddings-v2-base-en
Cohere embed-english-v3.0

Benchmark -Datensatz

Definiert werden.

Bestehende Benchmarks für Vektordatenbanken:

Benchmarking Nächste Nachbarn: https://github.com/erikbern/ann-autchmarks/
Artikel über Benchmarks für Vector-Datenbanken: https://marketing.fmops.ai/blog/Vector-Benchmarking/
VectordBbench von Milvus/Zilliz: https://github.com/zilliztech/Vectordbbench
Benchmark von Qdrant: https://qdrant.tech/benchmarks/

Biomedizinische Datenbank

NCBI Disease Corpus: https://www.ncbi.nlm.nih.gov/cbbressearch/dogan/disease/
Bakterien Biotope 4: https://sites.google.com/view/bb-2019/dataset
Biowisch: Ein Bewertungs -Benchmark für die biomedizinische Konzeptrepräsentation
- https://github.com/hrouhizadeh/biowic
- https://huggingface.co/datasets/hrouhizadeh/biowic

Kartierungsprobleme im Namensauflösung Service

TranslatorsRI/Nameresolution#81
- "Ischämische Fasziitis"
- "Ischämische Erkrankung"
"Ratten"/"Ratten" gibt Rattus norwegicus nicht hoch genug zurück (TranslatorsRI/Nameresolution#127)
"Angiotensin II" sollte in erster Stelle nicht mit "Angiotensin" übereinstimmen (ÜbersetzerRI/Nameresolution#90)
"ACP-044 Dosis a" Timeout (TranslatorsRI/Nameresolution#95)
"Long Covid-19" sollte in erster Stelle nicht "lang" übereinstimmen (ÜbersetzerRI/Nameresolution#72)
"Depression" sollte "depressive Störungen" übereinstimmen, die auf der Liste höher sind
"Diabetes -Typ ..." hängt
"Alzheimer" gibt "Alzheimer -Impfstoffe" vor "Alzheimer -Krankheit"
"Koagulase negative Staphylococcus" hängt

Vorläufige Ergebnisse am 19.01.2024 (Babel-Synonyme, noch nicht vollständig beladen, fehlende Dateien nach Drogen: Gen, Protein, Organismen, Pfad, UMLS): Die meisten Probleme scheinen abgesehen von "Ratten" und "ACP-044-Dosis a" zu gelöst zu werden, aber keine interessanten Ergebnisse), aber keine interessanten Ergebnisse).

Führen Sie das Projekt aus

Dienste starten:

docker compose up -d

Gehen Sie in den workspace Container, um die Ladeskripte auszuführen.

Laden Sie die Babel -Synonyme herunter und laden Sie sie im VectordB:

make load

(experimentelle) Lastpubdictionaries in PGVector:

python src/pubdict_load.py

Aktuelle Einschränkungen

Die aktuelle selbst gehostete Vektordatenbank unterstützt nicht mehrere Vektoren für einen einzelnen Punkt. Dies zwingt uns, verschiedene Punkte für die verschiedenen Synonyme zu erstellen, und erfordert eine Deduplizierung der Ergebnisse bei der Suche. Dies verhindert, dass wir die limit ordnungsgemäß aus dem VectordB verwenden (wenn die beiden ersten Ergebnisse aus dem VectordB aus demselben Punkt stammen, werden wir nur 1 Ergebnisse zurückgeben, was nicht mit der vom Benutzer gefragten Grenze übereinstimmt.

Mögliche Lösung wäre, Postgres und PGVector mit 2 Tabellen (eine für Einbettungen, eine für Konzept -Infos) zu verwenden, das das System jedoch viel komplexer machen würde als ein JSON -Store.

Gibt es selbst gehostete Vektordb, die mehrere unbenannte Vektoren für einen einzelnen Punkt unterstützen können? (QDRANT unterstützt derzeit nur mehrere benannte Vektoren, die nicht zu unserem Anwendungsfall entsprechen.)

Für wirklich große Datensätze wie die Babel -Synonym -Datensatzeinbettung kann CPU -intensiv sein. Wir brauchten ~ 18 Wochen CPU -Zeit, um 14 Millionen Etiketten zu indexieren.
Um den ursprünglichen generamten Funktionen zu entsprechen, muss mehr Arbeit geleistet werden, um die Reihenfolge der Ergebnisse zu verbessern (Vorflabel -Übereinstimmungen sollten wichtiger sein als Übereinstimmungen zu Synonymen, Präferenz durch Präfix/Biolink -Typen usw.)

Unterlagen

Einführungspräsentation: https://docs.google.com/presentation/d/1_ntmf-lthvybvfusdxsdbeb0wm_yr_bvnnt-ivlktc/edit

PubDictionaries Experiment: https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgifn22v9kpzfo4etxl89m/edit

Fazit Präsentation: https://docs.google.com/presentation/d/1sjeuo4oEegnmamtrvcawb0tzjzr9sgnyh-efwtjf99lg/edit

Preprint biohackrxiv Papier: http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-8768-8faf62d731fa/paper.pdf

Demo-API: https://concept-resolver.137.120.31.102.nip.io

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-05-26
Größe 22.98KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

concept resolver

Ein Name Resolution -Service für biomedizinische Konzepte unter Verwendung von Vektordatenbanken und Ähnlichkeitssuche

Problemanweisung

Ansatz

Ziele

Vektordatenbanken

Texteinbettungsmodelle

Benchmark -Datensatz

Biomedizinische Datenbank

Kartierungsprobleme im Namensauflösung Service

Führen Sie das Projekt aus

Aktuelle Einschränkungen

Unterlagen

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

GitHub the via/releases

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express