ดาวน์โหลด concept resolver

concept resolver

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

บริการความละเอียดชื่อสำหรับแนวคิดด้านชีวการแพทย์โดยใช้ฐานข้อมูลเวกเตอร์และการค้นหาความคล้ายคลึงกัน

คำสั่งปัญหา

การแก้ไขฉลากแนวคิดไปยังตัวระบุมาตรฐานจากฐานข้อมูลที่มีอยู่เป็นข้อกำหนดพื้นฐานในกระบวนการของการใส่คำอธิบายประกอบข้อมูลชีวการแพทย์ ในขณะที่บริการคำอธิบายประกอบหลายรายการรวมถึง Bioportal และบริการความละเอียดของชื่อนักแปลมีให้บริการส่วนใหญ่อาศัยกลไกการจับคู่ตรงไปตรงมา (ตามลำดับ MGREP และ SOLR) น่าเสียดายที่กลไกเหล่านี้มักจะสั้นเมื่อต้องรับมือกับฉลากแนวคิดที่แสดงการเปลี่ยนแปลงที่สำคัญจากตัวระบุมาตรฐานหรือเมื่อต้องรับมือกับคำพ้องความหมาย

เข้าใกล้

เราเสนอให้สำรวจการใช้การค้นหาความคล้ายคลึงกันของเวกเตอร์เพื่อปรับปรุงความแม่นยำของการแก้ไขแนวคิด เราจะใช้ประโยชน์จากชุดข้อมูลที่ครอบคลุมโดยโครงการนักแปล Babel ซึ่งรวมถึงที่เก็บข้อมูลที่กว้างใหญ่ของตัวระบุฉลากและคำพ้องความหมายจากโดเมนชีวการแพทย์ (PubChem, Chembl, Uniprot, Mondo, Omim, HGNC, DrugBank และอื่น ๆ )

วัตถุประสงค์

ในระหว่างการเชื่อมโยงคำอธิบายประกอบชีวการแพทย์ที่เชื่อมโยงกันวัตถุประสงค์หลักของเรามีดังนี้:

การเลือกรูปแบบการฝังฐานข้อมูลเวกเตอร์และข้อความ Embeddings : เราจะประเมินฐานข้อมูลเวกเตอร์โอเพ่นซอร์สและรุ่น Embeddings ที่มีอยู่เพื่อเลือกแบบจำลองที่เหมาะกับความต้องการของเรา เราอาจเลือกหลายอย่างและเปรียบเทียบผลลัพธ์ของพวกเขา
การบริโภคข้อมูล: เราจะสร้างเวิร์กโฟลว์เพื่อสร้างการฝังและการบริโภคข้อมูลจากโครงการนักแปล Babel ลงในฐานข้อมูลเวกเตอร์ ฐานข้อมูลนี้จะทำหน้าที่เป็นรากฐานสำหรับบริการแก้ไขชื่อของเรา
การค้นหาความคล้ายคลึงกันของเวกเตอร์: เราจะใช้บริการที่จะช่วยให้ผู้ใช้สามารถดึงตัวระบุที่เป็นไปได้สำหรับฉลากแนวคิดที่กำหนดพร้อมกับคะแนนที่ระบุระดับความมั่นใจ บริการนี้จะใช้การใช้งานการค้นหาความคล้ายคลึงกันของฐานข้อมูลเวกเตอร์
การประเมินผล : เราจะตรวจสอบชุดข้อมูลที่มีอยู่เพื่อเปรียบเทียบประสิทธิภาพของวิธีการของเราและเปรียบเทียบกับบริการที่มีอยู่
การสำรวจกรณีการใช้งาน: นอกเหนือจากการแก้ไขแนวคิดแล้วเราจะสำรวจกรณีการใช้งานที่อาจเกิดขึ้นซึ่งจะได้รับประโยชน์จากฐานข้อมูลเวกเตอร์ สิ่งเหล่านี้อาจรวมถึงการค้นพบคำพ้องความหมายการทำแผนที่แนวคิดและคำแนะนำแนวคิด

บริการความละเอียดของชื่อจะถูกเปิดเผยเป็น API ที่กำหนดโดย OpenAPI ซึ่งใช้ฉลากแนวคิดเป็นอินพุตและส่งคืนรายการเอนทิตีที่ตรงกันแสดงโดยพจนานุกรมที่มีคะแนนและรหัส Curie, Label, คำพ้องความหมาย

ฐานข้อมูลเวกเตอร์

ชื่อ	การสร้าง	GitHub Stars	เขียนใน	SDK สำหรับ	สอบถามภาษา/API*	ใช้ฟังก์ชั่นเวกเตอร์	การแสดงความคิดเห็น
qdrant	กรกฎาคม 2563	~ 14K	สนิม	Python, JS, Rust, Go, .net	openapi, grpc	Cosine, Euclid, dot	สามารถใช้เป็นเครื่องมือแบบสแตนด์อโลนท้องถิ่นในหน่วยความจำหรือถาวรบนดิสก์โดยไม่ต้องปรับใช้บริการเว็บ
Milvus	ตุลาคม 2562	~ 24K	ไป	Python, JS, Java, ไป	Openapi ❓	Cosine, Euclid, ผลิตภัณฑ์ภายใน	aka. ซิลลิซคลาวด์
โครมา	ตุลาคม 2565	~ 9K	งูหลาม	Python, JS	Openapi ❓
ทอผ้า	มีนาคม 2559	~ 8K	ไป	Python, JS, Java, ไป	graphql api	โคไซน์
pgvector	เมษายน 2564	~ 6.5k	C	ผ่าน Postgres SDK ❓	SQL	Cosine, Euclid, ผลิตภัณฑ์ภายใน, Taxicab	รวมอยู่ใน postgreSQL

*ภาษาคิวรี/API ระบุประเภทของภาษาคิวรีหรือ API ที่สามารถใช้ในการสืบค้นข้อมูลภายในฐานข้อมูลเวกเตอร์

ผลิตภัณฑ์ทั้งหมดเหล่านั้นเป็นโอเพ่นซอร์สและพวกเขาทั้งหมดเสนอเว็บ UI อย่างง่ายเพื่อสำรวจฐานข้อมูลเวกเตอร์

ส่วนใหญ่มี API ที่ทันสมัยและเรียบง่าย (นอกเหนือจาก PGVector ซึ่งอาศัยอยู่ภายใน PostgreSQL)

โมเดลการฝังข้อความ

เกณฑ์มาตรฐานอ้างอิงสำหรับรุ่น Embeddings: https://huggingface.co/blog/mteb

laderboard: https://huggingface.co/spaces/mteb/leaderboard

โมเดลการฝังที่ได้รับความนิยม:

Flagembedding bge-large-en-v1.5
Openai text-embedding-ada-002
HuggingFace sentence-transformers/all-MiniLM-L6-v2
Jina jina-embeddings-v2-base-en
embed-english-v3.0

ชุดข้อมูลมาตรฐาน

ที่จะกำหนด

เกณฑ์มาตรฐานที่มีอยู่สำหรับฐานข้อมูลเวกเตอร์:

การเปรียบเทียบเพื่อนบ้านที่ใกล้ที่สุด: https://github.com/erikbern/ann-benchmarks/
บทความเกี่ยวกับมาตรฐานสำหรับฐานข้อมูลเวกเตอร์: https://marketing.fmops.ai/blog/vector-benchmarking/
Vectordbbench จาก Milvus/Zillez: https://github.com/zilliztech/vectordbbench
เกณฑ์มาตรฐานจาก Qdrant: https://qdrant.tech/benchmarks/

เกณฑ์มาตรฐานข้อมูลชีวการแพทย์

คลังโรค NCBI: https://www.ncbi.nlm.nih.gov/cbbresearch/dogan/disease/
Bacteria Biotope 4: https://sites.google.com/view/bb-2019/dataset
Biowic: มาตรฐานการประเมินผลสำหรับการเป็นตัวแทนแนวคิดชีวการแพทย์
- https://github.com/hrouhizadeh/biowic
- https://huggingface.co/datasets/hrouhizadeh/biowic

การทำแผนที่ปัญหาในบริการความละเอียดชื่อ

translatorsri/nameresolution#81
- "fasciitis ischemic"
- "โรคขาดเลือด"
"Rat"/"Rats" ไม่คืน Rattus Norwegicus สูงพอ (Translatorsri/Nameresolution#127)
"angiotensin II" ไม่ควรจับคู่ "angiotensin" ในครั้งแรก (translatorsri/nameresolution#90)
"ACP-044 Dose A" หมดเวลา (TranslatorsRI/Nameresolution#95)
"Long Covid-19" ไม่ควรจับคู่ "ยาว" ในครั้งแรก (Translatorsri/Nameresolution#72)
"ภาวะซึมเศร้า" ควรตรงกับ "โรคซึมเศร้า" สูงกว่าในรายการ
"โรคเบาหวานประเภท ... " แขวน
"อัลไซเมอร์" ให้ "วัคซีนอัลไซเมอร์" ก่อน "โรคอัลไซเมอร์"
"Coagulase staphylococcus" Hangs

ผลลัพธ์เบื้องต้นเกี่ยวกับ 19/01/2024 (คำพ้องความหมายของบาเบลยังไม่ได้โหลดอย่างสมบูรณ์, ไฟล์ที่หายไปหลังจากยาเสพติด: ยีน, โปรตีน, สิ่งมีชีวิต, ทางเดิน, UMLS): ปัญหาส่วนใหญ่ดูเหมือนจะได้รับการแก้ไขนอกเหนือจาก "หนู" และ "ACP-044 ปริมาณ A" (ไม่หมดเวลา แต่ไม่มีผลลัพธ์ที่น่าสนใจ)

เรียกใช้โครงการ

เริ่มบริการ:

docker compose up -d

เข้าไปในคอนเทนเนอร์ workspace เพื่อเรียกใช้สคริปต์การโหลด

ดาวน์โหลดคำพ้องความหมายของ Babel และโหลดใน Vectordb:

make load

(ทดลอง) โหลด PubDictionaries ใน PGVector:

python src/pubdict_load.py

ข้อ จำกัด ปัจจุบัน

ฐานข้อมูลเวกเตอร์โฮสต์ตัวเองในปัจจุบันไม่รองรับเวกเตอร์หลายตัวสำหรับจุดเดียว ซึ่งบังคับให้เราสร้างจุดที่แตกต่างกันสำหรับคำพ้องที่แตกต่างกันและต้องมีการซ้ำซ้อนของผลลัพธ์เมื่อทำการค้นหา ซึ่งป้องกันไม่ให้เราใช้คุณสมบัติ limit อย่างถูกต้องจาก vectordb (หากผลลัพธ์ 2 ครั้งแรกจาก vectordb มาจากจุดเดียวกันเราจะส่งคืนผลลัพธ์เพียง 1 ผลลัพธ์ซึ่งจะไม่ตรงกับขีด จำกัด ของ 2 ที่ผู้ใช้ถาม)

วิธีแก้ปัญหาที่เป็นไปได้คือการใช้ postgres และ pgvector โดยมี 2 ตาราง (หนึ่งสำหรับ Embeddings หนึ่งอันสำหรับ Concept Infos) แต่นั่นจะทำให้ระบบมีความซับซ้อนมากกว่าร้าน JSON

มี vectordb โฮสต์ตัวเองที่สามารถรองรับเวกเตอร์ที่ไม่มีชื่อหลายตัวสำหรับจุดเดียวหรือไม่? (ปัจจุบัน QDrant รองรับเวกเตอร์ชื่อหลายตัวเท่านั้นซึ่งไม่เหมาะกับกรณีการใช้งานของเรา)

สำหรับชุดข้อมูลขนาดใหญ่จริง ๆ เช่นชุดข้อมูลการฝังชุดข้อมูลคำพ้องความหมายของ Babel สามารถเป็น CPU แบบเข้มข้นได้ เราใช้เวลา ~ 18 สัปดาห์ของเวลา CPU ในการจัดทำดัชนีป้ายกำกับ 14 ล้านฉลาก
เพื่อให้ตรงกับฟังก์ชันการทำงานของ nameresolution ดั้งเดิมจะต้องทำงานมากขึ้นเพื่อปรับปรุงลำดับของผลลัพธ์ (การจับคู่ preflabel ควรมีความสำคัญมากกว่าการจับคู่กับคำพ้องความหมายการตั้งค่าตามคำนำหน้า/ประเภท biolink ฯลฯ )

เอกสาร

บทนำการนำเสนอ: https://docs.google.com/presentation/d/1_ntmf-lthvybbvfusdxsdbeb0wm_yr_bvnnt-ivlktc/edit

PubDictionaries Experiment: https://docs.google.com/document/d/1nipvy2zhzedmf5bjcuzcbgzifn222v9kpzfo4etxl89m/edit

บทสรุปการนำเสนอ: https://docs.google.com/presentation/d/1sjeuo4oegnmamtrvcawb0tzjzr9sgnyh-efwtjf99lg/edit

preprint biohackrxiv กระดาษ: http://preview.biohackrxiv.org/papers/bdda0f94-f526-4f35-8768-8faf62d731fa/papaper.pdf

Demo API: https://concept-resolver.137.120.31.102.nip.io

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-26
ขนาด 22.98KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด