يحتوي هذا الريبو على رمزنا للورق "kordlink: الاستفادة من نماذج اللغة الكبيرة لربط مفهوم الطب الحيوي عبر المصدر".
في هذه الورقة ، نعالج المفهوم الطبي الحيوي الذي يربط المهمة ، والتي تهدف إلى ربط المفاهيم الطبية الحيوية عبر المصادر/الأنظمة بناءً على معانيها الدلالية ومعرفتها الطبية الحيوية. يعتمد فقط على أسماء المفاهيم ، وبالتالي يمكن أن يغطي مجموعة أوسع بكثير من التطبيقات في العالم الحقيقي. تختلف هذه المهمة عن المهام الحالية مثل ربط الكيان ، ومواءمة الكيان ، ومطابقة الأنطولوجيا ، والتي تعتمد على معلومات سياقية أو طوبولوجية إضافية. تم وصف مثال لعبة لمهمة ربط المفهوم الطبية الحيوية في الشكل التالي.

الشكل 1: مثال لعبة. اليسار: مفاهيم في EHR. اليمين: مفاهيم في الطبية الحيوية.
PromserLink هو مفهوم طبي حيوي جديد يربط إطار عمل يستفيد من نماذج اللغة الكبيرة (LLMS). توظف أولاً نموذج لغة مسبقًا متخصصًا في الطب الحيوي لإنشاء مفاهيم مرشحة تتناسب مع نوافذ سياق LLM. بعد ذلك ، يستخدم LLM لربط المفاهيم من خلال مطالبات على مرحلتين. تهدف موجه المرحلة الأولى إلى استنباط المعرفة السابقة الطبية الحيوية من LLM لمهمة ربط المفهوم ، في حين أن موجه المرحلة الثانية يجبر LLM على التفكير في تنبؤاتها لزيادة تعزيز موثوقيتها. يتم توضيح نظرة عامة على إطار عمل Quortlink في الشكل التالي.

الشكل 2: نظرة عامة على إطار العمل المقترح الخاص بنا.
يمكن استخدام ملف "REVESET.TXT" لتنزيل حزم Python تلقائيًا]
بيثون == 3.8.10
EditDistance == 0.6.2
النار == 0.5.0
Numpy == 1.19.5
Openai == 0.28.1
pandas == 1.3.4
RANK_BM25 == 0.2.2
Scipy == 1.12.0
الصب السريع == 0.3.0
TextDistance == 4.6.1
الشعلة == 1.10.0+CU111
TQDM == 4.66.1
المحولات == 4.33.3
نقوم برعاية مفهومتين طبيين حيويين يربطان مجموعات البيانات القياسية: MIID (MIMIC-III-IBKH-ISESES) و CISE (Cradle-Ibkh-Side-Effect) ، باستخدام بيانات من MIMIC-III EHR DATASET. رابط IBKH ، ونظام الترميز UMLS UMLS. نظرًا للطبيعة الحساسة للبيانات الطبية واعتبارات الخصوصية ، هناك قيود على مشاركة البيانات. للوصول إلى مجموعات البيانات الطبية هذه ، قد تكون هناك حاجة إلى تدريب وبيانات الاعتماد المناسبة. لمزيد من المساعدة في الوصول إلى البيانات أو غيرها من الاستفسارات ذات الصلة ، لا تتردد في الوصول إلى فريق المؤلف لدينا.
يتم تخزين معظم الكود في ثلاثة مجلدات: "Gen_Candidates" ، "Gen_GPT_Responses" ، و "Baselines". يمكن العثور على مزيد من التفاصيل داخل هذه المجلدات على التوالي.
المجلد "gen_candidates": يحتوي هذا المجلد على رمز تمثيل مفهوم kerdlink وعملية توليد المرشحين.
المجلد "gen_gpt_responseses": يوضح هذا المجلد كيفية تعزيز برنامج kordlink من LLM لاسترداد إجابة التنبؤ النهائية.
المجلد "Baselines": يحتوي هذا المجلد على الكود لتشغيل جميع طرق خط الأساس المقارنة ، بما في ذلك BM25 ، ومسافة Levenshtein ، و Biobert ، و Sapbert.