
كيفية استخراج المعلومات من البيانات الطبية الحيوية غير المهيكلة والنص.
ما هو Bioie؟ ويتضمن أي جهد لاستخراج المعلومات المنظمة من البيانات البيولوجية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو السريرية أو غيرها من الجهد لاستخراج أي جهد لتوضيح بيانات إن البيانات مصدر البيانات غالبًا ما يكون بعض المستندات النصية المكتوبة باللغة التقنية. إذا كانت المعلومات الناتجة قابلة للتحقق ومتسقة عبر المصادر ، فقد نعتبر ذلك المعرفة . يتطلب استخراج المعلومات وإنتاج المعرفة من البيانات الحيوية تعديلات على الطرق التي تم تطويرها لأنواع أخرى من البيانات غير المهيكلة.
خضع Bioie لتغييرات هائلة منذ إدخال نماذج لغة مثل BERT ونماذج لغة كبيرة تم إنشاؤها مؤخرًا (LLMS ؛ EG ، GPT-3/4 ، LLAMA2/3 ، Gemini ، إلخ).
الموارد المدرجة هنا هي بشكل تفضيل تلك المتاحة دون أي تكلفة نقدية ومتطلبات ترخيص محدودة. يجب الوصول إلى الأساليب ومجموعات البيانات بشكل عام وصيانتها بنشاط.
انظر أيضًا Awesome-NLP ، علم البيولوجيا الرائعة والمعلوماتية الرائعة.
يرجى قراءة إرشادات المساهمة قبل المساهمة. الرجاء إضافة موردك المفضل عن طريق رفع طلب سحب.
محتويات
- نظرة عامة على البحث
- مجموعات نشطة في هذا المجال
- المنظمات
- المجلات والأحداث
- المجلات
- المؤتمرات والأحداث الأخرى
- التحديات
- دروس
- أدلة
- محاضرات الفيديو والدورات عبر الإنترنت
- مكتبات الكود
- repos لمجموعات البيانات المحددة
- الأدوات والمنصات والخدمات
- التقنيات والنماذج
- مجموعات البيانات
- مصادر النص الطبية الحيوية
- بيانات النص المشروحة
- بروتين بروتين التفاعل المشروح
- مجموعات بيانات أخرى
- الأنطولوجيا والمفردات التي تسيطر عليها
- نماذج البيانات
- الاعتمادات
نظرة عامة على البحث
llms في الطب الحيوي أي
- نماذج لغة كبيرة في الرعاية الصحية: معيار شامل - تقييم إحصائي وإنساني لستة عشر LLMs مختلفة المطبق على مهام اللغة الطبية.
- تقييم المشهد البحثي والفائدة السريرية لنماذج اللغة الكبيرة: مراجعة النطاق - مراجعة عالية المستوى لتطبيقات LLM في الطب اعتبارًا من مارس 2024.
- التحديات الأخلاقية والتنظيمية لنماذج اللغة الكبيرة في الطب - مراجعة للقضايا الأخلاقية الناشئة عن تطبيقات LLMs في الطب الحيوي.
- على مخاطر الببغاوات العشوائية: هل يمكن أن تكون نماذج اللغة كبيرة جدًا؟ ؟ - العمل المشار إليه بشكل متكرر ولكن لا يزال يتعلق بالأدوار والتطبيقات ومخاطر نماذج اللغة.
نظرة عامة قبل LLM
- المعلوماتية الطبية الحيوية على السحابة: البحث عن الكنز من أجل تقدم طب القلب والأوعية الدموية - نظرة عامة على كيفية تطبيق سير عمل المعلوماتية الحيوية والمعلوماتية على أسئلة في أبحاث صحة القلب والأوعية الدموية.
- تطبيقات استخراج المعلومات السريرية: مراجعة الأدب - مراجعة لأوراق IE السريرية المنشورة اعتبارًا من سبتمبر 2016. من Mayo Clinic Group (انظر أدناه).
- الاكتشاف القائم على الأدب: النماذج والأساليب والاتجاهات - مراجعة للاكتشاف القائم على الأدب (LBD) ، أو الفلسفة التي يمكن العثور عليها بين الأدب العلمي غير ذي صلة على ما يبدو.
- للاطلاع على بعض السياق التاريخي على LBD ، انظر أوراق جامعة دون سوانسون من جامعة شيكاغو ، ونيل سالهايزر ، بما في ذلك المعرفة العامة غير المكتشفة (PayWalled) وإعادة اكتشاف دون سوانسون: الماضي والحاضر ومستقبل الاكتشاف القائم على الأدب .
- السجلات الصحية الإلكترونية التعدين (EHRS): دراسة استقصائية - مراجعة للطرق والفلسفة وراء السجلات الصحية الإلكترونية ، بما في ذلك استخدامها لاكتشاف الأحداث السلبي. انظر الجدول 2 للحصول على قائمة بالأوراق ذات الصلة اعتبارًا من منتصف عام 2017.
- التقاط وجهة نظر المريض: مراجعة للتطورات في معالجة اللغة الطبيعية للنص المتعلق بالصحة - مراجعة 2017 لطرق معالجة اللغة الطبيعية المطبقة على استخراج المعلومات في السجلات الصحية ونص التواصل الاجتماعي. ملاحظة مهمة من هذا الاستعراض: "أحد التحديات الرئيسية في هذا المجال هو توفر البيانات التي يمكن مشاركتها والتي يمكن أن يستخدمها المجتمع لدفع تطور الأساليب على أساس دراسات قابلة للمقارنة وقابلة للتكرار".
العودة إلى الأعلى
مجموعات نشطة في هذا المجال
- مختبر معالجة اللغة الطبيعية في مستشفى بوسطن للأطفال - بقيادة الدكتور جيرجانا سافوفا ، سابقًا في Mayo Clinic ومشروع Apache Ctakes.
- مركز براون للمعلوماتية الطبية الحيوية - ومقرها في جامعة براون وإخراج الدكتور نيل ساركار ، الذي تعمل مجموعة الأبحاث على موضوعات في NLP السريرية و IE.
- مركز علم الصيدلة الحاسوبية NLP - ومقرها في جامعة كولورادو ، دنفر وقيادة لاري هانتر - انظر Github Repos هنا.
- مجموعات في المعاهد الوطنية للصحة (NIH) / مكتبة الطب الوطنية (NLM):
- مجموعة Demner-Fushman في NLM
- مجموعة BionLP في NCBI - تطور تحسينات على البحث عن الأدب الطبي الحيوي (على سبيل المثال ، من خلال PubMed) ، بقيادة الدكتور Zhiyong Lu.
- Jensenlab - ومقرها في مركز Novo Nordisk Foundation لأبحاث البروتين بجامعة كوبنهاغن ، الدنمارك.
- المركز الوطني لتعدين النص (NACTEM) - ومقره بجامعة مانشستر ، بقيادة البروفيسور صوفيا أنانيدو ، تهتم Nactem بتعدين النص بشكل عام ولكن لديه تركيز خاص على التطبيقات الطبية الحيوية.
- برنامج معالجة اللغة الطبيعية السريرية من Mayo Clinic - قدمت عدة مجموعات في Mayo Clinic مساهمات كبيرة في Bioie (على سبيل المثال ، منصة Apache CTAKES) على مدار العشرين عامًا الماضية.
- مبادرة Monarch - جهد مشترك بين المجموعات في جامعة ولاية أوريغون وجامعة أوريغون للصحة والعلوم ، ومختبر لورانس بيركلي الوطني ، ومختبر جاكسون ، والعديد من الآخرين ، يسعى إلى "دمج المعلومات البيولوجية باستخدام الدلالات ، وتقديمها بطريقة جديدة ، والاستفادة من الأنماط الظاهرية لسد فجوة المعرفة".
- TUTRECUNLP - ومقرها بجامعة توركو والمعنية NLP بشكل عام مع التركيز على BIONLP والتطبيقات السريرية.
- مختبر Uthealth Houston الطبيعي للمعالجة الطبيعية - ومقرها في مركز العلوم الصحية بجامعة تكساس في هيوستن ، كلية المعلوماتية الطبية الحيوية بقيادة الدكتور هوا شو.
- مختبر معالجة اللغة الطبيعية VCU - ومقره بجامعة فرجينيا الكومنولث بقيادة الدكتور بريدجيت ماكينز.
- Zaklab - مجموعة بقيادة الدكتور إسحاق كوهان في قسم المعلوماتية الطبية الحيوية في كلية هارفارد (الدكتور كوهان هي أيضًا مضيف لمجموعات بيانات N2C2 (سابقًا I2B2) - انظر مجموعات البيانات أدناه).
- قسم المعلوماتية الطبية الحيوية بجامعة كولومبيا - بقيادة الدكاترة. جورج Hripcsak و Noémie Elhadad.
العودة إلى الأعلى
المنظمات
- أميا - كثيرون - ولكن بالتأكيد ليس كل شيء - يدرسون المعلومات الطبية الحيوية هم أعضاء في جمعية المعلوماتية الطبية الأمريكية. Amia تنشر مجلة ، Jamia (انظر أدناه).
- IMIA - الجمعية الدولية للمعلوماتية الطبية. ينشر الكتاب السنوي لـ IMIA للمعلوماتية الطبية.
العودة إلى الأعلى
المجلات والأحداث
تعني الطبيعة متعددة التخصصات للبيوي أن الباحثين في هذا المجال قد تشارك نتائجهم وأدواتهم بعدة طرق. قد ينشرون أوراقًا في المجلات ، كما هو شائع في العلوم الطبية الحيوية والحياة. قد ينشرون أوراق المؤتمرات ، وعند القبول ، يقدمون ملصقًا و/أو عرضًا شفهيًا في حدث ما ؛ هذه ممارسة شائعة في مجالات علوم الكمبيوتر والهندسة. غالبًا ما يتم نشر أوراق المؤتمرات في مجموعات من الإجراءات. يعد منشور Preprint طريقة متزايدة الشائعة والمقبولة من الناحية المؤسسية لنشر النتائج أيضًا. تحيط هذه المنتجات الرسمية والمكتوبة هي أفكار العلوم المفتوحة والبيانات المفتوحة والمصدر المفتوح: تعتبر الباحثين في الكود والبيانات والبرمجيات موارد قيمة للمجتمع.
المجلات
بالنسبة للطباعة المسبقة ، جرب Arxiv ، وخاصة حساب المواد واللغة (CS.CL) واسترجاع المعلومات (CS.IR) ؛ Biorxiv أو medrxiv ، وخاصة مجال موضوعات المعلومات الصحية.
- قاعدة البيانات - العنوان الفرعي هو "مجلة قواعد البيانات البيولوجية والترتيب". الوصول المفتوح.
- NAR - أبحاث الأحماض النووية. له تركيز جزيئي واسع النطاق ولكنه ملحوظ بشكل خاص لقضية قاعدة البيانات السنوية.
- جاميا - مجلة جمعية المعلوماتية الطبية الأمريكية. يتعلق "المقالات في مجالات الرعاية السريرية ، والبحوث السريرية ، وعلوم الترجمة ، وعلوم التنفيذ ، والتصوير ، والتعليم ، وصحة المستهلك ، والصحة العامة ، والسياسة".
- JBI - مجلة المعلوماتية الطبية الحيوية. لا تفتح الوصول بشكل افتراضي ، على الرغم من أنه يحتوي على إصدار "X" مفتوح.
- البيانات العلمية - نشر مجلة Springer Nature Journal Open Open Opens لمجموعات البيانات ذات القيمة العلمية ، والبحث الذي يتقدم في مشاركة وإعادة استخدام البيانات العلمية ".
المؤتمرات والأحداث الأخرى
- ACM -BCB - مؤتمر ACM للمعلوماتية الحيوية والبيولوجيا الحاسوبية والمعلوماتية الصحية. عقدت سنويا منذ عام 2010.
- BIBM - المؤتمر الدولي IEEE حول المعلوماتية الحيوية والطبية الحيوية.
- ISMB - المؤتمر الدولي للأنظمة الذكية لعلم الأحياء الجزيئي هو مؤتمر سنوي تستضيفه الجمعية الدولية لعلم الأحياء الحسابي منذ عام 1993. لقد يتعلق الكثير من تركيزه بالمعلوماتية الحيوية وعلم الأحياء الحسابي دون تركيز سريري صريح ، على الرغم من أنها تضمنت كمية متزايدة من محتوى تعدين النص (على سبيل المثال ، تضمن اجتماع عام 2019 جلسة كاملة يوم واحد في علم الأحياء في مجال الصحة). يتم الجمع بين الاجتماع مع المؤتمر الأوروبي للبيولوجيا الحسابية (ECCB) في السنوات الفردية.
- PSB - ندوة المحيط الهادئ على الحوسبة الحيوية.
التحديات
يتم تنظيم بعض الأحداث في Bioie حول المهام والتحديات الرسمية التي تطور فيها المجموعات حلولها الحسابية الخاصة ، بالنظر إلى مجموعة بيانات.
- BioAsq - التحديات على فهرسة الدلالية الطبية الحيوية والإجابة على الأسئلة. التحديات وورش العمل التي عقدت سنويا منذ عام 2013.
- ورشة عمل BioCreative - تم تنظيم ورش العمل هذه منذ عام 2004 ، مع حدوث BioCreative VI فبراير 2017 وتحدي BioCreative/OHNLP الذي عقد في عام 2018. انظر مجموعات البيانات أدناه.
- ورشة عمل Semeval - المهام والتقييمات في التحليل الدلالي الحسابي. تختلف المهام حسب السنة ولكنها تغطي اللغة العلمية و/أو الطبية الحيوية بشكل متكرر ، على سبيل المثال المهمة Semeval-2019 12 حول حل المدار في الأوراق العلمية.
- EHEALth -KD - تحديات لتشجيع "تطوير تقنيات البرمجيات لاستخراج مجموعة كبيرة ومتنوعة من المعرفة تلقائيًا من وثائق EHEALTH المكتوبة باللغة الإسبانية". سبق أن عقدت كجزء من TASS ، ورشة عمل سنوية للتحليل الدلالي باللغة الإسبانية.
- EHR Dream Challenge - الذي عقد مع العديد من التحديات الأخرى التي تركز على المعلومات الحيوية ، تم افتتاح هذا التحدي في أكتوبر 2019 ويركز على استخدام بيانات السجلات الصحية الإلكترونية للتنبؤ بوفاة المرضى. يستخدم مجموعة بيانات اصطناعية بدلاً من محتويات EHR حقيقية.
العودة إلى الأعلى
دروس
يتغير المجال بسرعة كافية بحيث تفقد أي تعليمية أكبر من بضع سنوات التفاصيل الحاسمة. يتم سرد بعض الموارد التعليمية الأكثر حداثة أدناه. إن الفهم التأسيسي الجيد لتقنيات تعدين النص مفيد للغاية ، وكذلك بعض التجربة الأساسية مع اللغات Python و OR. قد يكون الخيار الأفضل هو التعلم من خلال القيام به.
أدلة LLM
TBD - شاهد هذا الفضاء!
أدلة ما قبل الللم والمحاضرات والدورات التدريبية
- البدء في تعدين النص - مقدمة موجزة عن تعدين النص الحيوي من كوهين وهنتر. أكثر من عشر سنوات ولكن لا تزال ذات صلة تماما. انظر أيضا ورقة سابقة من قبل نفس المؤلفين.
- تعدين الأدب الطبي الحيوي - حجم (غير مجاني) من الأساليب في البيولوجيا الجزيئية من عام 2014. تغطي الفصول المبادئ التمهيدية في تعدين النص ، والتطبيقات في العلوم البيولوجية ، وإمكانية استخدامها في سيناريوهات السلامة السريرية أو الطبية.
- Coursera - أسس استخراج البيانات الطبية غير المنظمة - حوالي ثلاث ساعات من محاضرات الفيديو حول العمل مع البيانات الطبية من مختلف الأنواع والهياكل ، بما في ذلك بيانات النص والصورة. يبدو عالي المستوى إلى حد ما ومقصود للمبتدئين.
- تمارين تعدين النص Jensenlab
- تعدين النص VIB والتدريب على التنظيم - حدثت ورشة التدريب هذه في عام 2013 ، لكن الشرائح لا تزال متاحة على الإنترنت.
العودة إلى الأعلى
مكتبات الكود
- Biopython - Paper - Code - أدوات Python المخصصة في المقام الأول للمعلوماتية الحيوية وأغراض البيولوجيا الجزيئية الحاسوبية ، ولكن أيضًا طريقة مريحة للحصول على البيانات ، بما في ذلك المستندات/الملخصات من PubMed (انظر الفصل 9 من الوثائق).
- الدرجات الحيوية - ورقة - إطار لقرار الطبية الحيوية.
- Medacy - نظام لبناء نماذج معالجة اللغة الطبيعية التنبؤية. بنيت على إطار Spacy.
- Scispacy - Paper - نسخة من إطار عمل Spacy للوثائق العلمية والطبية الحيوية.
- Rentrez - R المرافق للوصول إلى موارد NCBI ، بما في ذلك PubMed.
- Med7 - Paper - Code - حزمة Python ونموذج (للاستخدام مع Spacy) للقيام NER بمفاهيم متعلقة بالأدوية.
repos لمجموعات البيانات المحددة
- تقليد الكود-رمز مرتبط بمجموعة بيانات MIMIC-III (انظر أدناه). يتضمن بعض البرامج التعليمية المفيدة.
العودة إلى الأعلى
الأدوات والمنصات والخدمات
- CTAKES - ورقة - رمز - نظام لمعالجة النص في السجلات الطبية الإلكترونية. يستخدم على نطاق واسع ومفتوح المصدر.
- Clamp - Paper - مجموعة أدوات معالجة اللغة الطبيعية مخصصة للاستخدام مع النص في التقارير السريرية. تحقق من العرض التجريبي المباشر أولاً لمعرفة ما يفعله. قابل للاستخدام دون تكلفة للبحث الأكاديمي.
- Deepphe - نظام لمعالجة المستندات التي تصف عروض السرطان. بناء على ctakes (انظر أعلاه).
- DNORM - ورقة - طريقة لتطبيع المرض ، أي ، يربط أسماء الأمراض والمختصرات إلى معرفات المفاهيم الفريدة. يتضمن الإصدار القابل للتنزيل مجموعة مرض NCBI و BC5CDR (انظر بيانات النص المشروح أدناه).
- PubTator Central - Paper - منصة ويب تحدد خمسة أنواع مختلفة من المفاهيم الطبية الحيوية في المقالات PubMed ونصوص PubMed Central Full. مجموعات التعليقات التوضيحية الكاملة قابلة للتنزيل (انظر بيانات النص المشروح أدناه).
- Pubrunner - إطار لتشغيل أدوات التعدين النصية على أحدث مجموعة (مجموعات) من المستندات من PubMed.
- Semehr - ورقة - بنية تحتية IE للسجلات الصحية الإلكترونية (EHR). بنيت على مشروع cogstack.
- taggerone - ورقة - يؤدي تطبيع المفهوم (انظر أيضا dnorm أعلاه). يمكن تدريبها على أنواع مفاهيم محددة ويمكن أن تؤدي NER بشكل مستقل عن وظائف التطبيع الأخرى.
- Tabinout - ورقة - إطار عمل IE من الجداول في الأدب.
أدوات التعليق
- Anafora - ورقة - أداة شرح مع ميزات الحكم وتتبع التقدم.
- شقي - الورق - رمز - أداة التعليقات الشراعية السريعة. يدعم إنتاج تعليقات نصية بصرية ، من خلال المتصفح. ليس موضوعًا محددًا ؛ مناسبة للعديد من مشاريع التعليقات التوضيحية. يعتمد التصور على أداة Stav .
- MedTator - Paper - Code - أداة شرح مصممة للحصول على الحد الأدنى من التبعيات.
العودة إلى الأعلى
التقنيات والنماذج
نماذج لغة كبيرة
TBD - شاهد هذا الفضاء!
نماذج بيرت
- BioBert - Paper - Code - إصدار مدرب مركزي PubMed و PubMed من نموذج لغة Bert.
- Clinicalbert - نموذجان لغة مدربين على النص السريري لهما أسماء مماثلة. كلاهما مُدرّب نماذج BERT على نص الملاحظات السريرية من مجموعة بيانات MIMIC-III.
- alsentzer et al bert clinical bert - ورقة
- Huang et al Clinicalbert - ورقة
- Scibert - Paper - نموذج BERT مدرب على> 1M أوراق من قاعدة بيانات SCHONANTION.
- Bluebert - Paper - نموذج Bert تم تدريبه مسبقًا على نص PubMed وملاحظات Mimic -III.
- PubMedbert - Paper - نموذج Bert تم تدريبه من نقطة الصفر على PubMed ، مع إصدارات مدربة على الملخصات+النصوص الكاملة وعلى الملخصات وحدها.
نماذج GPT-2
- Biogpt-Paper-نموذج GPT-2 تم تدريبه مسبقًا على 15 مليون ملخص PubMed ، إلى جانب الإصدارات التي تم ضبطها للعديد من المهام الطبية الحيوية.
نماذج أخرى
- التضمينات Flair من PubMed - نموذج لغة متاح من خلال إطار Flair وطريقة التضمين. تدرب على أكثر من 5 ٪ عينة من ملخصات PubMed حتى عام 2015 ، أو> 1.2 مليون ملخص في المجموع.
تضمينات النص
- توضح هذه الورقة من مجموعة Hongfang Liu في Mayo Clinic كيف يمكن أن تُحدث تضمينات النص على النص الطبي الحيوي أو السريري ، ولكن لا تعمل دائمًا ، بشكل أفضل على مهام معالجة اللغة الطبيعية الحيوية. ومع ذلك ، قد تكون التضمينات التي تم تدريبها مسبقًا مناسبة لاحتياجاتك ، خاصة وأن التضمينات الخاصة بمجال التدريب يمكن أن تكون مكثفة من الناحية الحسابية.
- BioAsqword2Vec - Paper - Qord تضمينات مستمدة من النص الطبيب الحيوي (> 10 ملايين ملخصات PubMed) باستخدام أداة Word2Vec الشائعة.
- BioWordVec - Paper - Code - Word Embeddings المشتقة من النص الطبيب الحيوي (> 27 مليون عنوان وملخصات في PubMed) ، بما في ذلك نموذج تضمين الكلمات الفرعية استنادًا إلى شبكة.
العودة إلى الأعلى
مجموعات البيانات
تتطلب بعض مجموعات البيانات المذكورة أدناه حسابًا لمصطلحات UMLS (UTS) للوصول. يرجى ملاحظة أن الترخيص الممنوح مع حساب UTS يتطلب من المستخدمين تقديم تقرير سنوي حول استخدامهم لموارد UMLS. هذا أقل تحديا مما يبدو.
مصادر النص الطبية الحيوية
تحتوي الموارد التالية على مستندات نصية مفهرسة في العلوم الطبية الحيوية.
- OHSUMED - PAPER - 348،566 Medline Consion (title and trans reports) من بين عامي 1987 و 1991. يشمل ملصقات شبكة. في المقام الأول ذات الأهمية التاريخية.
- مجموعة PubMed Central Open Access Subst - مجموعة من المقالات المركزية في PubMed قابلة للاستخدام بموجب التراخيص الأخرى غير حقوق الطبع والنشر التقليدية ، على الرغم من أن التراخيص الدقيقة تختلف حسب النشر والمصدر. المقالات متوفرة كما PDF و XML.
- Cord-19-مجموعة من المخطوطات العلمية المتعلقة بـ Covid-19. المقالات هي في المقام الأول من خوادم PubMed Central و Preprint ، على الرغم من أن المجموعة تتضمن أيضًا بيانات التعريف على الأوراق دون توفر النص الكامل.
بيانات النص المشروحة
- SPL-ADR-200DB-ورقة-مجموعة بيانات تجريبية تحتوي على معلومات موحدة ، وشروط الحدوث في النص ، حوالي 5000 ردود فعل معروفة معروفة لـ 200 عقاقير معتمدة من FDA.
- BioCreative 1 - ورقة - 15000 جملة (10،000 تدريب و 5000 اختبار) مشروح لأسماء البروتين والجينات. 1000 مقالة بحثية طبية حيوية 1000 مصطلح مع أسماء البروتين ومصطلحات الأنطولوجيا الجينية.
- BioCreative 2 - Paper - 15000 جملة (10000 تدريب و 5000 اختبار ، تختلف عن المجموعة الأولى) المشروحة لأسماء البروتين والجينات. 542 ملخصات مرتبطة بمعرفات entrezgene. مجموعة متنوعة من المقالات البحثية المشروحة لميزات تفاعلات البروتين والبروتين.
- BioCreative v CDR Task Corpus (BC5CDR) - ورقة - 1500 مقالة (العنوان والملخص) المنشورة في عام 2014 أو في وقت لاحق ، مُشرح لـ 4،409 مادة كيميائية و 5،818 أمراض وتفاعلات 3116 الكيميائية - الإساءة. يتطلب التسجيل.
- BioCreative VI Chemprot Corpus - Paper -> 2400 مقالة مشروحة مع تفاعلات البروتين الكيميائي لمجموعة متنوعة من أنواع العلاقات. يتطلب التسجيل.
- Craft - Paper - 67 مقالات طبية حيوية كاملة النص مشروع بعدة طرق ، بما في ذلك المفاهيم والمواد الأساسية. الآن على الإصدار 5 ، بما في ذلك التعليقات التوضيحية التي تربط المفاهيم مع علم الأمراض في موندو.
- بيانات N2C2 (سابقًا I2B2) - يدير قسم المعلوماتية الطبية الحيوية (DBMI) في كلية الطب بجامعة هارفارد بيانات التحديات السريرية الوطنية لـ NLP والمعلوماتية لدمج علم الأحياء وتحديات السرير التي تعمل منذ عام 2006. إنها تتطلب تسجيلًا قبل الوصول والاستخدام. وتشمل مجموعات البيانات مجموعة متنوعة من الموضوعات. راجع قائمة تحديات البيانات للأوصاف الفردية.
- NCBI Disease Corpus - ورقة - مجموعة من 793 ملخصات طبية حيوية مشروحة بأسماء الأمراض والمفاهيم ذات الصلة من Mesh و Omim.
- مجموعات بيانات PubTator المركزية - الورق - يمكن الوصول إليه من خلال تنزيل API أو FTP. يتضمن تعليقات توضيحية لـ> 29 مليون ملخص و ∼3 مليون مستندات نصية كاملة.
- Word Sense Disambiguation (WSD) - ورقة - 203 كلمات غامضة و 37888 مثيلات مستخرجة تلقائيًا لاستخدامها في منشورات البحوث الطبية الحيوية. يتطلب حساب UTS.
- جمع الأسئلة السريرية - المعروفة أيضًا باسم CQC أو مجموعة Iowa ، هذه هي عدة آلاف من الأسئلة التي طرحها الأطباء خلال زيارات مكتبية جنبًا إلى جنب مع الإجابات المرتبطة بها.
- Bionlp ST 2013 مجموعات بيانات - بيانات من ست مهام مشتركة ، على الرغم من أن بعضها قد لا يمكن الوصول إليه بسهولة ؛ جرب مجموعة المهام CG (BionLP2013CG) لشروحات كيان واسعة النطاق.
- Bioscope - Paper - مجموعة من الجمل من الوثائق الطبية والبيولوجية ، مشروحة للنفي والتكهنات والنطاق اللغوي.
- Biored - ورقة - مجموعة من> 6.5k التعليقات التوضيحية للطبية الحيوية ، بالإضافة إلى ملصقات لنتائج جديدة.
بروتين بروتين التفاعل المشروح
يتم اختصار تفاعلات البروتين البروتين كـ PPI. المجموعات التالية متوفرة بتنسيق BIOC. تتوفر المجموعات القديمة (التي تهدف ، Bioinfer ، HPRD50 ، IEPA ، و LLL) من باب المجاملة لمستودع WBI Corpora وتم اشتقاقها في الأصل من المجموعات الأصلية من قبل مجموعة في جامعة Turku.
- تهدف - ورقة - 225 ملخصات Medline مشروحة ل PPI.
- Bioc -Biogrid - ورقة - 120 مقالات نصية كاملة مشروح ل PPI والتفاعلات الوراثية. المستخدمة في مهمة BioCreative V BIOC.
- BioInfer - Paper - 1100 جملة من تجريدات الأبحاث الطبية الحيوية المشروحة للعلاقات (بما في ذلك PPI) ، والكيانات المسمى ، والتبعيات النحوية. معلومات إضافية وروابط التنزيل موجودة هنا.
- HPRD50 - ورقة - 50 ملخص علمي مشار إليه بواسطة قاعدة بيانات البروتين البشري المرجعية ، المشروحة ل PPI.
- IEPA - Paper - 486 جمل من ملخصات البحوث الطبية الحيوية المشروحة لأزواج من المواد الكيميائية التي تحدث المشاركة ، بما في ذلك البروتينات (وبالتالي ، التعليقات التوضيحية PPI).
- LLL - Paper - 77 جمل من مقالات بحثية حول Bacterium Bacillus subtilis ، مشروحة للتفاعلات بين البروتين -جين (لذلك ، قريبة إلى حد ما من تعليقات تعليقات PPI). معلومات إضافية هنا.
مجموعات بيانات أخرى
- تفتح كولومبيا البيانات الصحية - ورقة - قاعدة بيانات للانتشار وترددات الظروف المشتركة من الظروف ، والأدوية ، والإجراءات ، والعلاقات السكانية للمريض المستخرجة من السجلات الصحية الإلكترونية. لا يشمل نص السجل الأصلي.
- قاعدة بيانات Comparative toxicogenomics - ورقة - قاعدة بيانات للجمعيات المنسقة يدويًا بين المواد الكيميائية ومنتجات الجينات والأنماط الظاهرية والأمراض والتعرضات البيئية. مفيد لتجميع الأنطولوجيا من المفاهيم ذات الصلة ، مثل أنواع المواد الكيميائية.
- Mimic -III - ورقة - بيانات صحية غير محددة من حوالي 60،000 قبول وحدة العناية المركزة. يتطلب الانتهاء من دورة تدريبية عبر الإنترنت (تدريب CITI) وقبول اتفاقية استخدام البيانات قبل الاستخدام.
- Mimic-CXR-قاعدة بيانات الأشعة السينية الصدر المحاكاة. يحتوي على أكثر من 377000 صورة شعاعية وتقارير الأشعة النصية المجانية. كما هو الحال مع Mimic-III ، يتطلب قبول اتفاقية استخدام البيانات.
- مصادر المعرفة UMLS - دليل مرجعي - مجموعة كبيرة وشاملة من المصطلحات الطبية الحيوية والمعرفات ، وكذلك الأدوات والبرامج النصية المصاحبة. اعتمادًا على أغراضك ، قد يكون الملف المفرد mrconso.rrf كافياً ، حيث يحتوي هذا الملف على معرفات وأسماء فريدة لجميع المفاهيم في UMLS metathesaurus. انظر أيضًا قسم الأنطولوجيا والمفردات التي يتم التحكم فيها أدناه.
- تقليد-IV-تحديث لبيانات المريض متعددة الوسائط في Mimic-III ، الذي يغطي الآن السنوات الأخيرة من القبول ، بالإضافة إلى بنية بيانات جديدة ، وسجلات قسم الطوارئ ، وروابط لصور Mimic-CXR.
- قاعدة بيانات البحث التعاوني EICU - ورقة - قاعدة بيانات للملاحظات من أكثر من 200 ألف قبول وحدة العناية المركزة ، مع بنية متسقة. يتطلب التسجيل ، وإكمال الدورة التدريبية ، واتفاقية استخدام البيانات.
العودة إلى الأعلى
الأنطولوجيا والمفردات التي تسيطر عليها
- مرض الأنطولوجيا - ورقة - علم الأنطولوجيا من الأمراض البشرية. لديه روابط متقاطعة إلى شبكة ، ICD ، NCI thesaurus ، snomed ، و OMIM. المجال العام. متوفر على github وعلى مسبك OBO.
- Rxnorm - الورق - الأسماء الطبيعية للعقاقير السريرية وحزم الأدوية ، مع المكونات المدمجة ، نقاط القوة ، والأنواع المخصصة ، وأنواع مخصصة من الشبكة الدلالية (انظر أدناه). صدر شهريا.
- المعجم المتخصص - ورقة - معجم اللغة الإنجليزية العامة يتضمن العديد من المصطلحات الطبية الحيوية. تم تحديثه سنويًا منذ عام 1994 ولا يزال يتم تحديثه اعتبارًا من عام 2019. جزء من UMLS ولكنه لا يتطلب تنزيل حساب UTS.
- Umls Metathesaurus - Paper - Mappings بين> 3.8 مليون مفهوم ، 14 مليون اسم مفهوم ، و> 200 مصدر للمفردات الطبية الحيوية والمعرفات. إنه كبير. قد يساعد ذلك في إعداد مجموعة فرعية من Metathesaurus باستخدام أداة تثبيت Metamorphosys ، لكننا ما زلنا نتحدث عن مساحة القرص 30 جيجابايت تقريبًا لإصدار 2019. انظر الدليل هنا. يتطلب حساب UTS.
- شبكة UMLS الدلالية - ورقة - قوائم من 133 أنواعًا دلالية و 54 علاقات دلالية تغطي المفاهيم الطبية الحيوية والمفردات. هل Metathesaurus معقد للغاية لاحتياجاتك؟ جرب هذا. لا يتطلب تنزيل حساب UTS.
العودة إلى الأعلى
نماذج البيانات
هل تحتاج إلى نموذج بيانات؟ إذا كنت تعمل مع البيانات الطبية الحيوية ، فربما تكون الإجابة "نعم".
- Biolink - رمز - نموذج بيانات للكيانات البيولوجية. المقدمة كملف yaml.
- Biouml - ورقة - بنية لتحليل البيانات الطبية الحيوية ، والتكامل ، والتصور. من الناحية النظرية على لغة النمذجة البصرية UML.
- نموذج بيانات OMOP المشترك - معيار لبيانات الرعاية الصحية الرصدية.
العودة إلى الأعلى
الاعتمادات
اعتمادات للقيمين والمصادر.
رخصة
رخصة