المستودع الرسمي لمركز برشلونة الحوسبة الفائقة (BSC) الطبية الحيوية والسريرية النماذج المسبقة للإسبانية.
أصدرنا أفضل نماذجنا بموجب ترخيص Apache 2.0 لتشجيع تطوير تطبيقات NLP الإسبانية في المجالات الطبية والسريرية.
لقد قمنا بتدريب نموذجين ونجعلهما متاحين على Huggingface Models Hub في الروابط التالية:
بالإضافة إلى ذلك ، تم تدريب إصدار Longformer ليكون قادرًا على العمل مع المهام التي تتطلب سياقات أكبر ، مثل الترميز السريري. الشركات المستخدمة هي نفسها أدناه. يمكن العثور على النموذج أيضًا على Hugginface:
قمنا بتنشيط نماذجنا لمهمة التعرف على الكيان المسماة (NER) ونجعل أفضل النماذج متوفرة على Huggingface Models Hub في الروابط التالية:
تتألف شركة التدريب من العديد من الشركات الطبية الحيوية باللغة الإسبانية ، والتي تم جمعها من الشركات والزحف المتاحة للجمهور ، وجسم سريري حقيقي تم جمعه من أكثر من 278 كيلو وثيقة سريرية وملاحظات. للحصول على مجموعة تدريب عالية الجودة مع الحفاظ على خصوصيات اللغة السريرية ، تم تطبيق خط أنابيب التنظيف فقط على المؤسسة الطبية الحيوية ، مع الحفاظ على مجموعة الإكلينيكية. في الأساس ، فإن عمليات التنظيف المستخدمة هي:
بعد ذلك ، تم تطبيق الشركات الطبية الحيوية وتم تطبيق مزيد من الخلايا العالمية بين الشركات الطبية الحيوية. النتائج هي مجموعة سريرية تبلغ حوالي 91 مليون رموز ومجموعة طبية حيوية تبلغ حوالي 963 متر رموز. في نهاية المطاف ، يتم تسلسل المجموعة السريرية إلى مجموعة طبية حيوية تنظيفها مما يؤدي إلى مجموعة طبية حيوية متوسطة الحجم للأسبان التي تتكون من أكثر من رموز 1B. يوضح الجدول أدناه بعض الإحصاءات الأساسية للشركة التي تم تنظيفها الفردية:
| اسم | رقم الرموز | وصف |
|---|---|---|
| الزاحف الطبي | 903،558،136 | زاحف من أكثر من 3000 عناوين URL التي تنتمي إلى المجالات الطبية والصحية الإسبانية. |
| الحالات السريرية متفرقات. | 102،855،267 | متنوعة من المحتوى الطبي ، الحالات السريرية أساسا. لاحظ أن تقرير الحالة السريرية هو منشور علمي حيث يشارك الممارسون الطبيون حالات المرضى ويختلف عن ملاحظة أو وثيقة سريرية. |
| وثائق EHR | 95،267،20 | جمع أكثر من 278 كيلو وثيقة سريرية ، بما في ذلك تقارير التفريغ ، وملاحظات الدورة السريرية وتقارير الأشعة السينية ، ليصبح المجموع 91 مليون رموز. https://huggingface.co/plantl-gob-es/longformer-base-4096-biomedical-clinical-es |
| سكيلو | 60،007،289 | المنشورات المكتوبة باللغة الإسبانية زحفت من خادم Scielo الإسباني في عام 2017. |
| Barr2_background | 24،516،442 | التعرف على الاختصار الطبي الحيوي وحله (BARR2) يحتوي على أقسام دراسة الحالة السريرية الإسبانية من مجموعة متنوعة من التخصصات السريرية. |
| wikipedia_life_sciences | 13،890،501 | زحفت مقالات ويكيبيديا 04/01/2021 مع مكتبة ويكيبيديا API Python بدءًا من فئة "Ciencias_DE_LA_VIDA" بحد أقصى 5 فئة فرعية. ثم يتم تجاهل روابط متعددة لنفس المقالات لتجنب تكرار المحتوى. |
| براءات الاختراع | 13،463،387 | براءة اختراع Google في المجال الطبي لإسبانيا (الإسبانية). الرموز المقبولة (المجال الطبي) لملفات براءات الاختراع JSON هي: "A61B" ، "A61C" ، "A61F" ، "A61H" ، "A61K" ، "A61L" ، "A61M" ، A61B "،" A61P ". |
| أوروبا والشرق الأوسط وأفريقيا | 5،377،448 | المستندات الإسبانية التي تم استخلاصها من شركة متوازية مصنوعة من وثائق PDF من وكالة الأدوية الأوروبية. |
| mespen_medline | 4،166،077 | مقالات من جانب الإسبانية المستخرجة من مجموعة من مجموعة متوازية باللغة الإنجليزية التي تتكون من الأدب العلمي الطبي الحيوي. يتم تجميع جمع الموارد المتوازية من مصدر MedlinePlus. |
| PubMed | 1،858،966 | تم زحف المقالات المفتوحة من مستودع PubMed في عام 2017. |
تم ضبط النماذج بشكل جيد على مهام التعرف على الكيان المسماة (NER) باستخدام ثلاث مجموعات بيانات سريرية ، مثل Pharmaconer و Cantemist و Ictusnet. لقد عالجنا مهمة NER كمشكلة تصنيف رمزية باستخدام طبقة خطية قياسية مع مخطط وضع العلامات الحيوية. قمنا بمقارنة نماذجنا مع المجال العام Roberta-Base-Bne ، النموذج متعدد اللغات المجال العام الذي يدعم Mbert الإسبانية ، النموذج الإنجليزي الخاص بالمجال ، وثلاثة نماذج خاصة بالمجال تستند إلى التدريب المستمر ، وممبر-غالين ، XLM-R-Galén و Beto-Galén. يوضح الجدول أدناه درجات F1 التي تم الحصول عليها:
| المهام/النماذج | BSC-BIO-ES | BSC-BIO-EHR-ES | XLM-R-Galén | بيتو جالين | Mbert-Galén | Mbert | BioBert | روبرتا-باس-بني |
|---|---|---|---|---|---|---|---|---|
| الصيدلة | 0.8907 | 0.8913 | 0.8754 | 0.8537 | 0.8594 | 0.8671 | 0.8545 | 0.8474 |
| كانتيمست | 0.8220 | 0.8340 | 0.8078 | 0.8153 | 0.8168 | 0.8116 | 0.8070 | 0.7875 |
| ictusnet | 0.8727 | 0.8756 | 0.8716 | 0.8498 | 0.8509 | 0.8631 | 0.8521 | 0.8677 |
المثال التالي ، أظهر كيفية التنبؤ بالكيانات التي تم ضبطها على نموذج BSC-Bio-EHR-ES على مجموعة بيانات الصيدلة:
from transformers import AutoTokenizer , AutoModelForTokenClassification , pipeline
tokenizer = AutoTokenizer . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
model = AutoModelForTokenClassification . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
pipe = pipeline ( task = 'token-classification' , model = 'PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer' )
sentence = 'Por el hallazgo de múltiples fracturas por estrés, se procedió a estudio en nuestras consultas, realizándose análisis con función renal, calcio sérico y urinario, calcio iónico, magnesio y PTH, que fueron normales.'
results = pipe ( sentence )
print ( results ) # Expected output with the predicted entities:
[
{'word': 'Ġcalcio', 'score': 0.9963880181312561, 'entity': 'B-NORMALIZABLES', 'index': 24, 'start': 137, 'end': 143}, {'word': 'Ġcalcio', 'score': 0.9965023398399353, 'entity': 'B-NORMALIZABLES', 'index': 29, 'start': 163, 'end': 169}, {'word': 'Ġmagnesio', 'score': 0.996299147605896, 'entity': 'B-NORMALIZABLES', 'index': 32, 'start': 178, 'end': 186}, {'word': 'ĠPTH', 'score': 0.9950509667396545, 'entity': 'B-PROTEINAS', 'index': 34, 'start': 189, 'end': 192}
]
أولاً ، استنساخ المشروع:
git clone https://github.com/PlanTL-GOB-ES/lm-biomedical-clinical-es/blob/master/README.md
قم بإعداد بيئة افتراضية Python وقم بتنشيطها
python3.8 -m venv venv; source venv/bin/activate
قم بتثبيت جميع حزم Python المطلوبة في البيئة الظاهرية التي تعمل على تشغيل السطر التالي من المجلد الرئيسي للمشروع: pip install -r requirements.txt .
أخيرًا ، قم بتشغيل الأمر التالي في المجلد الرئيسي للمشروع: bash ner.sh [MODEL_NAME] [DATASET_NAME] [SEED] ، حيث
[MODEL_NAME] : اسم نموذج Huggingface للنموذج المسبق الذي تريد استخدامه.[DATASET_NAME] : اسم مجموعة بيانات HuggingFace لمجموعة بيانات NER للاستخدام. يمكن اختياره من "Plantl-Gob-ES/Cantemist-Ner" و "Plantl-Gob-ES/Pharmaconer" ، اعتمادًا على مجموعة البيانات التي تريد استخدامها.[SEED] : البذور التي تريد استخدامها. هذا يسمح لإعادة إنتاج نفس النتائج. نصي ner.sh قم بتصنيع نموذج لغة مسبق لمهمة NER لتطبيق رأس تصنيف خطي. بشكل افتراضي ، يتم تشغيل عملية التثبيت لمدة 10 عصر مع تقييم على التطوير المحدد في كل فترة. يتم اختيار النموذج الذي يحقق أفضل أداء في مجموعة التطوير كنموذج نهائي ويتم تقييمه في مجموعة الاختبار. أفضل طراز مدرب هو المتجر في مسار الإخراج من النوع ./output/model-$model_name/dataset-$dataset_name/seed-$seed مع مجلدات نقاط التفتيش وبيانات Tensorboard (داخل دليل tb ).
على سبيل المثال ، لضبط نموذج لغة BSC-Bio-EHR-ES على مجموعة بيانات Pharmaconer ، قم بتشغيل الأمر:
bash ner.sh PlanTL-GOB-ES/bsc-bio-ehr-es PlanTL-GOB-ES/pharmaconer 42
إذا كنت تستخدم هذه النماذج ، فيرجى الاستشهاد بعملنا:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{`a}mies, Marc and
Guti{'e}rrez-Fandi{~n}o, Asier and
Armengol-Estap{'e}, Jordi and
Silveira-Ocampo, Joaqu{'i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
هذا المشروع مرخص بموجب ترخيص Apache ، الإصدار 2.0
حقوق الطبع والنشر (C) 2021 Secressaría de Estado de Devalitización e Inteligencia مصطنعة (Sedia)
تم تمويل هذا العمل من قبل أمانة الدولة الإسبانية للرقمنة والذكاء الاصطناعي (SEDIA) في إطار الخطة TL.
النماذج المنشورة في هذا المستودع مخصصة لغرض عام ومتاحة لأطراف ثالثة. قد يكون لهذه النماذج تحيز و/أو أي تشوهات أخرى غير مرغوب فيها.
عندما يتم نشر أنظمة و/أو تقديم أنظمة و/أو تقديمها لأطراف أخرى باستخدام أي من هذه النماذج (أو استخدام أنظمة تعتمد على هذه النماذج) أو تصبح مستخدمين للنماذج ، يجب أن يلاحظوا أنه من مسؤوليتهم تخفيف المخاطر الناشئة عن استخدامها ، وفي أي حال ، للامتثال للوائح المعمول بها ، بما في ذلك اللوائح المتعلقة باستخدام الذكاء الاصطناعي.
لا يجوز بأي حال من الأحوال أن يتحمل مالك النماذج (SEDIA - أمانة الدولة للرقمنة والذكاء الاصطناعي) ولا الخالق (BSC - مركز الحوسبة الفائقة برشلونة) مسؤولية أي نتائج ناشئة عن الاستخدام الذي أجراه أطراف ثالثة من هذه النماذج.
LOS Modelos Publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. stos modelos pueden tener sesgos y/u otro tipo de distorsiones indesables.
cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o conviertan su uso y ، en todo caso ، cumplir con la normativa applable ، incluyendo la normativa en materia de uso de inteligencia antaNSTION.
En Ningún Caso el Propietario de Los Modelos (Sedia - Sericaría de Estado de Devalitización e Inteligencia intelectial) ni el creador (BSC - Barcelona Superceding Center) Serán de de los resultados derivados del uso que hagan terceros de estos.