พื้นที่เก็บข้อมูลอย่างเป็นทางการของ Barcelona Supercomputing Center (BSC) แบบจำลองภาษาชีวการแพทย์และคลินิกที่ผ่านการฝึกอบรมทางคลินิกสำหรับภาษาสเปน
เราเปิดตัวโมเดลที่ดีที่สุดของเราภายใต้ Apache License 2.0 เพื่อส่งเสริมการพัฒนาแอพพลิเคชั่น NLP ของสเปนในโดเมนชีวการแพทย์และคลินิก
เราฝึกอบรมสองรุ่นและทำให้พวกเขามีอยู่ในศูนย์กลางโมเดล HuggingFace ที่ลิงค์ต่อไปนี้:
นอกจากนี้เวอร์ชั่น Longfroformer ได้รับการฝึกฝนให้สามารถทำงานกับงานที่ต้องใช้บริบทที่ใหญ่กว่าเช่นการเข้ารหัสทางคลินิก Corpora ที่ใช้นั้นเหมือนกับด้านล่าง รุ่นสามารถพบได้ใน Hugginface:
เราปรับโมเดลของเราสำหรับงานการจดจำเอนทิตี (NER) ที่มีชื่อและทำให้โมเดลที่ดีที่สุดมีอยู่ในฮับโมเดล HuggingFace ที่ลิงก์ต่อไปนี้:
บริษัท ฝึกอบรมประกอบด้วย บริษัท ชีวการแพทย์หลายแห่งในภาษาสเปนรวบรวมจาก บริษัท และซอฟต์แวร์รวบรวมข้อมูลที่เปิดเผยต่อสาธารณะและคลังข้อมูลทางคลินิกในโลกแห่งความเป็นจริงที่รวบรวมจากเอกสารและบันทึกทางคลินิกมากกว่า 278K เพื่อให้ได้คลังการฝึกอบรมที่มีคุณภาพสูงในขณะที่ยังคงรักษานิสัยของภาษาทางคลินิกไปป์ไลน์การทำความสะอาดได้ถูกนำไปใช้กับ บริษัท ชีวการแพทย์เท่านั้น โดยพื้นฐานแล้วการทำความสะอาดที่ใช้คือ:
จากนั้น Corpora ชีวการแพทย์จะถูกต่อกันและมีการขจัดความซ้ำซ้อนทั่วโลกในหมู่ บริษัท ชีวการแพทย์ได้ถูกนำไปใช้ ผลลัพธ์เป็น คลังข้อมูลทางคลินิก ของโทเค็นประมาณ 91m และ คลังข้อมูลชีวการแพทย์ ประมาณ 963m โทเค็น ในที่สุดคลังข้อมูลทางคลินิกถูกต่อกันกับคลังข้อมูลชีวการแพทย์ที่ทำความสะอาดส่งผลให้คลังข้อมูลทางชีวการแพทย์ขนาดกลางขนาดกลางสำหรับสเปนประกอบด้วยโทเค็นมากกว่า 1B ตารางด้านล่างแสดงสถิติพื้นฐานบางอย่างของ Corpora ที่ทำความสะอาดแต่ละรายการ:
| ชื่อ | ไม่โทเค็น | คำอธิบาย |
|---|---|---|
| เครื่องรวบรวมข้อมูลทางการแพทย์ | 903,558,136 | ตัวรวบรวมข้อมูล URL มากกว่า 3,000 URL ที่เป็นของโดเมนชีวการแพทย์และสุขภาพของสเปน |
| กรณีทางคลินิกอื่น ๆ | 102,855,267 | หนังสือเล่มเล็ก ๆ ของเนื้อหาทางการแพทย์ซึ่งเป็นหลักทางคลินิก โปรดทราบว่ารายงานผู้ป่วยทางคลินิกเป็นสิ่งพิมพ์ทางวิทยาศาสตร์ที่ผู้ปฏิบัติงานทางการแพทย์แบ่งปันกรณีผู้ป่วยและแตกต่างจากบันทึกทางคลินิกหรือเอกสาร |
| เอกสาร EHR | 95,267,20 | การรวบรวมเอกสารทางคลินิกมากกว่า 278K รวมถึงรายงานการปลดปล่อยบันทึกย่อหลักสูตรทางคลินิกและรายงานเอ็กซเรย์รวมเป็นโทเค็นทั้งหมด 91m https://huggingface.co/plantl-gob-es/longformer-base-4096-biomedical-clinical-es |
| Scielo | 60,007,289 | สิ่งพิมพ์ที่เขียนเป็นภาษาสเปนคลานจากเซิร์ฟเวอร์ SCIELO สเปนในปี 2560 |
| Barr2_background | 24,516,442 | การรับรู้และการแก้ปัญหาตัวย่อทางชีวการแพทย์ (BARR2) ที่มีกรณีศึกษาทางคลินิกของสเปนจากสาขาวิชาที่หลากหลายทางคลินิก |
| wikipedia_life_sciences | 13,890,501 | บทความ Wikipedia คลาน 04/01/2021 พร้อมห้องสมุด Wikipedia API Python เริ่มต้นจากหมวดหมู่ "CIENCIAS_DE_LA_VIDA" สูงสุด 5 หมวดหมู่ย่อย ลิงก์หลายลิงก์ไปยังบทความเดียวกันจะถูกยกเลิกเพื่อหลีกเลี่ยงเนื้อหาซ้ำ |
| สิทธิบัตร | 13,463,387 | Google สิทธิบัตรในโดเมนการแพทย์สำหรับสเปน (สเปน) รหัสที่ได้รับการยอมรับ (โดเมนทางการแพทย์) สำหรับไฟล์ JSON ของสิทธิบัตรคือ: "A61B", "A61C", "A61F", "A61H", "A61K", "A61L", "A61M", "A61B", "A61P" |
| EMEA | 5,377,448 | เอกสารด้านสเปนที่สกัดจาก Corpora คู่ขนานที่ทำจากเอกสาร PDF จากสำนักงานยายุโรป |
| mespen_medline | 4,166,077 | บทความด้านสเปนที่สกัดจากคอลเลกชันของคลังข้อมูลคู่ขนานภาษาสเปน-อังกฤษประกอบด้วยวรรณกรรมทางวิทยาศาสตร์ชีวการแพทย์ คอลเลกชันของทรัพยากรแบบขนานนั้นรวมจากแหล่ง MedlinePlus |
| PubMed | 1,858,966 | บทความที่เปิดกว้างจากที่เก็บ PubMed คลานในปี 2560 |
โมเดลได้รับการปรับแต่งอย่างละเอียดเกี่ยวกับงานการจดจำเอนทิตี (NER) ที่มีชื่อโดยใช้ชุดข้อมูล NER ทางคลินิกสามชุดเช่นเภสัชกรรม, Cantemist และ Ictusnet เรากล่าวถึงงาน NER เป็นปัญหาการจำแนกโทเค็นโดยใช้เลเยอร์เชิงเส้นมาตรฐานพร้อมกับสคีมาแท็กไบโอ เราเปรียบเทียบโมเดลของเรากับโดเมนทั่วไปสเปน Roberta-Base, โมเดลหลายภาษาโดเมนทั่วไปที่รองรับ Mbert สเปน, โมเดลภาษาอังกฤษเฉพาะโดเมน Biobert และโมเดลเฉพาะโดเมนสามแบบขึ้นอยู่กับการฝึกอบรมก่อนการฝึกอบรมอย่างต่อเนื่อง Mbert-Galén, XLM-R-Galénและ Beto-Galén ตารางด้านล่างแสดงคะแนน F1 ที่ได้รับ:
| งาน/รุ่น | BSC-BIO-ES | BSC-BIO-EHR-ES | xlm-r-galén | beto-galén | Mbert-Galén | Mbert | นักชีวภาพ | Roberta-Base-Bne |
|---|---|---|---|---|---|---|---|---|
| เภสัชกร | 0.8907 | 0.8913 | 0.8754 | 0.8537 | 0.8594 | 0.8671 | 0.8545 | 0.8474 |
| นักต้มตุ๋น | 0.8220 | 0.8340 | 0.8078 | 0.8153 | 0.8168 | 0.8116 | 0.8070 | 0.7875 |
| ictusnet | 0.8727 | 0.8756 | 0.8716 | 0.8498 | 0.8509 | 0.8631 | 0.8521 | 0.8677 |
ตัวอย่างต่อไปนี้แสดงวิธีการทำนายเอนทิตีรุ่น BSC-BIO-EHR-ES ที่ปรับแต่งในชุดข้อมูล Pharmaconer:
from transformers import AutoTokenizer , AutoModelForTokenClassification , pipeline
tokenizer = AutoTokenizer . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
model = AutoModelForTokenClassification . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
pipe = pipeline ( task = 'token-classification' , model = 'PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer' )
sentence = 'Por el hallazgo de múltiples fracturas por estrés, se procedió a estudio en nuestras consultas, realizándose análisis con función renal, calcio sérico y urinario, calcio iónico, magnesio y PTH, que fueron normales.'
results = pipe ( sentence )
print ( results ) # Expected output with the predicted entities:
[
{'word': 'Ġcalcio', 'score': 0.9963880181312561, 'entity': 'B-NORMALIZABLES', 'index': 24, 'start': 137, 'end': 143}, {'word': 'Ġcalcio', 'score': 0.9965023398399353, 'entity': 'B-NORMALIZABLES', 'index': 29, 'start': 163, 'end': 169}, {'word': 'Ġmagnesio', 'score': 0.996299147605896, 'entity': 'B-NORMALIZABLES', 'index': 32, 'start': 178, 'end': 186}, {'word': 'ĠPTH', 'score': 0.9950509667396545, 'entity': 'B-PROTEINAS', 'index': 34, 'start': 189, 'end': 192}
]
ก่อนอื่นโคลนโครงการ:
git clone https://github.com/PlanTL-GOB-ES/lm-biomedical-clinical-es/blob/master/README.md
ตั้งค่าสภาพแวดล้อมเสมือนจริงของ Python และเปิดใช้งาน
python3.8 -m venv venv; source venv/bin/activate
ติดตั้งแพ็คเกจ Python ที่ต้องการทั้งหมดในสภาพแวดล้อมเสมือนจริงที่เรียกใช้บรรทัดต่อไปนี้จากโฟลเดอร์หลักของโครงการ: pip install -r requirements.txt
ในที่สุดรันคำสั่งต่อไปนี้ในโฟลเดอร์หลักของโครงการ: bash ner.sh [MODEL_NAME] [DATASET_NAME] [SEED] โดยที่
[MODEL_NAME] : ชื่อโมเดลของ HuggingFace ของโมเดล pretrained ที่คุณต้องการใช้[DATASET_NAME] : HuggingFace 'ชื่อชุดข้อมูลของชุดข้อมูล NER ที่จะใช้ สามารถเลือกได้จาก "Plantl-GOB-ES/Cantemist-ner" และ "Plantl-GOB-ES/Pharmaconer" ขึ้นอยู่กับชุดข้อมูลที่คุณต้องการใช้[SEED] : เมล็ดที่คุณต้องการใช้ สิ่งนี้ช่วยให้สามารถทำซ้ำผลลัพธ์เดียวกัน สคริปต์ ner.sh ปรับแต่งรูปแบบภาษาที่ผ่านการฝึกอบรมสำหรับงาน NER ที่ใช้หัวการจำแนกเชิงเส้น โดยค่าเริ่มต้นการปรับจูนการปรับแต่งสำหรับ 10 Epochs พร้อมการประเมินผลการพัฒนาที่ตั้งไว้ในทุกยุคสมัย แบบจำลองที่บรรลุประสิทธิภาพที่ดีที่สุดในชุดการพัฒนาถูกเลือกเป็นแบบจำลองสุดท้ายและประเมินผลในชุดทดสอบ รูปแบบที่ผ่านการฝึกอบรมที่ดีที่สุดคือการจัดเก็บในเส้นทางเอาท์พุทของประเภท ./output/model-$model_name/dataset-$dataset_name/seed-$seed $model_name/dataset-$dataset_name/seed-$seed พร้อมกับโฟลเดอร์จุดตรวจสอบและข้อมูล Tensorboard (ภายในไดเรกทอรี tb )
ตัวอย่างเช่นในการปรับแต่งรูปแบบภาษา BSC-BIO-EHR-ES บนชุดข้อมูล Pharmaconer ให้เรียกใช้คำสั่ง:
bash ner.sh PlanTL-GOB-ES/bsc-bio-ehr-es PlanTL-GOB-ES/pharmaconer 42
หากคุณใช้โมเดลเหล่านี้โปรดอ้างอิงงานของเรา:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{`a}mies, Marc and
Guti{'e}rrez-Fandi{~n}o, Asier and
Armengol-Estap{'e}, Jordi and
Silveira-Ocampo, Joaqu{'i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
โครงการนี้ได้รับอนุญาตภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0
ลิขสิทธิ์ (c) 2021 Secretaría de Estado de Digitalización e Inteligencia เทียม (Sedia)
งานนี้ได้รับทุนจากสำนักเลขาธิการของรัฐสเปนสำหรับการทำให้เป็นดิจิทัลและปัญญาประดิษฐ์ (SEDIA) ภายใต้กรอบของแผน TL
แบบจำลองที่เผยแพร่ในที่เก็บนี้มีไว้สำหรับวัตถุประสงค์ทั่วไปและมีให้สำหรับบุคคลที่สาม แบบจำลองเหล่านี้อาจมีอคติและ/หรือการบิดเบือนอื่น ๆ ที่ไม่พึงประสงค์
เมื่อบุคคลที่สามปรับใช้หรือจัดหาระบบและ/หรือบริการให้กับบุคคลอื่น ๆ โดยใช้โมเดลเหล่านี้ (หรือใช้ระบบตามรุ่นเหล่านี้) หรือกลายเป็นผู้ใช้แบบจำลองพวกเขาควรทราบว่าเป็นความรับผิดชอบของพวกเขาในการลดความเสี่ยงที่เกิดขึ้นจากการใช้งานและในทุกกรณีเพื่อให้สอดคล้องกับกฎระเบียบที่เกี่ยวข้อง
ไม่ว่าจะเป็นเจ้าของโมเดล (Sedia - State Secretariat for Digitalization และ Artificial Intelligence) หรือผู้สร้าง (BSC - Barcelona Supercomputing Center) จะต้องรับผิดชอบต่อผลลัพธ์ใด ๆ ที่เกิดขึ้นจากการใช้งานโดยบุคคลที่สามของรุ่นเหล่านี้
los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros estos modelos pueden tener sesgos y/u otro tipo de distorsiones
Cuando terceros despleguen o proporcionen sistemas y/o servicios a otras แยก usando alguno de estos modelos (o utilizando sistemas basados en estos modelos su uso y, en todo caso, cumplir con la la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia เทียม
en ningún caso el propietario de los modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia เทียม) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Responsables