Repositori Resmi dari Model Bahasa Pretrained Pusat Supercomputing (BSC) Biomedis dan Klinis untuk Spanyol.
Kami merilis model terbaik kami di bawah Lisensi Apache 2.0 untuk mendorong pengembangan aplikasi NLP Spanyol di domain biomedis dan klinis.
Kami melatih dua model dan membuatnya tersedia di hub HuggingFace 'Model di tautan berikut:
Selain itu, versi yang lebih lama telah dilatih untuk dapat bekerja dengan tugas -tugas yang membutuhkan konteks yang lebih besar, seperti pengkodean klinis. Korpora yang digunakan sama seperti di bawah ini. Model juga dapat ditemukan di Hugginface:
Kami menyempurnakan model kami untuk tugas pengenalan entitas bernama (NER) dan membuat model terbaik yang tersedia di hub model HuggingFace di tautan berikut:
Korpora pelatihan terdiri dari beberapa korpora biomedis dalam bahasa Spanyol, dikumpulkan dari korpora dan perayap yang tersedia untuk umum, dan korpus klinis dunia nyata yang dikumpulkan dari lebih dari 278 ribu dokumen dan catatan klinis. Untuk mendapatkan corpus pelatihan berkualitas tinggi sambil mempertahankan kekhasan bahasa klinis, pipa pembersih hanya diterapkan pada korpora biomedis, menjaga korpus klinis tidak bersih. Pada dasarnya, operasi pembersihan yang digunakan adalah:
Kemudian, korpora biomedis digabungkan dan deduplikasi global lebih lanjut di antara korpora biomedis telah diterapkan. Hasilnya adalah korpus klinis sekitar 91m token dan korpus biomedis sekitar 963m token. Akhirnya, korpus klinis digabungkan dengan korpus biomedis yang dibersihkan yang menghasilkan korpus biomedis-klinis ukuran sedang untuk bahasa Spanyol yang terdiri dari lebih dari 1B token. Tabel di bawah ini menunjukkan beberapa statistik dasar dari korpora yang dibersihkan individu:
| Nama | Tidak. Token | Keterangan |
|---|---|---|
| Crawler medis | 903.558.136 | Crawler dengan lebih dari 3.000 URL milik domain biomedis dan kesehatan Spanyol. |
| Kasus klinis misc. | 102.855.267 | Sebuah Miscellany of Medical Content, pada dasarnya kasus klinis. Perhatikan bahwa laporan kasus klinis adalah publikasi ilmiah di mana praktisi medis berbagi kasus pasien dan berbeda dari catatan atau dokumen klinis. |
| Dokumen EHR | 95.267,20 | Pengumpulan lebih dari 278 ribu dokumen klinis, termasuk laporan pelepasan, catatan kursus klinis dan laporan sinar-X, dengan total 91 juta token. https://huggingface.co/plantl-gob-es/longformer-base-4096-biomedical-clinical-es |
| Scielo | 60.007.289 | Publikasi yang ditulis dalam bahasa Spanyol merangkak dari Server Scielo Spanyol pada tahun 2017. |
| Barr2_background | 24.516.442 | Pengenalan dan resolusi singkatan biomedis (BARR2) yang mengandung bagian studi kasus klinis Spanyol dari berbagai disiplin ilmu klinis. |
| Wikipedia_life_sciences | 13.890.501 | Artikel Wikipedia merangkak 04/01/2021 dengan Perpustakaan Wikipedia API Python mulai dari kategori "Ciencias_de_la_vida" hingga maksimum 5 subkategori. Beberapa tautan ke artikel yang sama kemudian dibuang untuk menghindari konten yang berulang. |
| Paten | 13.463.387 | Paten Google dalam Domain Medis untuk Spanyol (Spanyol). Kode yang diterima (domain medis) untuk file paten JSON adalah: "a61b", "a61c", "a61f", "a61h", "a61k", "a61l", "a61m", "a61b", "a61p". |
| EMEA | 5.377.448 | Dokumen sisi Spanyol yang diekstraksi dari korpora paralel yang terbuat dari dokumen PDF dari Badan Obat Eropa. |
| mespen_medline | 4.166.077 | Artikel sisi Spanyol diekstraksi dari koleksi korpus paralel bahasa Spanyol-Inggris yang terdiri dari literatur ilmiah biomedis. Kumpulan sumber daya paralel dikumpulkan dari sumber medlineplus. |
| PubMed | 1.858.966 | Artikel akses terbuka dari repositori PubMed merangkak pada tahun 2017. |
Model-model tersebut telah disesuaikan dengan tugas-tugas pengenalan entitas yang disebutkan (NER) yang menggunakan tiga dataset NER klinis, seperti, farmakon, Cantemist dan Ictusnet. Kami membahas tugas NER sebagai masalah klasifikasi token menggunakan lapisan linier standar bersama dengan skema penandaan bio. Kami membandingkan model kami dengan domain umum Roberta-Base-BNE-BNE, model multibahasa domain umum yang mendukung Spanyol Mbert, model Inggris khusus domain BioBert, dan tiga model khusus domain berdasarkan pra-pelatihan terus-menerus, Mbert-Galén, XLM-R-Galén dan Beto-Galén. Tabel di bawah ini menunjukkan skor F1 yang diperoleh:
| Tugas/model | BSC-BIO-EES | BSC-BIO-EHR-EES | XLM-R-Galén | Beto-Galén | mbert-galén | mbert | Biobert | Roberta-base-bne |
|---|---|---|---|---|---|---|---|---|
| Apotakoner | 0.8907 | 0.8913 | 0.8754 | 0.8537 | 0.8594 | 0.8671 | 0.8545 | 0.8474 |
| Cantemist | 0.8220 | 0.8340 | 0.8078 | 0.8153 | 0.8168 | 0.8116 | 0.8070 | 0.7875 |
| Ictusnet | 0.8727 | 0.8756 | 0.8716 | 0.8498 | 0.8509 | 0.8631 | 0.8521 | 0.8677 |
Contoh berikut, tunjukkan cara memprediksi entitas model BSC-BIO-EHR-ES disempurnakan pada dataset farmakon:
from transformers import AutoTokenizer , AutoModelForTokenClassification , pipeline
tokenizer = AutoTokenizer . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
model = AutoModelForTokenClassification . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
pipe = pipeline ( task = 'token-classification' , model = 'PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer' )
sentence = 'Por el hallazgo de múltiples fracturas por estrés, se procedió a estudio en nuestras consultas, realizándose análisis con función renal, calcio sérico y urinario, calcio iónico, magnesio y PTH, que fueron normales.'
results = pipe ( sentence )
print ( results ) # Expected output with the predicted entities:
[
{'word': 'Ġcalcio', 'score': 0.9963880181312561, 'entity': 'B-NORMALIZABLES', 'index': 24, 'start': 137, 'end': 143}, {'word': 'Ġcalcio', 'score': 0.9965023398399353, 'entity': 'B-NORMALIZABLES', 'index': 29, 'start': 163, 'end': 169}, {'word': 'Ġmagnesio', 'score': 0.996299147605896, 'entity': 'B-NORMALIZABLES', 'index': 32, 'start': 178, 'end': 186}, {'word': 'ĠPTH', 'score': 0.9950509667396545, 'entity': 'B-PROTEINAS', 'index': 34, 'start': 189, 'end': 192}
]
Pertama, klon proyek:
git clone https://github.com/PlanTL-GOB-ES/lm-biomedical-clinical-es/blob/master/README.md
Siapkan lingkungan virtual Python dan aktifkan
python3.8 -m venv venv; source venv/bin/activate
Instal semua paket Python yang diperlukan di lingkungan virtual yang menjalankan baris berikut dari folder utama proyek: pip install -r requirements.txt .
Akhirnya, jalankan perintah berikut pada folder utama proyek: bash ner.sh [MODEL_NAME] [DATASET_NAME] [SEED] , di mana
[MODEL_NAME] : Nama model HuggingFace 'dari model pretrained yang ingin Anda gunakan.[DATASET_NAME] : Nama dataset HuggingFace 'Dataset NER untuk digunakan. Dapat dipilih dari "Plantl-Gob-ES/Cantemist-Ner" dan "Plantl-Gob-es/Pharmaconer", tergantung pada dataset yang ingin Anda gunakan.[SEED] : Benih yang ingin Anda gunakan. Ini memungkinkan untuk mereproduksi hasil yang sama. ner.sh skrip fine-tune model bahasa pretrained untuk tugas NER yang menerapkan kepala klasifikasi linier. Secara default, menjalankan penyempurnaan untuk 10 zaman dengan evaluasi pada pengembangan yang ditetapkan pada setiap zaman. Model yang mencapai kinerja terbaik pada set pengembangan dipilih sebagai model akhir dan dievaluasi pada set tes. Model terlatih terbaik adalah menyimpan di jalur output dari tipe ./output/model-$model_name/dataset-$dataset_name/seed-$seed bersama dengan folder pos pemeriksaan dan data tensorboard (di dalam direktori tb ).
Misalnya, untuk menyempurnakan model bahasa BSC-BIO-EHR-ES pada dataset pharmaconer, jalankan perintah:
bash ner.sh PlanTL-GOB-ES/bsc-bio-ehr-es PlanTL-GOB-ES/pharmaconer 42
Jika Anda menggunakan model ini, silakan mengutip pekerjaan kami:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{`a}mies, Marc and
Guti{'e}rrez-Fandi{~n}o, Asier and
Armengol-Estap{'e}, Jordi and
Silveira-Ocampo, Joaqu{'i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
Proyek ini dilisensikan di bawah lisensi Apache, versi 2.0
Hak Cipta (C) 2021 Secretaría de Estado de Digitalización E Inteligencia Buatan (Sedia)
Karya ini didanai oleh Sekretariat Negara Spanyol untuk Digitalisasi dan Kecerdasan Buatan (Sedia) dalam kerangka Plan-TL.
Model yang diterbitkan dalam repositori ini dimaksudkan untuk tujuan generalis dan tersedia untuk pihak ketiga. Model -model ini mungkin memiliki bias dan/atau distorsi lainnya yang tidak diinginkan.
Ketika pihak ketiga, menggunakan atau menyediakan sistem dan/atau layanan kepada pihak lain yang menggunakan salah satu model ini (atau menggunakan sistem berdasarkan model -model ini) atau menjadi pengguna model, mereka harus mencatat bahwa itu adalah tanggung jawab mereka untuk mengurangi risiko yang timbul dari penggunaannya dan, dalam hal apa pun, untuk mematuhi peraturan yang berlaku, termasuk peraturan mengenai penggunaan kecerdasan buatan.
Dalam hal apa pun pemilik model (SEDIA - Sekretariat negara bagian untuk digitalisasi dan kecerdasan buatan) atau pencipta (BSC - Barcelona Supercomputing Center) bertanggung jawab atas hasil apa pun yang timbul dari penggunaan yang dibuat oleh pihak ketiga model ini.
Los modelos publicados en este repositorio tienen una finalidad generalise y están a disposición de terceros. Estos Modelos Pueden Tener Sesgos Y/U OTRO Tipo de Distorsiones Hak Hidak.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelo (o utilizando sistemas basados en estos model derivado conuSabil de los de los model, deben tener tener cuperad Uso y, en todo caso, cumplir con la normativa aplable, incuyendo la normativa en materia de uso de inteligencia buatan.
En ningún caso el propietario de los Modelos (Sedia - Secretaría de Estado de Digitalización e Inteligencia Buatan) ni el creador (BSc - Barcelona Supercomputing Center) Serán Responsables de Los Hasil Model.