Официальный репозиторий Барселонского суперкомпьютерного центра (BSC) биомедицинский и клинический языковой модели для испанского языка.
Мы выпустили наши лучшие модели по Apache License 2.0, чтобы стимулировать разработку испанских приложений НЛП в биомедицинских и клинических областях.
Мы обучили две модели и сделаем их доступными на Hub Models Huggingface 'по следующим ссылкам:
Кроме того, была обучена длинной версии, чтобы иметь возможность работать с задачами, которые требуют больших контекстов, таких как клиническое кодирование. Используемые корпусы такие же, как и ниже. Модель также можно найти на Hugginface:
Мы точно настроили наши модели для задачи распознавания объектов (NER) и делаем лучшие модели, доступные на концентраторе моделей HuggingFace 'по следующим ссылкам:
Учебные корпорации состоят из нескольких биомедицинских корпораций на испанском языке, собранных в общедоступных корпусах и сканерах, и реального клинического корпуса, собранного из более чем 278 тыс. Клинических документов и примечаний. Чтобы получить высококачественный учебный корпус при сохранении идиосинкразии клинического языка, к биомедицинским корпусам применяется трубопровод для биомедицинских корпораций, сохраняя при этом клинический корпус. По сути, используемые операции по очистке:
Затем биомедицинские корпорации объединяются, и применялась дальнейшая глобальная дедупликация среди биомедицинских корпораций. Результаты представляют собой клинический корпус около 91 млн. Токенов и биомедицинский корпус около 963 млн. В конце концов, клинический корпус объединяется с очищенным биомедицинским корпусом, в результате чего биомедицинский клинический корпус среднего размера для испанского языка, состоящего из более 1B токенов. В таблице ниже показаны некоторые основные статистические данные отдельных чистящих корпораций:
| Имя | Нет. Токены | Описание |
|---|---|---|
| Медицинский гусеница | 903 558,136 | Crawler из более чем 3000 URL, принадлежащих к испанским биомедицинским и медицинским областям. |
| Клинические случаи Разное. | 102 855,267 | Разное медицинского содержания, по существу клинические случаи. Обратите внимание, что отчет о клиническом случае - это научная публикация, в которой врачи делятся случаями пациентов, и он отличается от клинической заметки или документа. |
| EHR документы | 95,267,20 | Сбор более 278 тыс. Клинических документов, включая отчеты о выписке, примечания к клиническим курсам и рентгеновские отчеты, в общей сложности 91 млн. Токены. https://huggingface.co/plantl-gob-es/longformer-base-4096-biomedical-clinical-es |
| Scielo | 60,007,289 | Публикации, написанные на испанском, заполнены на испанском сервере Scielo в 2017 году. |
| Barr2_background | 24 516 442 | Биомедицинское распознавание и разрешение аббревиатуры (BARR2), содержащее испанские клинические разделы, из различных клинических дисциплин. |
| Wikipedia_life_sciences | 13 890 501 | Статьи Википедии ползали 04/01/2021 с библиотекой API Wikipedia Python, начиная с категории «Ciencias_de_la_vida» до максимум 5 подкатегорий. Многочисленные ссылки на одни и те же статьи затем отбрасываются, чтобы избежать повторения контента. |
| Патенты | 13 463 387 | Патент Google в медицинском домене для Испании (испанский). Принятые коды (медицинский домен) для файлов патентов JSON: «A61B», «A61C», «A61F», «A61H», «A61K», «A61L», «A61M», «A61B», «A61P». |
| Эмеа | 5 377 448 | На испанской стороне документы, извлеченные из параллельных корпораций, изготовленных из PDF-документов из Европейского агентства лекарственных средств. |
| mespen_medline | 4166 077 | Статьи на испанской стороне, извлеченные из коллекции испанского параллельного корпуса, состоящего из биомедицинской научной литературы. Сбор параллельных ресурсов агрегируется из источника MedlinePlus. |
| PubMed | 1 858 966 | Статьи с открытым доступом из репозитория PubMed заползли в 2017 году. |
Модели были точно настроены по именованным задачам распознавания сущности (NER) с использованием трех клинических наборов данных NER, таких как фармаконер, кантемист и ICTUSNET. Мы рассмотрели задачу NER как проблему классификации токенов с использованием стандартного линейного слоя вместе со схемой био. Мы сравнили наши модели с испанским Roberta-Bne, общим доменом, многоязычной моделью общего домена, которая поддерживает испанский Mbert, специфичный для домена английская модель Biobert и три специфичные для домена модели, основанные на постоянном предварительном обучении, Mbert-Galén, XLM-R-Galén и Beto-Galén. В таблице ниже показаны полученные оценки F1:
| Задачи/модели | BSC-Bio-ES | BSC-Bio-Ehr-ES | XLM-R-Galén | Бето-Гален | Мберт-Гален | Мберт | Биоберт | Роберта-Баз-Бне |
|---|---|---|---|---|---|---|---|---|
| Фармаконер | 0,8907 | 0,8913 | 0,8754 | 0,8537 | 0,8594 | 0,8671 | 0,8545 | 0,8474 |
| Кантист | 0,8220 | 0,8340 | 0,8078 | 0,8153 | 0,8168 | 0,8116 | 0,8070 | 0,7875 |
| Ictusnet | 0,8727 | 0,8756 | 0,8716 | 0,8498 | 0,8509 | 0,8631 | 0,8521 | 0,8677 |
Следующий пример, покажите, как предсказать сущности модель BSC-Bio-Ehr-ES, настраиваемой на набор данных фармаконера:
from transformers import AutoTokenizer , AutoModelForTokenClassification , pipeline
tokenizer = AutoTokenizer . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
model = AutoModelForTokenClassification . from_pretrained ( "PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer" )
pipe = pipeline ( task = 'token-classification' , model = 'PlanTL-GOB-ES/bsc-bio-ehr-es-pharmaconer' )
sentence = 'Por el hallazgo de múltiples fracturas por estrés, se procedió a estudio en nuestras consultas, realizándose análisis con función renal, calcio sérico y urinario, calcio iónico, magnesio y PTH, que fueron normales.'
results = pipe ( sentence )
print ( results ) # Expected output with the predicted entities:
[
{'word': 'Ġcalcio', 'score': 0.9963880181312561, 'entity': 'B-NORMALIZABLES', 'index': 24, 'start': 137, 'end': 143}, {'word': 'Ġcalcio', 'score': 0.9965023398399353, 'entity': 'B-NORMALIZABLES', 'index': 29, 'start': 163, 'end': 169}, {'word': 'Ġmagnesio', 'score': 0.996299147605896, 'entity': 'B-NORMALIZABLES', 'index': 32, 'start': 178, 'end': 186}, {'word': 'ĠPTH', 'score': 0.9950509667396545, 'entity': 'B-PROTEINAS', 'index': 34, 'start': 189, 'end': 192}
]
Во -первых, клонировать проект:
git clone https://github.com/PlanTL-GOB-ES/lm-biomedical-clinical-es/blob/master/README.md
Установите виртуальную среду Python и активируйте ее
python3.8 -m venv venv; source venv/bin/activate
Установите все необходимые пакеты Python в виртуальной среде, выполняя следующую линию из основной папки проекта: pip install -r requirements.txt .
Наконец, запустите следующую команду в основной папке проекта: bash ner.sh [MODEL_NAME] [DATASET_NAME] [SEED] , где
[MODEL_NAME] : guggingface 'Имя модели предварительно предварительной модели, которую вы хотите использовать.[DATASET_NAME] : guggingface 'Имя набора данных NER набора данных для использования. Может быть выбрано из «Plantl-Gob-ES/Catheist-Sner» и «Plantl-Gob-es/Pharmaconer», в зависимости от набора данных, который вы хотите использовать.[SEED] : семя, которое вы хотите использовать. Это позволяет воспроизводить те же результаты. Скрипт ner.sh тонко настраивает модель на предварительном языке для задачи NER, применяющую линейную классификационную головку. По умолчанию тонкая настройка работает на 10 эпох с оценкой на разработку в каждой эпохе. Модель достигает наилучшей производительности в наборе разработки, выбирается в качестве окончательной модели и оценивается в тестовом наборе. Лучшая обученная модель-хранить в выходном пути типа ./output/model-$model_name/dataset-$dataset_name/seed-$seed Seed с папками контрольных точек и данными Tensorboard (внутри каталога tb ).
Например, чтобы точно настроить языковую модель BSC-Bio-Ehr-ES в наборе данных фармаконера, запустите команду:
bash ner.sh PlanTL-GOB-ES/bsc-bio-ehr-es PlanTL-GOB-ES/pharmaconer 42
Если вы используете эти модели, пожалуйста, укажите нашу работу:
@inproceedings{carrino-etal-2022-pretrained,
title = "Pretrained Biomedical Language Models for Clinical {NLP} in {S}panish",
author = "Carrino, Casimiro Pio and
Llop, Joan and
P{`a}mies, Marc and
Guti{'e}rrez-Fandi{~n}o, Asier and
Armengol-Estap{'e}, Jordi and
Silveira-Ocampo, Joaqu{'i}n and
Valencia, Alfonso and
Gonzalez-Agirre, Aitor and
Villegas, Marta",
booktitle = "Proceedings of the 21st Workshop on Biomedical Language Processing",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.bionlp-1.19",
doi = "10.18653/v1/2022.bionlp-1.19",
pages = "193--199",
abstract = "This work presents the first large-scale biomedical Spanish language models trained from scratch, using large biomedical corpora consisting of a total of 1.1B tokens and an EHR corpus of 95M tokens. We compared them against general-domain and other domain-specific models for Spanish on three clinical NER tasks. As main results, our models are superior across the NER tasks, rendering them more convenient for clinical NLP applications. Furthermore, our findings indicate that when enough data is available, pre-training from scratch is better than continual pre-training when tested on clinical tasks, raising an exciting research question about which approach is optimal. Our models and fine-tuning scripts are publicly available at HuggingFace and GitHub.",
}
Этот проект лицензирован по лицензии Apache, версия 2.0
Copyright (C) 2021 Secretaría de estado de Digitalización e Inteligencia Artificial (Sedia)
Эта работа была профинансирована Испанским государственным секретариатом по цифровизации и искусственному интеллекту (SEDIA) в рамках плана TL.
Модели, опубликованные в этом репозитории, предназначены для общей цели и доступны третьим лицам. Эти модели могут иметь предвзятость и/или любые другие нежелательные искажения.
Когда третьи стороны развертывают или предоставляют системы и/или услуги другим сторонам, используя любую из этих моделей (или используют системы на основе этих моделей) или становятся пользователями моделей, они должны отметить, что их обязанность смягчить риски, возникающие в результате их использования, и, в любом случае, соблюдать применимые правила, включая правила, касающиеся использования искусственного интеллекта.
Ни в коем случае владелец моделей (SEDIA - Государственный секретариат по цифровизации и искусственному интеллекту), ни создатель (BSC - Barcelona Supercompling Center) несет ответственность за любые результаты, возникающие в результате использования третьими лицами этих моделей.
Los Modelos publicados en este Repositorio tienen una finalidad generalista y están disposición de terceros. ESTOS MODELOS PUEDEN TENER SESGOS Y/U OTRO TIPO DE DISTORSIONES Indesebula.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras parts usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, debene en uenta uenta use es ressmierdos desuarios de los modelos, debener en re que yes suesabilados mitegarios de los modelos, debene en envese uenta uentos uersabilad USO Y, EN TODO CASO, CUMPLIR CON LA NORMATIVA ОПРЕДЕЛЕНО, Incluyendo La Normativa en Materia de Uso de Inteligencia Artificial.
En ningún caso el Protietario de los modelos (Sedia - Secretaría de estado degiginalización e Inteligencia Artificial) Ni El Creador (BSC - Barcelona Supercomputing Center) Serán Reclosalados Derivados del Uso Que Que Hagan Terceros de Estos Modelos Modelos.