GPTNERMED est un nouveau jeu de données synthétisé ouvert et un modèle de reconnaissance de l'entité neurale (NER) pour les textes allemands dans le traitement médical du langage naturel (NLP).
Caractéristiques clés:
Demo en ligne : une page de démonstration est disponible: démo ou utilisez les liens HuggingFace ci-dessous.
Voir notre article publié sur https://doi.org/10.1016/j.jbi.2023.104478.
Notre article de pré-imprimé est disponible sur https://arxiv.org/pdf/2208.14493.pdf.
Démonstration NER:

Les modèles pré-entraînés peuvent être récupérés à partir des URL suivantes:
Les modèles sont également disponibles sur la plate-forme HuggingFace :
Ensemble de données HuggingFace: l'ensemble de données est également disponible en tant que jeu de données HuggingFace.
Vous pouvez charger le modèle comme suit:
# You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )Remarque: les scores métriques sont évalués par classification par caractère.
Ensemble de données hors distribution (fourni dans OoD-dataset_GoldStandard.jsonl ):
| Modèle | Métrique | Médicament = médiant |
|---|---|---|
| gbert-grand | RP | 0,707 |
| Concernant | 0,979 | |
| F1 | 0,821 | |
| Gottbert-base | RP | 0,800 |
| Concernant | 0,899 | |
| F1 | 0,847 | |
| Allemand-medbert | RP | 0,727 |
| Concernant | 0,818 | |
| F1 | 0,770 |
Ensemble de tests :
| Modèle | Métrique | Méditation | Diagnostiquer | Dose | Total |
|---|---|---|---|---|---|
| gbert-grand | RP | 0,870 | 0,870 | 0,883 | 0,918 |
| Concernant | 0,936 | 0,895 | 0,921 | 0,919 | |
| F1 | 0,949 | 0,882 | 0,901 | 0,918 | |
| Gottbert-base | RP | 0,979 | 0,896 | 0,887 | 0,936 |
| Concernant | 0,910 | 0,844 | 0,907 | 0,886 | |
| F1 | 0,943 | 0,870 | 0,897 | 0,910 | |
| Allemand-medbert | RP | 0,980 | 0,910 | 0,829 | 0,932 |
| Concernant | 0,905 | 0,730 | 0,890 | 0,842 | |
| F1 | 0,941 | 0,810 | 0,858 | 0,883 |
Les modèles sont basés sur Spacy. L'exemple de code est écrit en Python.
model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "
# [Optional] Create env
python3 -m venv env
source ./env/bin/activate
# Install dependencies
python3 -m pip install -r requirements.txt
# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "
# Run script
python3 GPTNERMED.pyCitez notre travail avec Bibtex comme écrit ci-dessous ou utilisez les outils de citation du papier.
@article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}