O GPTNermed é um novo conjunto de dados sintetizado aberto e modelo neural de reconhecimento de entrada de entrada (NER) para textos alemães no processamento de linguagem natural médica (PNL).
Principais recursos:
Demoção on -line : uma página de demonstração está disponível: demonstração ou use os links Huggingface, abaixo.
Consulte nosso artigo publicado em https://doi.org/10.1016/j.jbi.2023.104478.
Nosso artigo de pré-impressão está disponível em https://arxiv.org/pdf/2208.14493.pdf.
Demonstração NER:

Os modelos pré -rastreados podem ser recuperados dos seguintes URLs:
Os modelos também estão disponíveis na plataforma Huggingface :
DataSet HuggingFace: o conjunto de dados também está disponível como um conjunto de dados HuggingFace.
Você pode carregar o modelo da seguinte maneira:
# You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )Nota: Os escores métricos são avaliados por classificação em termos de caracteres.
DataSet fora da distribuição (fornecido em OoD-dataset_GoldStandard.jsonl ):
| Modelo | Métrica | Droga = medikação |
|---|---|---|
| Gbert-Large | Pr | 0,707 |
| Ré | 0,979 | |
| F1 | 0,821 | |
| Gottbert-Base | Pr | 0,800 |
| Ré | 0,899 | |
| F1 | 0,847 | |
| Alemão-medbert | Pr | 0,727 |
| Ré | 0,818 | |
| F1 | 0,770 |
Conjunto de testes :
| Modelo | Métrica | Medikation | Diagnosticar | Dosis | Total |
|---|---|---|---|---|---|
| Gbert-Large | Pr | 0,870 | 0,870 | 0,883 | 0,918 |
| Ré | 0,936 | 0,895 | 0,921 | 0,919 | |
| F1 | 0,949 | 0,882 | 0,901 | 0,918 | |
| Gottbert-Base | Pr | 0,979 | 0,896 | 0,887 | 0,936 |
| Ré | 0,910 | 0,844 | 0,907 | 0,886 | |
| F1 | 0,943 | 0,870 | 0,897 | 0,910 | |
| Alemão-medbert | Pr | 0,980 | 0,910 | 0,829 | 0,932 |
| Ré | 0,905 | 0,730 | 0,890 | 0,842 | |
| F1 | 0,941 | 0,810 | 0,858 | 0,883 |
Os modelos são baseados no Spacy. O código de amostra está escrito em Python.
model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "
# [Optional] Create env
python3 -m venv env
source ./env/bin/activate
# Install dependencies
python3 -m pip install -r requirements.txt
# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "
# Run script
python3 GPTNERMED.pyCite nosso trabalho com o Bibtex, escrito abaixo ou use as ferramentas de citação do papel.
@article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}