GPTNERMED Download - GPTNERMED Quellcode Download

GPTNERMED

AI-Quellcode

1.0.0

Herunterladen

Gptnermed

Um

GPTNERMED ist ein neuartiges, offenes synthetisiertes Datensatz- und Neural-Modell mit benannter Entscheidung (NER) für deutsche Texte in der medizinischen natürlichen Sprachverarbeitung (NLP).

Schlüsselmerkmale:

Unterstützte Etiketten: Medikation , Dosis , Diagnose
Offener silberstandardischer deutscher Datensatz: 245107 Token mit Anmerkungen zur Dosis ( #7547 ), Medikation ( #9868 ) und Diagnose ( #5996 )
Synthetisierter Datensatz basierend auf GPT Neox
Transfer-Learning für Ner-Parsen mit Gbert-Large , Gottbert-Base oder Deutsch-Medbert
Offener öffentlicher Zugang zu Modellen

Online -Demo : Eine Demo -Seite ist verfügbar: Demo oder verwenden Sie die unten angegebenen Links.

Siehe unser veröffentlichtes Papier unter https://doi.org/10.1016/j.jbi.2023.104478.

Unser Pre-Print-Papier ist unter https://arxiv.org/pdf/2208.14493.pdf erhältlich.

Ner -Demonstration:

Modelle

Die vorbereiteten Modelle können aus den folgenden URLs abgerufen werden:

Gbert-basiert: Modelllink
Gottbert-basiert: Modelllink
Deutsch-Medbert-basiert: Modelllink

Die Modelle sind auch auf der Huggingface -Plattform erhältlich:

Gbert-basiert: Suggingface-Link
GOTTBERT-BASIS: SURGINGGEFACE Link
Deutscher Medbert-basiert: Umarmungsface-Link

SuggingFace -Datensatz: Der Datensatz ist auch als DarmgingFace -Datensatz verfügbar.
Sie können das Modell wie folgt laden:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Punktzahlen

Hinweis: Die metrischen Bewertungen werden anhand der charakterischen Klassifizierung bewertet.

Aus dem Verteilungsdatensatz (bereitgestellt in OoD-dataset_GoldStandard.jsonl ):

Modell	Metrisch	Droge = Medikation
Gbert-Large	Pr	0,707
	Re	0,979
	F1	0,821
Gottbert-Base	Pr	0,800
	Re	0,899
	F1	0,847
Deutschmedbert	Pr	0,727
	Re	0,818
	F1	0,770

Testsatz :

Modell	Metrisch	Medikation	Diagnostizieren	Dosis	Gesamt
Gbert-Large	Pr	0,870	0,870	0,883	0,918
	Re	0,936	0,895	0,921	0,919
	F1	0,949	0,882	0,901	0,918
Gottbert-Base	Pr	0,979	0,896	0,887	0,936
	Re	0,910	0,844	0,907	0,886
	F1	0,943	0,870	0,897	0,910
Deutschmedbert	Pr	0,980	0,910	0,829	0,932
	Re	0,905	0,730	0,890	0,842
	F1	0,941	0,810	0,858	0,883

Setup und Nutzung

Die Modelle basieren auf Spacy. Der Beispielcode ist in Python geschrieben.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Zitat

Zitieren Sie unsere Arbeit mit Bibtex wie unten geschrieben oder verwenden Sie die Zitierwerkzeuge aus dem Papier.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Expandieren

Zusätzliche Informationen