Téléchargement GPTNERMED - Téléchargement du code source GPTNERMED

GPTNERMED

Code Source AI

1.0.0

Télécharger

Gptnermed

À propos

GPTNERMED est un nouveau jeu de données synthétisé ouvert et un modèle de reconnaissance de l'entité neurale (NER) pour les textes allemands dans le traitement médical du langage naturel (NLP).

Caractéristiques clés:

Étiquettes soutenues: médiant , dose , diagnostic
Ensemble de données médicales allemands en argent en argent: 245107 jetons avec annotations pour la doss ( # 7547 ), la médication ( # 9868 ) et le diagnostic ( # 5996 )
Ensemble de données synthétisé basé sur GPT NEOX
Apprentissage de transfert pour l'analyse NER à l'aide de Gbert-Large , Gottbert-Base ou German-Medbert
Open, accès public aux modèles

Demo en ligne : une page de démonstration est disponible: démo ou utilisez les liens HuggingFace ci-dessous.

Voir notre article publié sur https://doi.org/10.1016/j.jbi.2023.104478.

Notre article de pré-imprimé est disponible sur https://arxiv.org/pdf/2208.14493.pdf.

Démonstration NER:

Modèles

Les modèles pré-entraînés peuvent être récupérés à partir des URL suivantes:

Basé sur GBERT: Lien modèle
Basé sur Gottbert: lien modèle
German-Medbert Based: Model Link

Les modèles sont également disponibles sur la plate-forme HuggingFace :

Basé sur GBER
Basé sur Gottbert: Lien HuggingFace
Basé sur Medbert allemand: lien HuggingFace

Ensemble de données HuggingFace: l'ensemble de données est également disponible en tant que jeu de données HuggingFace.
Vous pouvez charger le modèle comme suit:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Scores

Remarque: les scores métriques sont évalués par classification par caractère.

Ensemble de données hors distribution (fourni dans OoD-dataset_GoldStandard.jsonl ):

Modèle	Métrique	Médicament = médiant
gbert-grand	RP	0,707
	Concernant	0,979
	F1	0,821
Gottbert-base	RP	0,800
	Concernant	0,899
	F1	0,847
Allemand-medbert	RP	0,727
	Concernant	0,818
	F1	0,770

Ensemble de tests :

Modèle	Métrique	Méditation	Diagnostiquer	Dose	Total
gbert-grand	RP	0,870	0,870	0,883	0,918
	Concernant	0,936	0,895	0,921	0,919
	F1	0,949	0,882	0,901	0,918
Gottbert-base	RP	0,979	0,896	0,887	0,936
	Concernant	0,910	0,844	0,907	0,886
	F1	0,943	0,870	0,897	0,910
Allemand-medbert	RP	0,980	0,910	0,829	0,932
	Concernant	0,905	0,730	0,890	0,842
	F1	0,941	0,810	0,858	0,883

Configuration et utilisation

Les modèles sont basés sur Spacy. L'exemple de code est écrit en Python.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Citation

Citez notre travail avec Bibtex comme écrit ci-dessous ou utilisez les outils de citation du papier.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-06
taille 324.34KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout