Descarga de GPTNERMED - Descarga del código fuente GPTNERMED

GPTNERMED

Código Fuente de IA

1.0.0

Descargar

Gptnermed

Acerca de

GPTNERMED es un nuevo conjunto de datos sintetizados abiertos y modelo neuronal de reconocimiento de entidad (NER) para textos alemanes en el procesamiento de lenguaje natural médico (PNL).

Características clave:

Etiquetas respaldadas: medikatación , dosis , diagnóstico
Abierto de datos médicos alemanes de plata estándar : tokens 245107 con anotaciones para la DOSI
Conjunto de datos sintetizado basado en GPT NEOX
El aprendizaje de transferencia para análisis ner utilizando Gbert-Large , Gottbert-Base o German-Medbert
Acceso público abierto a los modelos

Demostración en línea : hay una página de demostración disponible: demostración, o use los enlaces de Huggingface que se detallan a continuación.

Vea nuestro artículo publicado en https://doi.org/10.1016/j.jbi.2023.104478.

Nuestro artículo de pre-print está disponible en https://arxiv.org/pdf/2208.14493.pdf.

Demostración ner:

Modelos

Los modelos previos a la aparición se pueden recuperar de las siguientes URL:

Basado en Gbert: Link Model
Basado en Gottbert: Model Link
Basado en alemán-Medbert: Link Model

Los modelos también están disponibles en la plataforma Huggingface :

Basado en Gbert: enlace Huggingface
Basado en Gottbert: enlace Huggingface
Basado en alemán Medbert: Huggingface Link

Conjunto de datos Huggingface: el conjunto de datos también está disponible como un conjunto de datos Huggingface.
Puede cargar el modelo de la siguiente manera:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Montones

Nota: Las puntuaciones métricas se evalúan mediante clasificación de personajes.

Fuera del conjunto de datos de distribución (proporcionado en OoD-dataset_GoldStandard.jsonl ):

Modelo	Métrico	Droga = medikation
gbert-large	PRS	0.707
	Re	0.979
	F1	0.821
Base de gottbert	PRS	0.800
	Re	0.899
	F1	0.847
Medbert alemán	PRS	0.727
	Re	0.818
	F1	0.770

Conjunto de pruebas :

Modelo	Métrico	Medikación	Diagnosticar	Dosis	Total
gbert-large	PRS	0.870	0.870	0.883	0.918
	Re	0.936	0.895	0.921	0.919
	F1	0.949	0.882	0.901	0.918
Base de gottbert	PRS	0.979	0.896	0.887	0.936
	Re	0.910	0.844	0.907	0.886
	F1	0.943	0.870	0.897	0.910
Medbert alemán	PRS	0.980	0.910	0.829	0.932
	Re	0.905	0.730	0.890	0.842
	F1	0.941	0.810	0.858	0.883

Configuración y uso

Los modelos se basan en Spacy. El código de muestra está escrito en Python.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Citación

Cite nuestro trabajo con Bibtex como se escribe a continuación o use las herramientas de citas del documento.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-06
tamaño 324.34KB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo