Download do GPTNERMED - Download de código -fonte GPTNERMED

GPTNERMED

Código-Fonte de IA

1.0.0

Baixar

Gptnermed

Sobre

O GPTNermed é um novo conjunto de dados sintetizado aberto e modelo neural de reconhecimento de entrada de entrada (NER) para textos alemães no processamento de linguagem natural médica (PNL).

Principais recursos:

Etiquetas suportadas: medikation , dosis , diagnóstico
Open Silver-Standard Aleman Medical DataSet: 245107 Tokens com anotações para Dosis ( #7547 ), Medikation ( #9868 ) e diagnóstico ( #5996 )
Conjunto de dados sintetizado com base no GPT Neox
Learnamento de transferência para a análise NER usando Gbert-Large , Gottbert-Base ou alemão-medbert
Acesso ao público aberto aos modelos

Demoção on -line : uma página de demonstração está disponível: demonstração ou use os links Huggingface, abaixo.

Consulte nosso artigo publicado em https://doi.org/10.1016/j.jbi.2023.104478.

Nosso artigo de pré-impressão está disponível em https://arxiv.org/pdf/2208.14493.pdf.

Demonstração NER:

Modelos

Os modelos pré -rastreados podem ser recuperados dos seguintes URLs:

baseado em Gbert: link de modelo
Baseado em Gottbert: Link do modelo
Baseado em alemão-medbert: link de modelo

Os modelos também estão disponíveis na plataforma Huggingface :

Baseado em Gbert: Link HuggingFace
Baseado em Gottbert: Link Huggingface
Link alemão baseado em Medbert: huggingface

DataSet HuggingFace: o conjunto de dados também está disponível como um conjunto de dados HuggingFace.
Você pode carregar o modelo da seguinte maneira:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Pontuações

Nota: Os escores métricos são avaliados por classificação em termos de caracteres.

DataSet fora da distribuição (fornecido em OoD-dataset_GoldStandard.jsonl ):

Modelo	Métrica	Droga = medikação
Gbert-Large	Pr	0,707
	Ré	0,979
	F1	0,821
Gottbert-Base	Pr	0,800
	Ré	0,899
	F1	0,847
Alemão-medbert	Pr	0,727
	Ré	0,818
	F1	0,770

Conjunto de testes :

Modelo	Métrica	Medikation	Diagnosticar	Dosis	Total
Gbert-Large	Pr	0,870	0,870	0,883	0,918
	Ré	0,936	0,895	0,921	0,919
	F1	0,949	0,882	0,901	0,918
Gottbert-Base	Pr	0,979	0,896	0,887	0,936
	Ré	0,910	0,844	0,907	0,886
	F1	0,943	0,870	0,897	0,910
Alemão-medbert	Pr	0,980	0,910	0,829	0,932
	Ré	0,905	0,730	0,890	0,842
	F1	0,941	0,810	0,858	0,883

Configuração e uso

Os modelos são baseados no Spacy. O código de amostra está escrito em Python.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Citação

Cite nosso trabalho com o Bibtex, escrito abaixo ou use as ferramentas de citação do papel.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-06
tamanho 324.34KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos