Download GPTNERMED - Unduh Kode Sumber GPTNERMED

GPTNERMED

Kode Sumber AI

1.0.0

Unduh

Gptnermed

Tentang

GPTNermed adalah dataset terbuka baru yang disintesis dan model neural-entity-engah-pengakuan (NER) untuk teks Jerman dalam Medical Natural Language Processing (NLP).

Fitur Utama:

Label yang Didukung: Medikasi , Dosis , Diagnosa
Dataset medis Jerman yang terbuka perak: 245107 Token dengan anotasi untuk dosis ( #7547 ), medikasi ( #9868 ) dan diagnosa ( #5996 )
Dataset yang disintesis berdasarkan GPT Neox
Pembelajaran transfer untuk parsing ner menggunakan Gbert-Large , Gottbert-Base atau Jerman-Medbert
Terbuka, akses publik ke model

Demo Online : Halaman Demo Tersedia: Demo, atau Gunakan Tautan Huggingface yang diberikan di bawah ini.

Lihat makalah kami yang diterbitkan di https://doi.org/10.1016/j.jbi.2023.104478.

Kertas pra-print kami tersedia di https://arxiv.org/pdf/2208.14493.pdf.

Demonstrasi ner:

Model

Model pretrained dapat diambil dari URL berikut:

Berbasis Gbert: Tautan Model
Berbasis Gottbert: Model Link
Berbasis-Jerman-Medbert: Model Link

Model juga tersedia di platform Huggingface :

Berbasis Gbert: Tautan Huggingface
Berbasis Gottbert: Tautan Huggingface
Berbasis Medbert Jerman: Tautan Huggingface

Dataset HuggingFace: Dataset juga tersedia sebagai dataset HuggingFace.
Anda dapat memuat model sebagai berikut:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Skor

Catatan: Skor metrik dievaluasi dengan klasifikasi karakter-bijaksana.

Di luar dataset distribusi (disediakan dalam OoD-dataset_GoldStandard.jsonl ):

Model	Metrik	Obat = medikasi
GBER-Large	Pr	0.707
	Ulang	0.979
	F1	0.821
Gottbert-base	Pr	0.800
	Ulang	0.899
	F1	0.847
Jerman-Medbert	Pr	0.727
	Ulang	0.818
	F1	0.770

Set Tes :

Model	Metrik	Medikasi	Diagnosa	Dosis	Total
GBER-Large	Pr	0.870	0.870	0.883	0.918
	Ulang	0.936	0.895	0.921	0.919
	F1	0.949	0.882	0.901	0.918
Gottbert-base	Pr	0.979	0.896	0.887	0.936
	Ulang	0.910	0.844	0.907	0.886
	F1	0.943	0.870	0.897	0.910
Jerman-Medbert	Pr	0.980	0.910	0.829	0.932
	Ulang	0,905	0.730	0.890	0.842
	F1	0.941	0.810	0.858	0.883

Pengaturan dan penggunaan

Model didasarkan pada spacy. Kode sampel ditulis dalam Python.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Kutipan

Kutip karya kami dengan Bibtex seperti yang ditulis di bawah ini atau gunakan alat kutipan dari kertas.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-06
ukuran 324.34KB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua