GPTNERMED เป็นชุดข้อมูลแบบเปิดใหม่แบบเปิดและแบบจำลองการจดจำความรู้ความเข้าใจ (NER) ของระบบประสาทสำหรับตำราภาษาเยอรมันในการประมวลผลภาษาธรรมชาติทางการแพทย์ (NLP)
คุณสมบัติที่สำคัญ:
การสาธิตออนไลน์ : มีหน้าสาธิต: สาธิตหรือใช้ลิงก์ HuggingFace ที่ระบุไว้ด้านล่าง
ดู เอกสารที่ตีพิมพ์ ของเราที่ https://doi.org/10.1016/j.jbi.2023.104478
กระดาษเตรียมล่วงหน้าของเรามีอยู่ที่ https://arxiv.org/pdf/2208.14493.pdf
การสาธิต ner:

แบบจำลองที่ผ่านการฝึกอบรมสามารถดึงได้จาก URL ต่อไปนี้:
รุ่นนี้ยังมีอยู่บนแพลตฟอร์ม HuggingFace :
ชุดข้อมูล HuggingFace: ชุดข้อมูลยังมีให้เป็นชุดข้อมูล HuggingFace
คุณสามารถโหลดรุ่นดังนี้:
# You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )หมายเหตุ: คะแนนการวัดได้รับการประเมินโดยการจำแนกอักขระที่ชาญฉลาด
ออกจากชุดข้อมูลการกระจาย (มีให้ใน OoD-dataset_GoldStandard.jsonl ):
| แบบอย่าง | ตัวชี้วัด | ยา = medikation |
|---|---|---|
| เกิร์ตขนาดใหญ่ | PR | 0.707 |
| อีกครั้ง | 0.979 | |
| F1 | 0.821 | |
| gottbert-base | PR | 0.800 |
| อีกครั้ง | 0.899 | |
| F1 | 0.847 | |
| เยอรมัน-เมดเบิร์ต | PR | 0.727 |
| อีกครั้ง | 0.818 | |
| F1 | 0.770 |
ชุดทดสอบ :
| แบบอย่าง | ตัวชี้วัด | การเล่นกล | วินิจฉัย | ความตาย | ทั้งหมด |
|---|---|---|---|---|---|
| เกิร์ตขนาดใหญ่ | PR | 0.870 | 0.870 | 0.883 | 0.918 |
| อีกครั้ง | 0.936 | 0.895 | 0.921 | 0.919 | |
| F1 | 0.949 | 0.882 | 0.901 | 0.918 | |
| gottbert-base | PR | 0.979 | 0.896 | 0.887 | 0.936 |
| อีกครั้ง | 0.910 | 0.844 | 0.907 | 0.886 | |
| F1 | 0.943 | 0.870 | 0.897 | 0.910 | |
| เยอรมัน-เมดเบิร์ต | PR | 0.980 | 0.910 | 0.829 | 0.932 |
| อีกครั้ง | 0.905 | 0.730 | 0.890 | 0.842 | |
| F1 | 0.941 | 0.810 | 0.858 | 0.883 |
โมเดลขึ้นอยู่กับเครื่องราง โค้ดตัวอย่างถูกเขียนใน Python
model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "
# [Optional] Create env
python3 -m venv env
source ./env/bin/activate
# Install dependencies
python3 -m pip install -r requirements.txt
# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "
# Run script
python3 GPTNERMED.pyอ้างถึงงานของเรากับ Bibtex ตามที่เขียนไว้ด้านล่างหรือใช้เครื่องมือการอ้างอิงจากกระดาษ
@article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}