Загрузка GPTNERMED - Загрузка исходного кода GPTNERMED

GPTNERMED

AI Исходный код

1.0.0

Скачать

Gptnermed

О

GPTnermed-это новая модель открытого синтезированного набора данных и нейронного назначения по имени (NER) для немецких текстов в обработке медицинского естественного языка (NLP).

Ключевые функции:

Поддерживаемые этикетки: медикация , доз , диагностика
Открытый серебро-стандартный немецкий медицинский набор данных: 245107 Токены с аннотациями для дозирования ( #7547 ), Medikation ( #9868 ) и диагностика ( #5996 )
Синтезированный набор данных на основе GPT Neox
Переносное обучение для анализа NER с использованием Gbert-Large , Gottbert-Base или German-Medbert
Открытый, публичный доступ к моделям

Онлайн -демонстрация : доступна демонстрационная страница: демонстрация или используйте ссылки HuggingFace, приведенные ниже.

Смотрите нашу опубликованную статью по адресу https://doi.org/10.1016/j.jbi.2023.104478.

Наша предварительная бумага доступна по адресу https://arxiv.org/pdf/2208.14493.pdf.

НЕР ДЕМЕРАЦИЯ:

Модели

Предварительные модели могут быть извлечены из следующих URL -адресов:

На основе Гберта: модель ссылки
Gottbert на основе: модель ссылка
На основе немецкого Медберта: модель ссылки

Модели также доступны на платформе HuggingFace :

На основе Gbert: Huggingface Link
Gottbert на основе: guggingface link
Немецкий на базе Medbert: Huggingface Link

Набор данных HuggingFace: набор данных также доступен в качестве набора данных HuggingFace.
Вы можете загрузить модель следующим образом:

 # You need to install datasets first, using: pip install datasets
from datasets import load_dataset
dataset = load_dataset ( "jfrei/GPTNERMED" )

Баллы

Примечание. Метрические оценки оцениваются по характеристике классификации.

Вне набора данных о распределении (предусмотрено в OoD-dataset_GoldStandard.jsonl ):

Модель	Показатель	Препарат = медикация
Гберт-широкий	Премьер -министр	0,707
	Репутация	0,979
	F1	0,821
Готтберт-баз	Премьер -министр	0,800
	Репутация	0,899
	F1	0,847
Немецкий Медберт	Премьер -министр	0,727
	Репутация	0,818
	F1	0,770

Тестовый набор :

Модель	Показатель	Медикация	Диагноз	Дозирование	Общий
Гберт-широкий	Премьер -министр	0,870	0,870	0,883	0,918
	Репутация	0,936	0,895	0,921	0,919
	F1	0,949	0,882	0,901	0,918
Готтберт-баз	Премьер -министр	0,979	0,896	0,887	0,936
	Репутация	0,910	0,844	0,907	0,886
	F1	0,943	0,870	0,897	0,910
Немецкий Медберт	Премьер -министр	0,980	0,910	0,829	0,932
	Репутация	0,905	0,730	0,890	0,842
	F1	0,941	0,810	0,858	0,883

Настройка и использование

Модели основаны на Spacy. Пример кода записан на Python.

model_link= " https://myweb.rz.uni-augsburg.de/~freijoha/GPTNERMED/GPTNERMED_gbert.zip "

# [Optional] Create env
python3 -m venv env
source ./env/bin/activate

# Install dependencies
python3 -m pip install -r requirements.txt

# Download & extract model
wget -O model.zip " $model_link "
unzip model.zip -d " model "

# Run script
python3 GPTNERMED.py

Цитирование

Приведите нашу работу с Bibtex, как написано ниже, или используйте инструменты цитирования из бумаги.

 @article{FREI2023104478,
title = {Annotated dataset creation through large language models for non-english medical NLP},
journal = {Journal of Biomedical Informatics},
volume = {145},
pages = {104478},
year = {2023},
issn = {1532-0464},
doi = {https://doi.org/10.1016/j.jbi.2023.104478},
url = {https://www.sciencedirect.com/science/article/pii/S1532046423001995},
author = {Johann Frei and Frank Kramer},
keywords = {Natural language processing, Information extraction, Named entity recognition, Data augmentation, Knowledge distillation, Medication detection},
abstract = {Obtaining text datasets with semantic annotations is an effortful process, yet crucial for supervised training in natural language processing (NLP). In general, developing and applying new NLP pipelines in domain-specific contexts for tasks often requires custom-designed datasets to address NLP tasks in a supervised machine learning fashion. When operating in non-English languages for medical data processing, this exposes several minor and major, interconnected problems such as the lack of task-matching datasets as well as task-specific pre-trained models. In our work, we suggest to leverage pre-trained large language models for training data acquisition in order to retrieve sufficiently large datasets for training smaller and more efficient models for use-case-specific tasks. To demonstrate the effectiveness of your approach, we create a custom dataset that we use to train a medical NER model for German texts, GPTNERMED, yet our method remains language-independent in principle. Our obtained dataset as well as our pre-trained models are publicly available at https://github.com/frankkramer-lab/GPTNERMED.}
}

Расширять

Дополнительная информация