Этот проект с открытым исходным кодом Catglm-6B модели, которая была точной настройкой/инструкции. Мы построили китайский набор данных медицинских инструкций с помощью графа медицинских знаний и API GPT3.5, и на этой основе на этой основе инструкции с тонкими настройками, улучшая эффект Q & A в области медицинской помощи.
На основе тех же данных мы также обучили медицинскую версию модели Llama: Huatuo
ОБНОВЛЕНИЕ: Поскольку Chatglm обновляется очень быстро, рекомендуется использовать официальное решение для мелкого навеса Chatglm: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md
Сначала установите пакет зависимости, Environment рекомендует 3,9+
pip install -r requirements.txt
Обученные параметры модели можно загрузить следующим образом:
| Название модели | размер | Модель загрузки адрес |
|---|---|---|
| Chatglm-6b-med | Приблизительно 13,4 ГБ | [Baidu netdisk] [Googledrive] |
После установки среды можно выполнить интерактивное тестирование:
python infer.py
Мы приняли открытую и само построенную китайскую базу медицинских знаний, в основном относящиеся к CMEKG. Медицинская база знаний построена вокруг заболеваний, лекарств, индикаторов обследования и т. Д., А поля включают осложнения, факторы высокого риска, гистологические обследования, клинические симптомы, лекарственное лечение, вспомогательное лечение и т. Д. Пример базы знаний заключается в следующем:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
Мы использовали интерфейс GPT3.5 для создания данных о вопросах и ответах, касающихся базы медицинских знаний, и настроили различные формы быстрого быстрого использования для полного использования знаний.
Примеры данных учебного набора для инструкций с точной настройкой следующие:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
Качество набора данных с тонкой настройкой инструкции все еще ограничено, и итерация будет выполнена в будущем. В то же время, медицинская база знаний и код набора данных по -прежнему разбираются и будут выпущены после завершения сортировки.
Пожалуйста, обратитесь к https://github.com/thudm/chatglm-6b и поместите загруженную модель в каталог model .
sh scripts/sft_medchat.sh
Пожалуйста, отрегулируйте размер партии и другие гиперпараметры в соответствии с фактической ситуацией, а по умолчанию - это параметры, которые мы используем.
Если вы хотите продолжить с помощью инструктажа/настройки инструкций с вашим собственным набором данных, вы можете создать формат файла, аналогичный набору обучения в каталоге data . Или обратитесь к репозиторию чатглм-инстакции.
Мы тренировались на графической карте A100-SXM-80GB. Согласно опыту, рекомендуется выбрать 32G или выше для обучения видео памяти.
| Тестовый вход | Чатглм-6b вывод | Чатглм-6B-медиуна |
|---|---|---|
| Уровень глутамилтранпептидазы увеличится из -за употребления наркотиков или употребления алкоголя? | Употребление наркотиков и потребление алкоголя могут оказывать негативное влияние на здоровье вашего организма, включая влияние на печень и сердце. Питье алкоголя может вызвать повреждение печени и болезни сердца, потому что алкоголь может разрушить функцию печени и сердца. Долгосрочное употребление алкоголя может также привести к таким проблемам со здоровьем, как жирная печень, цирроз, сердечные заболевания и т. Д. Употребление наркотиков может привести к серьезным повреждениям печени и сердца, что приводит к фиброзу печени, циррозу, сердечно -сосудистым заболеваниям и т. Д. Использование наркотиков также может привести к психическим расстройствам, социальным снятию, насилию и преступности. Поэтому, будь то употребление алкоголя или наркотиков, это будет иметь негативное влияние на здоровье и чрезмерное использование. | Существует много причин повышенной глутамилтранспептидазы, включая инфекцию, язвенную язву, инфекцию, побочные эффекты лекарств и т. Д. Нездоровое поведение, такое как употребление наркотиков или потребление алкоголя, может привести к повышенной глутамилтранскпептидазе. |
| У Сяо Ли недавно развились симптомы тахикардии, сопровождаемые легкой болью в груди. Физикальное обследование обнаружило, что интервал PR был продлен, сопровождаемый t -волной низким и аномалиями сегмента ST | Очень извините, я не понимаю вашего вопроса. Пожалуйста, предоставьте больше контекста или контекста, чтобы я мог лучше ответить на ваш вопрос. Спасибо! | Сяо Ли имеет симптомы тахикардии и сопровождается болью в груди. Необходимо учитывать, существуют ли сердечно -сосудистые заболевания, такие как кардиомиопатия и коронарный атеросклероз. Рекомендуется пройти электрокардиограмму, анализ крови, ультразвуковое исследование сердца и т. Д. |
| ...... | ...... | ...... |
В: Значение ошибки: 130001 не в списке / valueerror: 150001 не в списке.
A: Из -за быстрого обновления связанных зависимостей различные версии приведут к некоторым ошибкам
(1) Если ошибка составляет 150001.
(2) Если ошибка составляет 130001, не входит в список, пожалуйста, отложите репозиторий в версию с Commit CB9D827, ссылка https://github.com/scir-hi/med-chatglm/tree/cb9d82738021f82b307d6031e8595a49dcb00
В: Модель имеет ограниченный эффект
О: Поскольку собственная стратегия обучения Chatglm не является открытым исходным кодом, метод обучения с точной настройкой обучения, предоставленный в этом хранилище, может оказать негативное влияние на основные возможности ChatGLM. Из -за авторских прав и других соображений наши модельные итерации в будущем будут сосредоточены на моделях с открытым исходным кодом.
Этот проект был завершен Wang Haochun и Liu Chi, группой интеллекта здравоохранения Центра социальных вычислений и извлечения информации Института технологии Харбина. Преподаватели - доцент профессора Чжао Сенганга, профессора Цинь Бина и профессора Лю Тин.
Этот проект относится к следующим проектам с открытым исходным кодом, и мы хотели бы выразить нашу благодарность соответствующим проектам и исследованиям и разработчикам.
Ресурсы, связанные с этим проектом, предназначены только для академических исследований и строго запрещены для коммерческих целей. При использовании деталей, включающих сторонний код, пожалуйста, строго следуйте соответствующему протоколу с открытым исходным кодом. На содержание, генерируемое моделью, влияет такие факторы, как расчет модели, случайность и количественная потери точности, и этот проект не может гарантировать ее точность. Большинство наборов данных этого проекта генерируются моделями и не могут быть использованы в качестве основы для фактического медицинского диагноза, даже если они соответствуют определенным медицинским фактам. Этот проект не несет никакой юридической ответственности за любые выводы контента по модели, а также не несет ответственности за какие -либо убытки, которые могут возникнуть в результате использования соответствующих ресурсов и результатов выходных данных.
Если вы используете данные или код этого проекта, пожалуйста, объявите ссылку
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}