Ce modèle Open Source ChatGLM-6B qui a été affineur / instruit (tun instruct). Nous avons construit un ensemble de données d'instructions médicales chinoises via le graphique des connaissances médicales et l'API GPT3.5, et les instructions affinées à ChatGLM-6B sur cette base, améliorant l'effet de questions / réponses du chatglm dans le domaine médical.
Sur la base des mêmes données, nous avons également formé la version médicale du modèle LLAMA: Huatuo
MISE À JOUR: Étant donné que le chatglm est mis à jour très rapidement, il est recommandé d'utiliser la solution de réglage fin officielle de ChatGLM: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md
Installez d'abord le package de dépendance, Python Environment recommande 3.9+
pip install -r requirements.txt
Les paramètres du modèle formé peuvent être téléchargés comme suit:
| Nom du modèle | taille | Adresse de téléchargement du modèle |
|---|---|---|
| ChatGlm-6b-med | Environ 13,4 Go | [Baidu Netdisk] [GoogledRive] |
Une fois l'environnement installé, des tests interactifs peuvent être effectués:
python infer.py
Nous avons adopté une base de connaissances médicales chinoises ouvertes et auto-construites, faisant principalement référence à CMEKG. La base de connaissances médicales est construite autour de maladies, de médicaments, d'indicateurs d'examen, etc., et les champs comprennent des complications, des facteurs à haut risque, des examens histologiques, des symptômes cliniques, un traitement médicamenteux, un traitement auxiliaire, etc. L'exemple de base de connaissances est le suivant:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
Nous avons utilisé l'interface GPT3.5 pour construire des données de questions-réponses autour de la base de connaissances médicales et établir une variété de formulaires rapides pour utiliser pleinement les connaissances.
Les exemples de données d'ensemble de formation pour les instructions de réglage fin sont les suivants:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
La qualité de l'ensemble de données de réglage fin des instructions est toujours limitée et l'itération sera effectuée à l'avenir. Dans le même temps, la base de connaissances médicales et le code de construction de l'ensemble de données sont toujours en cours de tri et seront publiés une fois le tri terminé.
Veuillez vous référer à https://github.com/thudm/chatglm-6b et placer le modèle téléchargé dans le répertoire model .
sh scripts/sft_medchat.sh
Veuillez ajuster la taille du lot et les autres hyperparamètres en fonction de la situation réelle, et la valeur par défaut est les paramètres que nous utilisons.
Si vous souhaitez continuer avec un instruct-tun / tun-tun chatGlm avec votre propre ensemble de données, vous pouvez créer un format de fichier similaire à l'ensemble de formation dans data . Ou reportez-vous au référentiel de réglage de l'instruct de chatglm.
Nous avons formé une carte graphique A100-SXM-80 Go. Selon l'expérience, il est recommandé de choisir 32 g ou plus pour la formation de la mémoire vidéo.
| Entrée de test | Sortie chatGLM-6B | Sortie chatGLM-6B-MED |
|---|---|---|
| Les niveaux de glutamyltranspeptidase augmenteront-ils en raison de la consommation de drogues ou de la consommation d'alcool? | La consommation de drogues et la consommation d'alcool peuvent avoir des effets négatifs sur la santé de votre corps, y compris les effets sur le foie et le cœur. La consommation d'alcool peut causer des lésions hépatiques et des maladies cardiaques car l'alcool peut détruire la fonction du foie et du cœur. La consommation d'alcool à long terme peut également entraîner des problèmes de santé tels que le foie graisseux, la cirrhose, les maladies cardiaques, etc. La consommation de drogues peut endommager gravement le foie et le cœur, entraînant une fibrose hépatique, une cirrhose, des maladies cardiovasculaires, etc. La consommation de drogues peut également entraîner des troubles mentaux, le retrait social, la violence et la criminalité. Par conséquent, qu'il s'agisse d'alcool ou de consommation de drogues, cela aura un impact négatif sur la santé et la surutilisation devrait être évitée. | Il existe de nombreuses raisons pour la glutamyltranspeptidase élevée, notamment l'infection, l'ulcère gastro-duodénal, l'infection, les effets secondaires du médicament, etc. Des comportements malsains tels que la consommation de drogues ou la consommation d'alcool peuvent conduire à la glutamyltranspeptidase élevée. |
| Xiao Li a récemment développé des symptômes de tachycardie, accompagnés de douleurs thoraciques légères. L'examen physique a révélé que l'intervalle de relations publiques était prolongé, accompagné de t vagues basses et d'anomalies du segment ST | Très désolé, je ne comprends pas votre question. Veuillez fournir plus de contexte ou de contexte afin que je puisse mieux répondre à votre question. Merci! | Xiao Li présente des symptômes de tachycardie et s'accompagne de douleurs thoraciques. Il est nécessaire de déterminer s'il existe des maladies cardiovasculaires telles que la cardiomyopathie et l'athérosclérose coronaire. Il est recommandé de subir un électrocardiogramme, un test sanguin, un examen échographique cardiaque, etc. |
| ...... | ...... | ...... |
Q: Erreur Value Enerror: 130001 n'est pas dans la liste / valeururror: 150001 n'est pas dans la liste
R: En raison de la mise à jour rapide des dépendances connexes, différentes versions conduiront à certains bogues
(1) Si l'erreur est 150001 n'est pas dans la liste, veuillez mettre à jour le référentiel vers la dernière version
(2) Si l'erreur est 130001 n'est pas dans la liste, veuillez retarder le référentiel à la version avec commit CB9d827, le lien est https://github.com/scir-hi/med-chatglm/Tree/CB9d82738021ec6f82b307d6031e8595a49dcb00
Q: Le modèle a un effet limité
R: Étant donné que la propre stratégie de formation de ChatGLM n'est pas open source, la méthode de formation à réglage fin des instructions fournie dans ce référentiel peut avoir un impact négatif sur les capacités de base du chatglm. En raison du droit d'auteur et d'autres considérations, nos itérations du modèle à l'avenir se concentreront sur les modèles open source.
Ce projet a été achevé par Wang Haochun et Liu Chi, le Groupe de la santé du Centre d'informatique sociale et de récupération de l'information du Harbin Institute of Technology. Les instructeurs sont le professeur agrégé Zhao Sendong, le professeur Qin Bing et le professeur Liu Ting.
Ce projet fait référence aux projets open source suivants et nous tenons à exprimer notre gratitude aux projets et à la recherche et au personnel de recherche et de développement.
Les ressources liées à ce projet concernent uniquement la recherche universitaire et sont strictement interdites à des fins commerciales. Lorsque vous utilisez des pièces impliquant du code tiers, veuillez suivre strictement le protocole open source correspondant. Le contenu généré par le modèle est affecté par des facteurs tels que le calcul du modèle, le hasard et les pertes de précision quantitative, et ce projet ne peut garantir sa précision. La plupart des ensembles de données de ce projet sont générés par des modèles et ne peuvent pas être utilisés comme base pour le diagnostic médical réel même s'ils sont conformes à certains faits médicaux. Ce projet n'assume aucune responsabilité juridique pour toute sortie de contenu par le modèle, et elle n'est pas responsable des pertes pouvant résulter de l'utilisation des ressources pertinentes et des résultats de sortie.
Si vous utilisez les données ou le code de ce projet, veuillez déclarer la référence
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}