Dieses Projekt Open-Source-Chatglm-6b-Modell, das Feinabstimmung/Anweisungen (Unterrichtsstimmung) war. Wir haben einen chinesischen medizinischen Unterrichtsdatensatz über das medizinische Knowledge-Diagramm und die GPT3.5-API sowie die fein abgestimmten Anweisungen an Chatglm-6b auf dieser Grundlage erstellt, wodurch die Q & A-Wirkung von Chatglm im medizinischen Bereich verbessert wurde.
Basierend auf denselben Daten haben wir auch die medizinische Version des Lama -Modells geschult: Huatuo
UPDATE: Da Chatglm sehr schnell aktualisiert wird, wird empfohlen, die offizielle Fine-Tuning-Lösung von Chatglm zu verwenden: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md.md
Installieren Sie zuerst das Abhängigkeitspaket, Python Environment empfiehlt 3.9+
pip install -r requirements.txt
Die trainierten Modellparameter können wie folgt heruntergeladen werden:
| Modellname | Größe | Modelldownload -Adresse |
|---|---|---|
| Chatglm-6b-Med | Ungefähr 13,4 GB | [Baidu NetDisk] [Googledrive] |
Nach der Installation der Umgebung können interaktive Tests durchgeführt werden:
python infer.py
Wir haben eine offene und selbstgebaute chinesische medizinische Wissensbasis übernommen, die sich hauptsächlich auf CMEKG bezieht. Die medizinische Wissensbasis basiert auf Krankheiten, Arzneimitteln, Untersuchungsindikatoren usw., und die Felder umfassen Komplikationen, Hochrisikofaktoren, histologische Untersuchungen, klinische Symptome, Arzneimittelbehandlung, Hilfsbehandlung usw. Das Beispiel für Wissensbasis lautet wie folgt:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
Wir haben die GPT3.5 -Schnittstelle verwendet, um Q & A -Daten rund um die medizinische Wissensbasis zu erstellen und eine Vielzahl von schnellen Formularen einzurichten, um die volle Nutzung von Wissen zu nutzen.
Die Schulungsdatenbeispiele für Feinabstimmungsanweisungen sind wie folgt:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
Die Qualität des Datensatzes für die Feinabstimmung ist weiterhin begrenzt und die Iteration wird in Zukunft durchgeführt. Gleichzeitig werden die medizinischen Wissensbasis und der Datensatzkonstruktionscode weiterhin aussortiert und nach Abschluss der Sortierung veröffentlicht.
Weitere Informationen finden Sie unter https://github.com/thudm/chatglm-6b und platzieren Sie das heruntergeladene Modell in das model .
sh scripts/sft_medchat.sh
Bitte passen Sie die Chargengröße und andere Hyperparameter entsprechend der tatsächlichen Situation an, und die Standardeinstellung sind die von uns verwendeten Parameter.
Wenn Sie mit Ihrem eigenen Datensatz mit dem Chatglm mit Anweisungen/Anweisungen fortfahren möchten, können Sie ein Dateiformat erstellen, das dem im data festgelegten Trainingssatz ähnelt. Oder beziehen Sie sich auf das Repository mit Chatglm-einstrukturiert.
Wir haben auf einer A100-SXM-80 GB-Grafikkarte trainiert. Laut Erfahrung wird empfohlen, 32G oder höher für das Training Video -Speicher auszuwählen.
| Testeingabe | Chatglm-6b-Ausgabe | Chatglm-6b-Med-Ausgabe |
|---|---|---|
| Werden die Glutamyltranspeptidase -Spiegel aufgrund des Drogenkonsums oder des Alkoholkonsums zunehmen? | Drogenkonsum und Alkoholkonsum können negative Auswirkungen auf die Gesundheit Ihres Körpers haben, einschließlich der Auswirkungen auf Leber und Herz. Alkohol -Trinken kann Leberschäden und Herzerkrankungen verursachen, da Alkohol die Funktion von Leber und Herz zerstören kann. Langzeit-Trinken kann auch zu Gesundheitsproblemen wie Fettleber, Zirrhose, Herzerkrankungen usw. führen. Der Drogenkonsum kann zu schwerwiegenden Schäden an Leber und Herz führen, was zu Leberfibrose, Zirrhose, Herz -Kreislauf -Erkrankungen usw. führen kann. Der Drogenkonsum kann auch zu psychischen Störungen, sozialem Rückzug, Gewalt und Kriminalität führen. Unabhängig davon, ob es sich um Alkohol- oder Drogenkonsum handelt, wirkt sich dies negativ auf die Gesundheit und die Überbeanspruchung aus. | Es gibt viele Gründe für die erhöhte Glutamyltranspeptidase, einschließlich Infektionen, Peptika, Infektionen, Nebenwirkungen von Arzneimitteln usw., ungesunde Verhaltensweisen wie Drogenkonsum oder Alkoholkonsum können zu einer erhöhten Glutamyltranspeptidase führen. |
| Xiao Li entwickelte kürzlich Symptome einer Tachykardie, begleitet von milden Schmerzen im Brustkorb. Die körperliche Untersuchung ergab, dass das PR -Intervall verlängert wurde, begleitet von T -Wellen -Segmentanomalien mit niedrigem und ST -Segment | Tut mir leid, ich verstehe Ihre Frage nicht. Bitte geben Sie mehr Kontext oder Kontext an, damit ich Ihre Frage besser beantworten kann. Danke! | Xiao Li hat Symptome einer Tachykardie und wird von Brustschmerzen begleitet. Es ist notwendig zu prüfen, ob kardiovaskuläre Erkrankungen wie Kardiomyopathie und koronare Atherosklerose vorhanden sind. Es wird empfohlen, ein Elektrokardiogramm, Blutuntersuchung, Herz -Ultraschalluntersuchung usw. zu unterziehen. |
| ...... | ...... | ...... |
F: Fehler ValueError: 130001 befindet sich nicht in List / ValueError: 150001 befindet sich nicht in der Liste
A: Aufgrund der schnellen Aktualisierung verwandter Abhängigkeiten führen verschiedene Versionen zu einigen Fehler
(1) Wenn der Fehler 150001 nicht in der Liste ist, aktualisieren Sie das Repository auf die neueste Version
(2) Wenn der Fehler 130001 nicht in der Liste ist, fallen Sie das Repository mit dem Commit CB9D827 zurück.
F: Das Modell hat einen begrenzten Effekt
A: Da die eigene Trainingsstrategie von Chatglm keine Open Source ist, kann die in diesem Repository bereitgestellte Befehls-Finanz-Tuning-Methode negative Auswirkungen auf die grundlegenden Funktionen von Chatglm haben. Aufgrund des Urheberrechts und anderer Überlegungen werden sich unsere Modell -Iterationen in der Zukunft auf Open -Source -Modelle konzentrieren.
Dieses Projekt wurde von Wang Haochun und Liu Chi, der Health Intelligence Group des Center for Social Computing und Information Abruf des Harbin Institute of Technology, abgeschlossen. Die Ausbilder sind Associate Professor Zhao Sendong, Professor Qin Bing und Professor Liu Ting.
Dieses Projekt bezieht sich auf die folgenden Open -Source -Projekte, und wir möchten uns bei den relevanten Projekten und Forschungs- und Entwicklungspersonal bedanken.
Die Ressourcen im Zusammenhang mit diesem Projekt dienen nur für die akademische Forschung und sind für kommerzielle Zwecke strengstens untersagt. Wenn Sie Teile mit Code von Drittanbietern verwenden, folgen Sie bitte dem entsprechenden Open-Source-Protokoll ausschließlich. Der vom Modell erzeugte Inhalt wird von Faktoren wie Modellberechnung, Zufälligkeit und quantitativen Genauigkeitsverlusten beeinflusst, und dieses Projekt kann seine Genauigkeit nicht garantieren. Die meisten Datensätze dieses Projekts werden von Modellen generiert und können nicht als Grundlage für die tatsächliche medizinische Diagnose verwendet werden, selbst wenn sie bestimmten medizinischen Fakten entsprechen. Dieses Projekt setzt keine gesetzliche Haftung für eine Inhaltsausgabe durch das Modell über und haftet auch nicht für Verluste, die sich aus der Verwendung relevanter Ressourcen und Ausgabeergebnisse ergeben können.
Wenn Sie die Daten oder den Code dieses Projekts verwenden, deklarieren Sie bitte die Referenz
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}