Proyek ini model open source chatglm-6b model yang telah menyempurnakan/menyempurnakan instruksi (penyetelan instruksi). Kami membangun dataset instruksi medis Tiongkok melalui grafik pengetahuan medis dan GPT3.5 API, dan instruksi yang disesuaikan dengan chatglm-6b atas dasar ini, meningkatkan efek tanya jawab dari chatglm di bidang medis.
Berdasarkan data yang sama, kami juga melatih versi medis model LLAMA: HUatuo
UPDATE: Karena chatglm diperbarui dengan sangat cepat, disarankan untuk menggunakan solusi penyempurnaan resmi ChatGLM: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md
Pertama -tama instal paket ketergantungan, Python Environment merekomendasikan 3.9+
pip install -r requirements.txt
Parameter model terlatih dapat diunduh sebagai berikut:
| Nama model | ukuran | Alamat unduhan model |
|---|---|---|
| Chatglm-6b-med | Sekitar 13.4GB | [Baidu Netdisk] [GoogledRive] |
Setelah lingkungan dipasang, pengujian interaktif dapat dilakukan:
python infer.py
Kami telah mengadopsi basis pengetahuan medis Tiongkok yang terbuka dan dibangun sendiri, terutama merujuk pada CMEKG. Basis pengetahuan medis dibangun di sekitar penyakit, obat-obatan, indikator pemeriksaan, dll., Dan bidang termasuk komplikasi, faktor risiko tinggi, pemeriksaan histologis, gejala klinis, perawatan obat, perawatan tambahan, dll. Contoh basis pengetahuan adalah sebagai berikut:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
Kami menggunakan antarmuka GPT3.5 untuk membangun data tanya jawab di sekitar basis pengetahuan medis dan mengatur berbagai bentuk cepat untuk memanfaatkan pengetahuan penuh.
Contoh data yang ditetapkan pelatihan untuk instruksi penyesuaian adalah sebagai berikut:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
Kualitas set data penyempurnaan instruksi masih terbatas, dan iterasi akan dilakukan di masa depan. Pada saat yang sama, basis pengetahuan medis dan kode konstruksi set data masih diselesaikan, dan akan dirilis setelah penyortiran selesai.
Silakan merujuk ke https://github.com/thudm/chatglm-6b dan menempatkan model yang diunduh di direktori model .
sh scripts/sft_medchat.sh
Harap sesuaikan ukuran batch dan hiperparameter lainnya sesuai dengan situasi aktual, dan standarnya adalah parameter yang kami gunakan.
Jika Anda ingin melanjutkan dengan penyetelan instruksi/penyetelan instruksi chatglm dengan kumpulan data Anda sendiri, Anda dapat membangun format file yang mirip dengan pelatihan yang ditetapkan di direktori data . Atau merujuk ke repositori chatglm-instruct-tuning.
Kami dilatih pada kartu grafis A100-SXM-80GB. Menurut pengalaman, disarankan untuk memilih 32g atau lebih untuk melatih memori video.
| Input tes | Output chatglm-6b | Output chatglm-6b-med |
|---|---|---|
| Akankah kadar glutamyltranspeptidase meningkat karena penggunaan narkoba atau konsumsi alkohol? | Penggunaan narkoba dan konsumsi alkohol dapat memiliki efek negatif pada kesehatan tubuh Anda, termasuk efek pada hati dan jantung. Minum alkohol dapat menyebabkan kerusakan hati dan penyakit jantung karena alkohol dapat menghancurkan fungsi hati dan jantung. Minum jangka panjang juga dapat menyebabkan masalah kesehatan seperti hati berlemak, sirosis, penyakit jantung, dll. Penggunaan narkoba dapat menyebabkan kerusakan serius pada hati dan jantung, mengakibatkan fibrosis hati, sirosis, penyakit kardiovaskular, dll. Penggunaan narkoba juga dapat menyebabkan gangguan mental, penarikan sosial, kekerasan dan kejahatan. Oleh karena itu, apakah itu penggunaan alkohol atau narkoba, itu akan berdampak negatif pada kesehatan dan penggunaan berlebihan harus dihindari. | Ada banyak alasan untuk peningkatan glutamyltranspeptidase, termasuk infeksi, ulkus peptik, infeksi, efek samping obat, dll. Perilaku tidak sehat seperti penggunaan narkoba atau konsumsi alkohol dapat menyebabkan peningkatan glutamiltranspeptidase. |
| Xiao Li baru -baru ini mengembangkan gejala takikardia, disertai dengan nyeri dada ringan. Pemeriksaan fisik menemukan bahwa interval PR diperpanjang, disertai dengan kelainan segmen gelombang rendah dan ST | Sangat menyesal, saya tidak mengerti pertanyaan Anda. Harap berikan lebih banyak konteks atau konteks sehingga saya dapat menjawab pertanyaan Anda dengan lebih baik. Terima kasih! | Xiao Li memiliki gejala takikardia dan disertai dengan nyeri dada. Penting untuk mempertimbangkan apakah ada penyakit kardiovaskular seperti kardiomiopati dan aterosklerosis koroner. Dianjurkan untuk menjalani elektrokardiogram, tes darah, pemeriksaan ultrasonik jantung, dll. |
| ...... | ...... | ...... |
T: Kesalahan bernilaiError: 130001 tidak ada dalam daftar / nilaiError: 150001 tidak ada dalam daftar
A: Karena pembaruan cepat dependensi terkait, versi yang berbeda akan mengarah pada beberapa bug
(1) Jika kesalahannya 150001 tidak ada dalam daftar, harap perbarui repositori ke versi terbaru
(2) Jika kesalahannya adalah 130001 tidak ada dalam daftar, silakan kembalikan repositori ke versi dengan commit cb9d827, tautannya adalah https://github.com/scir-hi/med-chatglm/tree/cb9d82738021ec6f82b307d6031e85955a4a4.ec6f82b30b307d6031e8595a4a4a4dc6f82b30b307d6031e8595a4a4a4dc6f82b30b30
T: Model ini memiliki efek terbatas
A: Karena strategi pelatihan ChatGLM sendiri bukanlah open source, metode pelatihan penyempurnaan instruksi yang disediakan dalam repositori ini mungkin memiliki dampak negatif pada kemampuan dasar chatglm. Karena hak cipta dan pertimbangan lainnya, iterasi model kami di masa depan akan fokus pada model open source.
Proyek ini diselesaikan oleh Wang Haochun dan Liu Chi, kelompok intelijen kesehatan dari Pusat Komputasi Sosial dan Pengambilan Informasi Institut Teknologi Harbin. Instrukturnya adalah Associate Professor Zhao Sendong, Profesor Qin Bing dan Profesor Liu Ting.
Proyek ini mengacu pada proyek sumber terbuka berikut, dan kami ingin mengucapkan terima kasih kepada proyek yang relevan dan staf penelitian dan pengembangan.
Sumber daya yang terkait dengan proyek ini hanya untuk penelitian akademik dan dilarang ketat untuk tujuan komersial. Saat menggunakan bagian yang melibatkan kode pihak ketiga, silakan ikuti protokol open source yang sesuai. Konten yang dihasilkan oleh model dipengaruhi oleh faktor -faktor seperti perhitungan model, keacakan dan kerugian akurasi kuantitatif, dan proyek ini tidak dapat menjamin keakuratannya. Sebagian besar set data dari proyek ini dihasilkan oleh model dan tidak dapat digunakan sebagai dasar untuk diagnosis medis yang sebenarnya bahkan jika mereka mematuhi fakta medis tertentu. Proyek ini mengasumsikan tidak ada kewajiban hukum untuk setiap output konten oleh model, juga tidak bertanggung jawab atas kerugian yang mungkin timbul dari penggunaan sumber daya yang relevan dan hasil output.
Jika Anda menggunakan data atau kode proyek ini, silakan nyatakan referensi
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}