โครงการโอเพ่นซอร์ส Chatglm-6B ที่ได้รับการปรับแต่ง/ปรับแต่งการปรับแต่ง (การปรับแต่ง) เราสร้างชุดข้อมูลการเรียนการสอนทางการแพทย์ของจีนผ่านกราฟความรู้ทางการแพทย์และ GPT3.5 API และคำแนะนำที่ได้รับการปรับแต่งให้กับ Chatglm-6B บนพื้นฐานนี้ปรับปรุงผลตอบคำถามของ Chatglm ในสาขาการแพทย์
จากข้อมูลเดียวกันเรายังได้ฝึกอบรมรุ่นทางการแพทย์ของรุ่น Llama: Huatuo
อัปเดต: เนื่องจาก chatglm ได้รับการอัปเดตอย่างรวดเร็วแนะนำให้ใช้โซลูชันการปรับแต่งอย่างเป็นทางการของ Chatglm: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md
ก่อนอื่นติดตั้งแพ็คเกจการพึ่งพาสภาพแวดล้อม Python แนะนำ 3.9+
pip install -r requirements.txt
พารามิเตอร์รุ่นที่ผ่านการฝึกอบรมสามารถดาวน์โหลดได้ดังนี้:
| ชื่อนางแบบ | ขนาด | ที่อยู่ดาวน์โหลดรุ่น |
|---|---|---|
| chatglm-6b-med | ประมาณ 13.4GB | [Baidu Netdisk] [googledrive] |
หลังจากติดตั้งสภาพแวดล้อมการทดสอบแบบโต้ตอบสามารถทำได้:
python infer.py
เราได้นำฐานความรู้ทางการแพทย์ของจีนที่เปิดกว้างและสร้างขึ้นมาเองโดยส่วนใหญ่หมายถึง CMEKG ฐานความรู้ทางการแพทย์ถูกสร้างขึ้นเกี่ยวกับโรคยาตัวบ่งชี้การตรวจสอบ ฯลฯ และสาขารวมถึงภาวะแทรกซ้อนปัจจัยที่มีความเสี่ยงสูงการตรวจทางเนื้อเยื่อวิทยาอาการทางคลินิกการรักษาด้วยยาการรักษาเสริม ฯลฯ ตัวอย่างฐานความรู้มีดังนี้:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
เราใช้อินเทอร์เฟซ GPT3.5 เพื่อสร้างข้อมูลคำถามและคำตอบรอบฐานความรู้ทางการแพทย์และตั้งค่ารูปแบบที่หลากหลายเพื่อใช้ความรู้อย่างเต็มที่
ตัวอย่างข้อมูลชุดการฝึกอบรมสำหรับคำแนะนำในการปรับแต่งมีดังนี้:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
คุณภาพของชุดข้อมูลการปรับแต่งการเรียนการสอนยังคงมี จำกัด และการทำซ้ำจะดำเนินการในอนาคต ในเวลาเดียวกันฐานความรู้ทางการแพทย์และรหัสการก่อสร้างชุดข้อมูลยังคงถูกจัดสรรและจะถูกปล่อยออกมาหลังจากการเรียงลำดับเสร็จสิ้น
โปรดดูที่ https://github.com/thudm/chatglm-6b และวางโมเดลที่ดาวน์โหลดไว้ในไดเรกทอรี model
sh scripts/sft_medchat.sh
โปรดปรับขนาดแบทช์และพารามิเตอร์อื่น ๆ ตามสถานการณ์จริงและค่าเริ่มต้นคือพารามิเตอร์ที่เราใช้
หากคุณต้องการดำเนินการต่อด้วยการปรับแต่งการปรับแต่ง/การปรับแต่ง chatglm ด้วยชุดข้อมูลของคุณเองคุณสามารถสร้างรูปแบบไฟล์ที่คล้ายกับชุดการฝึกอบรมในไดเรกทอรี data หรืออ้างถึงพื้นที่เก็บข้อมูลการปรับแต่ง instruct-instruct
เราฝึกฝนการ์ดกราฟิก A100-SXM-80GB จากประสบการณ์แนะนำให้เลือก 32 กรัมขึ้นไปสำหรับหน่วยความจำวิดีโอการฝึกอบรม
| อินพุตทดสอบ | เอาต์พุต chatglm-6b | เอาต์พุต chatglm-6b-med |
|---|---|---|
| ระดับ glutamyltranspeptidase จะเพิ่มขึ้นเนื่องจากการใช้ยาหรือการดื่มแอลกอฮอล์หรือไม่? | การใช้ยาและการดื่มแอลกอฮอล์อาจส่งผลเสียต่อสุขภาพของร่างกายรวมถึงผลกระทบต่อตับและหัวใจ การดื่มแอลกอฮอล์อาจทำให้ตับเสียหายและโรคหัวใจเพราะแอลกอฮอล์สามารถทำลายการทำงานของตับและหัวใจ การดื่มระยะยาวอาจนำไปสู่ปัญหาสุขภาพเช่นตับไขมันโรคตับแข็งโรคหัวใจ ฯลฯ การใช้ยาอาจทำให้เกิดความเสียหายร้ายแรงต่อตับและหัวใจส่งผลให้เกิดพังผืดของตับโรคตับแข็งโรคหัวใจและหลอดเลือด ฯลฯ การใช้ยาอาจนำไปสู่ความผิดปกติทางจิตการถอนตัวทางสังคมความรุนแรงและอาชญากรรม ดังนั้นไม่ว่าจะเป็นการใช้แอลกอฮอล์หรือการใช้ยามันจะมีผลกระทบด้านลบต่อสุขภาพและการใช้มากเกินไปควรหลีกเลี่ยง | มีสาเหตุหลายประการสำหรับ glutamyltranspeptidase ที่เพิ่มขึ้นรวมถึงการติดเชื้อแผลในกระเพาะอาหารการติดเชื้อผลข้างเคียงของยา ฯลฯ พฤติกรรมที่ไม่ดีต่อสุขภาพเช่นการใช้ยาหรือการดื่มแอลกอฮอล์อาจนำไปสู่ glutamyltranspeptidase ที่สูงขึ้น |
| เซียวหลี่เพิ่งพัฒนาอาการของอิศวรพร้อมกับอาการเจ็บหน้าอกเล็กน้อย การตรวจร่างกายพบว่าช่วงเวลาการประชาสัมพันธ์เป็นเวลานานพร้อมด้วยคลื่น T ต่ำและความผิดปกติของเซ็กเมนต์ ST | ขออภัยฉันไม่เข้าใจคำถามของคุณ โปรดระบุบริบทหรือบริบทเพิ่มเติมเพื่อให้ฉันสามารถตอบคำถามของคุณได้ดีขึ้น ขอบคุณ! | เสี่ยวหลี่มีอาการของอิศวรและมีอาการเจ็บหน้าอก มีความจำเป็นที่จะต้องพิจารณาว่ามีโรคหลอดเลือดหัวใจเช่น cardiomyopathy และหลอดเลือดหัวใจหรือไม่ ขอแนะนำให้ผ่านการตรวจด้วยไฟฟ้าการตรวจเลือดการตรวจอัลตราซาวด์หัวใจ ฯลฯ |
| - | - | - |
ถาม: ข้อผิดพลาด ValueError: 130001 ไม่ได้อยู่ในรายการ / valueError: 150001 ไม่ได้อยู่ในรายการ
ตอบ: เนื่องจากการอัปเดตอย่างรวดเร็วของการพึ่งพาที่เกี่ยวข้องเวอร์ชันที่แตกต่างกันจะนำไปสู่ข้อบกพร่องบางอย่าง
(1) หากข้อผิดพลาดคือ 150001 ไม่ได้อยู่ในรายการโปรดอัปเดตที่เก็บเป็นเวอร์ชันล่าสุด
(2) หากข้อผิดพลาดคือ 130001 ไม่ได้อยู่ในรายการโปรดย้อนกลับที่เก็บกลับไปยังเวอร์ชันที่มี commit cb9d827 ลิงค์คือ https://github.com/scir-hi/med-chatglm/tree/cb9d82738021ec6f82b307d6031e8555555555555555555555
ถาม: โมเดลมีผล จำกัด
ตอบ: เนื่องจากกลยุทธ์การฝึกอบรมของ Chatglm ไม่ใช่โอเพ่นซอร์สวิธีการฝึกอบรมการปรับแต่งการเรียนการสอนที่มีให้ในที่เก็บนี้อาจมีผลกระทบด้านลบต่อความสามารถพื้นฐานของ Chatglm เนื่องจากการพิจารณาลิขสิทธิ์และการพิจารณาอื่น ๆ การทำซ้ำแบบจำลองของเราในอนาคตจะมุ่งเน้นไปที่โมเดลโอเพนซอร์ส
โครงการนี้เสร็จสมบูรณ์โดย Wang Haochun และ Liu Chi กลุ่มหน่วยข่าวกรองสุขภาพของศูนย์คอมพิวเตอร์เพื่อสังคมและการดึงข้อมูลของสถาบันเทคโนโลยีฮาร์บิน อาจารย์คือรองศาสตราจารย์ Zhao Sendong ศาสตราจารย์ Qin Bing และศาสตราจารย์ Liu Ting
โครงการนี้หมายถึงโครงการโอเพ่นซอร์สต่อไปนี้และเราขอแสดงความขอบคุณต่อโครงการที่เกี่ยวข้องและเจ้าหน้าที่วิจัยและพัฒนา
ทรัพยากรที่เกี่ยวข้องกับโครงการนี้มีไว้สำหรับการวิจัยเชิงวิชาการเท่านั้นและห้ามมิให้มีวัตถุประสงค์เชิงพาณิชย์อย่างเคร่งครัด เมื่อใช้ชิ้นส่วนที่เกี่ยวข้องกับรหัสบุคคลที่สามโปรดติดตามโปรโตคอลโอเพ่นซอร์สที่สอดคล้องกันอย่างเคร่งครัด เนื้อหาที่สร้างขึ้นโดยแบบจำลองได้รับผลกระทบจากปัจจัยต่าง ๆ เช่นการคำนวณแบบจำลองการสุ่มและการสูญเสียความแม่นยำเชิงปริมาณและโครงการนี้ไม่สามารถรับประกันความถูกต้องได้ ชุดข้อมูลส่วนใหญ่ของโครงการนี้สร้างขึ้นโดยแบบจำลองและไม่สามารถใช้เป็นพื้นฐานสำหรับการวินิจฉัยทางการแพทย์ที่แท้จริงแม้ว่าพวกเขาจะปฏิบัติตามข้อเท็จจริงทางการแพทย์บางอย่าง โครงการนี้จะไม่มีความรับผิดทางกฎหมายสำหรับการส่งออกเนื้อหาใด ๆ โดยแบบจำลองและไม่รับผิดชอบต่อการสูญเสียใด ๆ ที่อาจเกิดขึ้นจากการใช้ทรัพยากรที่เกี่ยวข้องและผลลัพธ์ผลลัพธ์
หากคุณใช้ข้อมูลหรือรหัสของโครงการนี้โปรดประกาศการอ้างอิง
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}