จีน | ภาษาอังกฤษ

โครงการนี้เปิดแหล่งที่มาของชุดรูปแบบภาษาขนาดใหญ่ที่ได้รับการปรับแต่ง/ปรับแต่งการเรียนการสอนในคำแนะนำทางการแพทย์ของจีนรวมถึง Llama, Alpaca-Chinese, Bloom, รุ่นที่เคลื่อนย้ายได้ ฯลฯ
จากกราฟความรู้ทางการแพทย์และวรรณคดีทางการแพทย์เราได้รวมกับ ChatGPT API เพื่อสร้างชุดข้อมูลการปรับแต่งการสอนทางการแพทย์ของจีนและใช้สิ่งนี้เพื่อปรับแต่งคำแนะนำของโมเดลพื้นฐานต่างๆ
[2023/09/24] เปิดตัว "เทคโนโลยีการปรับแต่งภาษาขนาดใหญ่สำหรับการดูแลสุขภาพอัจฉริยะ"
[2023/09/12] ปล่อย "การสำรวจการได้มาของความรู้เชิงโต้ตอบจากวรรณกรรมทางการแพทย์โดยรุ่นใหญ่" บน arxiv
[2023/09/08] ปล่อย "วิธีการสร้างการตอบกลับทางการแพทย์จีนที่เชื่อถือได้สำหรับแบบจำลองภาษาขนาดใหญ่ตามการปรับแต่งความรู้" บน arxiv
[2023/08/07] การปล่อยโมเดลตามประเภทที่เคลื่อนย้ายได้จะถูกเพิ่มและเอฟเฟกต์ของโมเดลจะดีขึ้นอย่างมีนัยสำคัญ
[2023/08/05] รูปแบบสมุนไพรถูกนำเสนอในแทร็กการสาธิต CCL 2023
[2023/08/03] โอเพ่นซอร์สของ SCIR Laboratory ประเภทคำถามทั่วไปคำถามและคำตอบยินดีต้อนรับสู่การติดตาม ??
[2023/07/19] เพิ่มแบบจำลองสำหรับคำแนะนำในการปรับแต่งตาม Bloom
[2023/05/12] รูปแบบถูกเปลี่ยนชื่อ "Bencao" จาก "Hua Tuo"
[2023/04/28] เพิ่มการเปิดตัวแบบจำลองตามรุ่น Big Alpaca ของจีนสำหรับคำแนะนำในการปรับแต่ง
[2023/04/24] เพิ่มแบบจำลองสำหรับการสอนการปรับแต่งตาม Llama และวรรณกรรมทางการแพทย์
[2023/03/31] เพิ่มการเปิดตัวแบบจำลองสำหรับคำแนะนำในการปรับแต่งตามฐาน Llama และฐานความรู้ทางการแพทย์
ก่อนอื่นติดตั้งแพ็คเกจการพึ่งพาสภาพแวดล้อม Python แนะนำ 3.9+
pip install -r requirements.txt
สำหรับทุกรุ่นพื้นฐานเราใช้วิธีการปรับจูนฐาน LORA ที่มีความแม่นยำครึ่งหนึ่งสำหรับการฝึกอบรมการปรับแต่งการเรียนการสอนเพื่อชั่งน้ำหนักทรัพยากรการคำนวณและประสิทธิภาพของโมเดล
น้ำหนัก Lora สามารถดาวน์โหลดได้ผ่าน Baidu Netdisk หรือ Hugging Face:
ดาวน์โหลดน้ำหนัก LORA และการคลายการบีบอัด รูปแบบการบีบอัดมีดังนี้:
**lora-folder-name**/
- adapter_config.json # LoRA权重配置文件
- adapter_model.bin # LoRA权重文件
จากข้อมูลเดียวกันเรายังได้ฝึกอบรมเวอร์ชันทางการแพทย์ของรุ่น Chatglm: chatglm-6b-med
เราให้บริการกรณีทดสอบบางอย่างใน ./data/infer.json ซึ่งสามารถแทนที่ด้วยชุดข้อมูลอื่น ๆ โปรดทราบว่ารูปแบบนั้นสอดคล้องกัน
เรียกใช้สคริปต์ที่อนุมาน
#基于医学知识库
bash ./scripts/infer.sh
#基于医学文献
#单轮
bash ./scripts/infer-literature-single.sh
#多轮
bash ./scripts/infer-literature-multi.sh
confer.sh รหัสสคริปต์มีดังนี้ โปรดแทนที่โมเดลพื้นฐาน BASE_MODEL, LORA Weight LORA_WEIGHTS และ TEST TATASET PATH PATH Cords_DIR ในรหัสต่อไปนี้และเรียกใช้หลังจากเปลี่ยนฐานโมเดล BASE_MODEL, LORA Weight LORA_WEIGHTS และทดสอบเส้นทางการทดสอบ
python infer.py
--base_model 'BASE_MODEL_PATH'
--lora_weights 'LORA_WEIGHTS_PATH'
--use_lora True
--instruct_dir 'INFER_DATA_PATH'
--prompt_template 'TEMPLATE_PATH'
การเลือกเทมเพลตพรอมต์นั้นเกี่ยวข้องกับโมเดลรายละเอียดมีดังนี้:
| ประเภทที่เคลื่อนย้ายได้และบานสะพรั่ง | Llama & Alpaca |
|---|---|
templates/bloom_deploy.json | ขึ้นอยู่กับ templates/med_template.jsonขึ้นอยู่กับ templates/literature_template.json |
นอกจากนี้คุณยังสามารถอ้างถึง ./scripts/test.sh
แบบจำลองพื้นฐานมีผลกระทบที่ จำกัด ในสถานการณ์คำถามและคำตอบทางการแพทย์และการปรับแต่งการปรับแต่งเป็นวิธีที่มีประสิทธิภาพในการทำให้แบบจำลองพื้นฐานมีความสามารถในการตอบคำถามของมนุษย์
เราได้นำฐานความรู้ทางการแพทย์ของจีนที่เปิดกว้างและสร้างขึ้นมาเองโดยส่วนใหญ่หมายถึง CMEKG
ฐานความรู้ทางการแพทย์ถูกสร้างขึ้นเกี่ยวกับโรคยาตัวบ่งชี้การตรวจสอบ ฯลฯ และสาขารวมถึงภาวะแทรกซ้อนปัจจัยที่มีความเสี่ยงสูงการตรวจทางเนื้อเยื่อวิทยาอาการทางคลินิกการรักษาด้วยยาการรักษาเสริม ฯลฯ ตัวอย่างฐานความรู้มีดังนี้:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
เราใช้อินเทอร์เฟซ GPT3.5 เพื่อสร้างข้อมูลคำถามและคำตอบรอบฐานความรู้ทางการแพทย์และตั้งค่ารูปแบบที่หลากหลายเพื่อใช้ความรู้อย่างเต็มที่
ตัวอย่างข้อมูลชุดการฝึกอบรมสำหรับคำแนะนำในการปรับแต่งมีดังนี้:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
เราจัดทำชุดข้อมูลการฝึกอบรมของโมเดลโดยมีมากกว่า 8,000 ชิ้น ควรสังเกตว่าแม้ว่าการสร้างชุดการฝึกอบรมจะรวมความรู้ แต่ก็ยังมีข้อผิดพลาดและความไม่สมบูรณ์ ในอนาคตเราจะใช้กลยุทธ์ที่ดีกว่าเพื่อทำซ้ำและอัปเดตชุดข้อมูล
คุณภาพของชุดข้อมูลการปรับแต่งการเรียนการสอนยังคงมี จำกัด และการทำซ้ำจะดำเนินการในอนาคต ในเวลาเดียวกันฐานความรู้ทางการแพทย์และรหัสการก่อสร้างชุดข้อมูลยังคงถูกจัดสรรและจะถูกปล่อยออกมาหลังจากการเรียงลำดับเสร็จสิ้น
นอกจากนี้เรายังได้รวบรวมวรรณกรรมทางการแพทย์ของจีนเกี่ยวกับโรคมะเร็งตับในปี 2566 และใช้อินเทอร์เฟซ GPT3.5 เพื่อสร้างข้อมูลคำถามและคำตอบหลายรอบรอบ [บทสรุป] ของวรรณกรรมทางการแพทย์ ใน· ./data_literature/liver_cancer.json เรามีตัวอย่างการฝึกอบรม 1K ในปัจจุบันคุณภาพของตัวอย่างการฝึกอบรมยังคงมี จำกัด ในอนาคตเราจะทำซ้ำข้อมูลและเผยแพร่ต่อสาธารณะในรูปแบบของ公开数据集ตัวอย่างของตัวอย่างการฝึกอบรมมีดังนี้:

ปัจจุบันเราเฉพาะพารามิเตอร์แบบเปิดสำหรับการฝึกอบรมโรคเดียวของ "มะเร็งไวรัสตับอักเสบ" ในอนาคตเราวางแผนที่จะเผยแพร่ชุดข้อมูลการสนทนาทางการแพทย์ที่รวมข้อสรุปวรรณกรรมและจะฝึกอบรมแบบจำลองสำหรับ 16 โรคที่เกี่ยวข้องกับ "ตับและตับอ่อน"
สำหรับรายละเอียดโปรดดูบทความของเรา: "การสำรวจการได้มาของความรู้เชิงโต้ตอบจากวรรณกรรมทางการแพทย์สำหรับแบบจำลองขนาดใหญ่"
หากคุณต้องการปรับแต่งโมเดลภาษาขนาดใหญ่ด้วยชุดข้อมูลของคุณเองโปรดสร้างชุดข้อมูลของคุณเองในรูปแบบใน ./data/llama_data.json
เรียกใช้สคริปต์ Finetune
bash ./scripts/finetune.sh
ในระหว่างกระบวนการปรับแต่งการเรียนการสอนตามรุ่น Llama เราได้รับการฝึกฝนในการ์ดกราฟิก A100-SXM-80GB รอบการฝึกซ้อมทั้งหมดคือ 10 รอบซึ่งใช้เวลาประมาณ 2h17m ด้วย batch_size = 128 หน่วยความจำวิดีโอจะอยู่ที่ประมาณ 40 กรัม คาดว่าการ์ดกราฟิก 3090/4090 (หน่วยความจำกราฟิก 24GB) หรือสูงกว่าสามารถรองรับได้ดีกว่าและ BATCH_SIZE จะถูกปรับตามขนาดของหน่วยความจำกราฟิก
สำหรับการตั้งค่า hyperparameter และขั้นตอนการทดลองโปรดดูลิงค์ของ Wandb:
https://wandb.ai/thinksoso/llama_med/runs/a5wgcnzt/overview?workspace=user-thinksoso
หมายเหตุ: ทดสอบในเดือนมีนาคม 2566
| อินพุตทดสอบ | ผลผลิตลามา | เอาต์พุต Alpaca | Bentsao Materia Medica |
|---|---|---|---|
| Xiao Zhang รู้สึกไม่สบายเมื่อเร็ว ๆ นี้และมีอาการเช่นใจสั่นและหายใจถี่ การตรวจร่างกายพบว่าหัวใจขยายตัวและการเต้นของจังหวะก็อ่อนแอลง | คำถาม: เสี่ยวจางรู้สึกไม่สบายเมื่อเร็ว ๆ นี้และมีอาการเช่นใจสั่นและหายใจถี่ การตรวจร่างกายพบว่าหัวใจขยายตัวและการเต้นของจังหวะก็อ่อนแอลง | เมื่อเร็ว ๆ นี้เสี่ยวจางรู้สึกอึดอัดและมีอาการเช่นอารมณ์เสียและหายใจถี่ การตรวจร่างกายแสดงให้เห็นว่าหัวใจขยายตัวและกล้ามเนื้ออ่อนแอ | Xiao Zhang อาจประสบกับโรค myocarditis ดังนั้นจึงขอแนะนำให้ไปโรงพยาบาลเพื่อตรวจและรักษาโดยเร็วที่สุด ตัวเลือกการรักษารวมถึงยาและการผ่าตัดรักษา |
| สาเหตุของโรคหอบหืดและโรคหอบหืดในวัยเด็กมีความสอดคล้องกันหรือไม่? | สาเหตุของโรคหอบหืดและโรคเรื้อนในเด็กนั้นสอดคล้องกัน แต่สาเหตุของโรคหอบหืดและโรคเรื้อนในเด็กนั้นไม่สอดคล้องกัน | ใช่โรคหอบหืดและเด็กมีสาเหตุที่คล้ายกัน | ไม่สอดคล้องกันสาเหตุของโรคเรื้อนคือการติดเชื้อโรคเรื้อนในขณะที่สาเหตุของโรคหอบหืดในเด็กเป็นปัจจัยต่าง ๆ เช่นการให้อาหารและการสูบบุหรี่ที่ไม่ดี |
| ผู้ป่วยพัฒนาอาการบวมและอาการตัวเหลืองอย่างต่อเนื่อง หลังจากการตรวจสอบการถ่ายภาพโรคหินท่อตับ ควรมีแผนการรักษาอะไรบ้าง? | ผู้ป่วยโรคหินท่อตับควรใช้แผนการรักษาใดบ้าง? | ผู้ป่วยควรได้รับการผสมผสานระหว่างการผ่าตัดและเคมีบำบัด | สำหรับโรคหินท่อตับแผนการรักษารวมถึงการผ่าตัดรักษาการรักษาด้วยยาและการรักษาเสริม แผนการรักษาที่เฉพาะเจาะจงจะต้องได้รับการพิจารณาตามสถานการณ์เฉพาะของผู้ป่วย |
ถาม: ทำไมมันถึงเปลี่ยนชื่อ "Bencao"?
ตอบ: ชื่อความสอดคล้องของรูปแบบภาษา Scir Laboratory ขนาดใหญ่และชื่อของรูปแบบการแพทย์จีนได้รับการปรับให้เป็น "ยาสมุนไพรวัสดุ"
ถาม: ทำไมมันถึง "Hua Tuo" แทนที่จะเป็น "Hua Tuo"?
ตอบ: มันถูกเรียกว่า "Camel" เพราะ Llama รุ่นพื้นฐานของเราคือ Llama และ Alpaca คือ Alpaca แรงบันดาลใจจากชื่อของพวกเขาและ homophonic phon ของ Hua Tuo เราตั้งชื่อนางแบบของเรา Hua Tuo
ถาม: มีทฤษฎีการแพทย์แผนจีนหรือข้อมูลการแพทย์แผนจีนที่ใช้หรือไม่?
ตอบ: ไม่
ถาม: ผลลัพธ์ของการทำงานแบบจำลองนั้นแตกต่างกันและผลกระทบมี จำกัด
ตอบ: เนื่องจากการพิจารณาความหลากหลายของการกำเนิดในแบบจำลองการกำเนิดผลลัพธ์ของการวิ่งหลายครั้งอาจแตกต่างกันไป โมเดลโอเพ่นซอร์สในปัจจุบันมีข้อ จำกัด ในคลังภาษาจีนของ Llama และ Alpaca และวิธีการรวมความรู้นั้นค่อนข้างหยาบโปรดลองใช้โมเดลแบบอิงตามบานและสามารถเคลื่อนย้ายได้
ถาม: โมเดลไม่สามารถเรียกใช้/เนื้อหาการอนุมานไม่สามารถยอมรับได้อย่างสมบูรณ์
ตอบ: โปรดกำหนดการพึ่งพาในข้อกำหนดที่ติดตั้งกำหนดค่าสภาพแวดล้อม CUDA และเพิ่มตัวแปรสภาพแวดล้อมอย่างถูกต้องป้อนรุ่นที่ดาวน์โหลดและตำแหน่งที่เก็บ LORA; หากเนื้อหาการอนุมานซ้ำซ้อนหรือเนื้อหาที่ไม่ถูกต้องบางส่วนเป็นปรากฏการณ์เป็นครั้งคราวของโมเดลที่ใช้ Llama นั้นมีความสัมพันธ์บางอย่างกับความสามารถของจีนในรูปแบบ Llama ระดับข้อมูลการฝึกอบรมและการตั้งค่า Hyperparameter โปรดลองใช้รุ่นใหม่ตามประเภทที่เคลื่อนย้ายได้ หากมีปัญหาร้ายแรงโปรดอธิบายชื่อไฟล์ที่กำลังทำงานชื่อรุ่น LORA และข้อมูลการกำหนดค่าอื่น ๆ ในรายละเอียดปัญหา ขอบคุณ
ถาม: รุ่นใดที่เปิดตัวหลายรุ่นที่ดีที่สุด?
ตอบ: จากประสบการณ์ของเราเอฟเฟกต์ที่ใช้โมเดลประเภทที่เคลื่อนย้ายได้นั้นค่อนข้างดีกว่า
โครงการนี้เสร็จสมบูรณ์โดย Wang Haochun, Du Yanrui, Liu Chi, Bai Rui, Cinuwa, Chen Yuhan, Qiang Zewen, Chen Jianyu และ Li Zijian, กลุ่มข่าวกรองสุขภาพของศูนย์คอมพิวเตอร์เพื่อสังคมและการดึงข้อมูลของสถาบันเทคโนโลยีฮาร์บิน อาจารย์คือรองศาสตราจารย์ Zhao Sendong ศาสตราจารย์ Qin Bing และศาสตราจารย์ Liu Ting
โครงการนี้หมายถึงโครงการโอเพ่นซอร์สต่อไปนี้และเราขอแสดงความขอบคุณต่อโครงการที่เกี่ยวข้องและเจ้าหน้าที่วิจัยและพัฒนา
ทรัพยากรที่เกี่ยวข้องกับโครงการนี้มีไว้สำหรับการวิจัยเชิงวิชาการเท่านั้นและห้ามมิให้มีวัตถุประสงค์เชิงพาณิชย์อย่างเคร่งครัด เมื่อใช้ชิ้นส่วนที่เกี่ยวข้องกับรหัสบุคคลที่สามโปรดติดตามโปรโตคอลโอเพ่นซอร์สที่สอดคล้องกันอย่างเคร่งครัด เนื้อหาที่สร้างขึ้นโดยแบบจำลองได้รับผลกระทบจากปัจจัยต่าง ๆ เช่นการคำนวณแบบจำลองการสุ่มและการสูญเสียความแม่นยำเชิงปริมาณและโครงการนี้ไม่สามารถรับประกันความถูกต้องได้ ชุดข้อมูลส่วนใหญ่ของโครงการนี้สร้างขึ้นโดยแบบจำลองและไม่สามารถใช้เป็นพื้นฐานสำหรับการวินิจฉัยทางการแพทย์ที่แท้จริงแม้ว่าพวกเขาจะปฏิบัติตามข้อเท็จจริงทางการแพทย์บางอย่าง โครงการนี้จะไม่มีความรับผิดทางกฎหมายสำหรับการส่งออกเนื้อหาใด ๆ โดยแบบจำลองและไม่รับผิดชอบต่อการสูญเสียใด ๆ ที่อาจเกิดขึ้นจากการใช้ทรัพยากรที่เกี่ยวข้องและผลลัพธ์ผลลัพธ์
หากคุณใช้ข้อมูลหรือรหัสของโครงการนี้หรืองานของเราจะเป็นประโยชน์กับคุณโปรดประกาศใบเสนอราคา
รายงานทางเทคนิคฉบับพิมพ์ครั้งแรก: Huatuo: การปรับโมเดล Llama ด้วยความรู้ทางการแพทย์ของจีน
@misc{wang2023huatuo,
title={HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge},
author={Haochun Wang and Chi Liu and Nuwa Xi and Zewen Qiang and Sendong Zhao and Bing Qin and Ting Liu},
year={2023},
eprint={2304.06975},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
การปรับความรู้แบบจำลองภาษาขนาดใหญ่ที่มีฐานความรู้ทางการแพทย์ที่มีโครงสร้างสำหรับการสร้างการตอบสนองที่เชื่อถือได้ในภาษาจีน
@misc{wang2023knowledgetuning,
title={Knowledge-tuning Large Language Models with Structured Medical Knowledge Bases for Reliable Response Generation in Chinese},
author={Haochun Wang and Sendong Zhao and Zewen Qiang and Zijian Li and Nuwa Xi and Yanrui Du and MuZhen Cai and Haoqiang Guo and Yuhan Chen and Haoming Xu and Bing Qin and Ting Liu},
year={2023},
eprint={2309.04175},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
ชุดข้อมูล Calla: การตรวจสอบความรู้เชิงโต้ตอบของ LLMS จากวรรณกรรมการแพทย์จีน
@misc{du2023calla,
title={The CALLA Dataset: Probing LLMs' Interactive Knowledge Acquisition from Chinese Medical Literature},
author={Yanrui Du and Sendong Zhao and Muzhen Cai and Jianyu Chen and Haochun Wang and Yuhan Chen and Haoqiang Guo and Bing Qin},
year={2023},
eprint={2309.04198},
archivePrefix={arXiv},
primaryClass={cs.CL}
}