هذا النموذج المفتوح للمشروع المصدر chatGLM-6B الذي تم ضبطه بشكل جيد/تعليمات صقل (صقل الأدوات). لقد قمنا ببناء مجموعة بيانات تعليمات طبية صينية من خلال الرسم البياني للمعرفة الطبية و API GPT3.5 ، وتعليمات ضبطها إلى ChatGLM-6B على هذا الأساس ، مما يؤدي إلى تحسين تأثير Q&A لـ ChatGLM في المجال الطبي.
استنادًا إلى نفس البيانات ، قمنا أيضًا بتدريب النسخة الطبية لنموذج Llama: Huatuo
تحديث: منذ تحديث chatGLM بسرعة كبيرة ، يوصى باستخدام حل ChatGlm الرسمي للضرب: https://github.com/thudm/chatglm-6b/blob/main/ptuning/readme.md
قم بتثبيت حزمة التبعية أولاً ، توصي بيئة Python 3.9+
pip install -r requirements.txt
يمكن تنزيل معلمات النموذج المدربين على النحو التالي:
| اسم النموذج | مقاس | عنوان تنزيل النموذج |
|---|---|---|
| ChatGlm-6B-Med | حوالي 13.4 جيجابايت | [Baidu NetDisk] [Googledrive] |
بعد تثبيت البيئة ، يمكن إجراء الاختبارات التفاعلية:
python infer.py
لقد اعتمدنا قاعدة المعرفة الطبية الصينية المفتوحة والمصممة ذاتيا ، والتي تشير بشكل أساسي إلى CMEKG. تم تصميم قاعدة المعرفة الطبية حول الأمراض ، والأدوية ، ومؤشرات الفحص ، وما إلى ذلك ، وتشمل الحقول المضاعفات ، العوامل عالية الخطورة ، الفحوصات النسيجية ، الأعراض السريرية ، علاج الدواء ، العلاج الإضافي ، إلخ. مثال قاعدة المعرفة على النحو التالي:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
استخدمنا واجهة GPT3.5 لبناء بيانات سؤال وجواب حول قاعدة المعرفة الطبية وإعداد مجموعة متنوعة من النماذج السريعة للاستفادة الكاملة من المعرفة.
أمثلة بيانات مجموعة التدريب للحصول على تعليمات صقلها هي كما يلي:
"问题:一位年轻男性长期使用可卡因,突然出现胸痛、呕吐、出汗等症状,经检查发现心电图反映心肌急性损伤,请问可能患的是什么疾病?治疗方式是什么?"
回答: 可能患的是心肌梗塞,需要进行维拉帕米、依普利酮、硝酸甘油、ß阻滞剂、吗啡等药物治疗,并进行溶栓治疗、低分子量肝素、钙通道阻滞剂等辅助治疗。此外需要及时停用可卡因等药物,以防止病情加重。"
لا تزال جودة مجموعة بيانات صقل التعليمات المحدودة ، وسيتم تنفيذ التكرار في المستقبل. في الوقت نفسه ، لا يزال يتم فرز قاعدة المعرفة الطبية ورمز بناء مجموعة البيانات ، وسيتم إصدارها بعد اكتمال الفرز.
يرجى الرجوع إلى https://github.com/thudm/chatglm-6b ووضع النموذج الذي تم تنزيله في دليل model .
sh scripts/sft_medchat.sh
يرجى ضبط حجم الدُفعة وغيرها من أجهزة التمييز المفرطة وفقًا للوضع الفعلي ، والافتراضي هو المعلمات التي نستخدمها.
إذا كنت ترغب في متابعة chatGLM لضبط الإرشاد/التثبيت مع مجموعة البيانات الخاصة بك ، فيمكنك إنشاء تنسيق ملف مماثل لتدريب مجموعة البيانات في دليل data . أو الرجوع إلى مستودع صقل ChatGlm-instruct.
تدربنا على بطاقة رسومات A100-SXM-80GB. وفقًا للتجربة ، يوصى باختيار 32 جم أو أعلى لتدريب ذاكرة الفيديو.
| اختبار المدخلات | chatglm-6b الإخراج | chatglm-6b-med الإخراج |
|---|---|---|
| هل ستزداد مستويات الجلوتاميل ترانسبيبتيداز بسبب تعاطي المخدرات أو استهلاك الكحول؟ | يمكن أن يكون لاستخدام المخدرات واستهلاك الكحول آثار سلبية على صحة جسمك ، بما في ذلك الآثار على الكبد والقلب. يمكن أن يسبب شرب الكحول تلف الكبد وأمراض القلب لأن الكحول يمكن أن يدمر وظيفة الكبد والقلب. قد يؤدي الشرب على المدى الطويل أيضًا إلى مشاكل صحية مثل الكبد الدهني ، وتليف الكبد ، وأمراض القلب ، إلخ. يمكن أن يسبب تعاطي المخدرات أضرارًا جسيمة للكبد والقلب ، مما يؤدي إلى تليف الكبد وتليف الكبد وأمراض القلب والأوعية الدموية وما إلى ذلك. يمكن أن يؤدي تعاطي المخدرات أيضًا إلى اضطرابات عقلية ، والانسحاب الاجتماعي ، والعنف والجريمة. لذلك ، سواء أكان ذلك مع تعاطي الكحول أو المخدرات ، سيكون له تأثير سلبي على الصحة وينبغي تجنب الإفراط في الاستخدام. | هناك العديد من الأسباب لارتفاع الجلوتاميل ترانسبيبتيدز ، بما في ذلك العدوى ، والقرحة الهضمية ، والعدوى ، والآثار الجانبية للمخدرات ، وما إلى ذلك. قد تؤدي السلوكيات غير الصحية مثل تعاطي المخدرات أو استهلاك الكحول إلى ارتفاع الجلوتاميل ترانسبيبتيداز. |
| طورت شياو لي مؤخرًا أعراض عدم انتظام دقات القلب ، مصحوبة بألم معتدل في الصدر. وجد الفحص البدني أن الفاصل الزمني للعلاقات العامة قد طال أمده ، مصحوبًا بتشوهات شذوذات في الجزء العلوي من T و ST | آسف جدا ، أنا لا أفهم سؤالك. يرجى تقديم المزيد من السياق أو السياق حتى أتمكن من الإجابة على سؤالك بشكل أفضل. شكرًا! | Xiao Li لديه أعراض عدم انتظام دقات القلب ويرافقه ألم في الصدر. من الضروري التفكير فيما إذا كانت هناك أمراض القلب والأوعية الدموية مثل اعتلال عضلة القلب وتصلب الشرايين التاجي. يوصى بالخضوع لخليص القلب ، واختبار الدم ، وفحص الموجات فوق الصوتية القلبية ، وما إلى ذلك. |
| ...... | ...... | ...... |
س: خطأ في القيمة: 130001 ليس في القائمة / القيمة: 150001 ليس في القائمة
ج: بسبب التحديث السريع للتبعيات ذات الصلة ، ستؤدي الإصدارات المختلفة إلى بعض الأخطاء
(1) إذا كان الخطأ هو 150001 لم يكن في القائمة ، يرجى تحديث المستودع إلى أحدث إصدار
(2) إذا كان الخطأ هو 130001 غير موجود في القائمة ، فيرجى تراجع المستودع إلى الإصدار مع الالتزام CB9D827
س: النموذج له تأثير محدود
ج: نظرًا لأن استراتيجية التدريب الخاصة بـ ChatGLM ليست مفتوحة المصدر ، فقد يكون للطريقة التدريبية لضرب التعليمات المقدمة في هذا المستودع تأثير سلبي على القدرات الأساسية لـ ChatGLM. بسبب حقوق الطبع والنشر والاعتبارات الأخرى ، ستركز تكراراتنا النموذجية في المستقبل على نماذج المصدر المفتوح.
تم الانتهاء من هذا المشروع بواسطة Wang Haochun و Liu Chi ، مجموعة الاستخبارات الصحية في مركز الحوسبة الاجتماعية واسترجاع المعلومات في معهد هاربين للتكنولوجيا. المدربون هم الأستاذ المشارك تشاو سينج ، البروفيسور تشين بينج والأستاذ ليو تينغ.
يشير هذا المشروع إلى مشاريع المصادر المفتوحة التالية ، ونود أن نعرب عن امتناننا للمشاريع ذات الصلة وموظفي البحث والتطوير.
الموارد المتعلقة بهذا المشروع مخصصة للبحث الأكاديمي فقط وهي محظورة بشكل صارم لأغراض تجارية. عند استخدام أجزاء تتضمن رمز الطرف الثالث ، يرجى متابعة بروتوكول المصدر المفتوح المقابل. يتأثر المحتوى الناتج عن النموذج بعوامل مثل حساب النماذج والعشوائية وخسائر الدقة الكمية ، ولا يمكن أن يضمن هذا المشروع دقته. يتم إنشاء معظم مجموعات البيانات في هذا المشروع بواسطة النماذج ولا يمكن استخدامها كأساس للتشخيص الطبي الفعلي حتى لو كانت تتوافق مع بعض الحقائق الطبية. لا يتحمل هذا المشروع أي مسؤولية قانونية عن أي إخراج للمحتوى حسب النموذج ، كما أنه لا يتحمل أي خسائر قد تنشأ عن استخدام الموارد ذات الصلة ونتائج الإخراج.
إذا كنت تستخدم البيانات أو رمز هذا المشروع ، فيرجى إعلان المرجع
@misc{ChatGLM-Med,
author={Haochun Wang, Chi Liu, Sendong Zhao, Bing Qin, Ting Liu},
title = {ChatGLM-Med: 基于中文医学知识的ChatGLM模型微调},
year = {2023},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/SCIR-HI/Med-ChatGLM}},
}