أطلقت فريق البحث من جامعة هونغ كونغ الصينية (شنتشن) ومعهد شنتشن للأبحاث الكبيرة مؤخرًا نموذجًا للطبية الطبية (LLM) يسمى Huatuogpt-O1. خطوة مهمة. يهدف النموذج المصمم للتفكير المعقد في المجال الطبي ، إلى تحسين دقة وموثوقية التشخيص الطبي وصنع القرار. على عكس LLM التي ركزت على التفكير الرياضي في الماضي ، يركز Huatuogpt-O1 على المجال الخاص للرعاية الطبية ، وفتح طريقًا جديدًا لتطوير الذكاء الاصطناعى الطبي من خلال محاكاة عملية التفكير الصارمة للأطباء في العمل الفعلي.
التحدي الرئيسي الذي يواجه فريق البحث في عملية التطوير هو أن عملية التفكير في المجال الطبي غالباً ما تفتقر إلى خطوات واضحة ويصعب التحقق منها. لحل هذه المشكلة ، اختاروا 40،000 سؤال صعب مع إجابات فريدة وموضوعية صحيحة من بنك أسئلة الفحص الطبي وحولوها إلى أسئلة مفتوحة لبناء مجموعة من الأسئلة الطبية التي يمكن التحقق منها. لا تتطلب هذه الأسئلة فقط النموذج لإجراء التفكير المتعمق ، ولكن أيضًا التحقق من صحة عملية الاستدلال من خلال الإجابات الصحيحة أو الخاطئة ، وبالتالي توفير دعم بيانات موثوق به للتدريب على النماذج.

من أجل تحسين القدرة على التفكير في النموذج ، اعتمد فريق البحث طريقة تدريب على مرحلتين. في المرحلة الأولى ، يستخدمون ملاحظات المدقق (صحيحة أو خاطئة) لتوجيه النموذج لعمليات البحث المستندة إلى السياسة ، مما يولد مسارات الاستدلال المعقدة. يقوم النموذج أولاً بتهيئة سلسلة التفكير (COT). ثم يتم استخدام مسارات التفكير الناجحة هذه لضبط LLM لمنحها قدرة التفكير المعقدة للانعكاس التكراري. في المرحلة الثانية ، استخدم فريق البحث المكافآت المتفرقة التي يوفرها المدقق لزيادة تحسين إمكانيات التفكير المعقدة للنموذج من خلال خوارزميات التعلم التعزيز (RL).

تظهر النتائج التجريبية أن طريقة التدريب على مرحلتين حققت نتائج مهمة. باستخدام 40،000 سؤال يمكن التحقق منه فقط ، حقق نموذج مع 8 مليارات معلمات زيادة 8.5 نقطة في المعايير الطبية. يتجاوز نموذج المعلمة 70 مليار أيضًا LLMs Open Source General و Medical Term في معايير طبية متعددة. هذه النتائج لا تؤكد فقط فعالية التفكير المعقد في حل المشكلات الطبية ، ولكن أيضًا توضح الدور الهام للتعلم التعزيز في تحسين الأداء النموذجي.
يعد Huatuogpt-O1 مبتكرًا من حيث أنه يستخدم المشكلات الطبية التي يمكن التحقق منها ومقحة طبية لأول مرة لتعزيز قدرات التفكير المعقد الطبي في LLM. مع هذا النهج ، يمكن أن يفكر النموذج بعمق مثل الطبيب وأداء الفحص الذاتي والتصحيح قبل إعطاء إجابة. هذا لا يحسن فقط إمكانات تطبيق النموذج في المجال الطبي ، ولكنه يوفر أيضًا مرجعًا لتحسين قدرة التفكير في المجالات المهنية الأخرى.
لمزيد من التحقق من موثوقية النموذج ، استخدم الباحثون GPT-4O كمقرر ، وأظهرت النتائج أن معدل دقةه وصل إلى 96.5 ٪ في المرحلة الأولى و 94.5 ٪ في المرحلة الثانية. في الوقت نفسه ، أكدوا أيضًا أن صحة LLM أكثر موثوقية من طرق المطابقة الدقيقة التقليدية. بالإضافة إلى ذلك ، قام الباحثون بتطبيق الطريقة على المجال الطبي الصيني ، وحققوا أيضًا نتائج ملحوظة ، مما يدل على قابلية التكيف للطريقة في مجالات مختلفة وبيئات اللغة.
بشكل عام ، يمثل ظهور Huatuogpt-O1 تقدمًا كبيرًا في الذكاء الاصطناعي الطبي في التفكير المعقد. إنه لا يوفر فقط أدوات أكثر موثوقية للتشخيص الطبي وصنع القرار ، ولكن أيضًا يوفر أفكارًا جديدة للتطبيق المستقبلي لمنظمة العفو الدولية في المجالات المهنية الأخرى. على الرغم من أن النموذج لا يزال في مرحلة البحث ولا يمكن تطبيقه مباشرة على الممارسة السريرية ، إلا أن إمكاناته الضخمة جذبت اهتمامًا واسع النطاق ومن المتوقع أن تلعب دورًا أكبر في المجال الطبي في المستقبل.
عنوان الورق: https://arxiv.org/pdf/2412.18925