Исследовательская группа из Китайского университета Гонконга (Шэньчжэнь) и Института исследований больших данных Шэньчжэнь недавно запустила медицинскую крупномасштабную языковую модель (LLM) под названием Huatuogpt-O1. Важный шаг. Предназначенная для сложных рассуждений в области медицины, модель направлена на повышение точности и надежности медицинского диагноза и принятия решений. В отличие от LLM, который был сосредоточен на математических рассуждениях в прошлом, Huatuogpt-O1 фокусируется на специальной области медицинской помощи и открыл новый путь для развития медицинского ИИ, моделируя строгий процесс мышления врачей в реальной работе.
Основная задача, стоящая перед исследовательской группой в процессе разработки, заключается в том, что процесс рассуждений в области медицинской помощи часто не хватает четких шагов, и его трудно проверить. Чтобы решить эту проблему, они выбрали 40 000 сложных вопросов с уникальными и объективными правильными ответами из банка вопросов медицинского осмотра и превратили их в открытые вопросы для создания проверенного набора медицинских вопросов. Эти вопросы не только требуют, чтобы модель проводила глубокие рассуждения, но и проверяла правильность процесса вывода через правильные или неправильные ответы, что обеспечивает надежную поддержку данных для обучения модели.

Чтобы улучшить способность модели в области рассуждения, исследовательская группа приняла двухэтапный метод обучения. На первом этапе они используют обратную связь с валидатором (правильно или неправильно) для руководства моделью для поиска на основе политики, генерируя сложные траектории вывода. Модель сначала инициализирует цепочку мышления (COT). Эти успешные траектории рассуждений затем используются для тонкой настройки LLM, чтобы придать ему сложную способность итеративного отражения. На втором этапе исследовательская группа использовала разреженные вознаграждения, предоставленные валидатором для дальнейшего улучшения сложных возможностей мышления модели с помощью алгоритмов обучения подкреплению (RL).

Экспериментальные результаты показывают, что этот двухэтапный метод обучения достиг значительных результатов. Используя только 40 000 вопросов, подлежащих проверке, модель с 8 миллиардами параметров достигла увеличения медицинских показателей на 8,5 очка. Модель параметров 70 миллиардов также превосходит другие общие и медицинские LLMS с открытым исходным кодом в нескольких медицинских показателях. Эти результаты не только подтверждают эффективность сложных рассуждений в решении медицинских проблем, но и демонстрируют значительную роль обучения подкрепления в повышении эффективности модели.
Huatuogpt-O1 является инновационным тем, что впервые использует проверенные медицинские проблемы и медицинские валидаторы для расширения возможностей медицинских комплексных рассуждений LLM. При таком подходе модель может глубоко думать как врач и выполнять самопровозглашение и коррекцию, прежде чем дать ответ. Это не только улучшает потенциал применения модели в области медицины, но также обеспечивает ссылку на улучшение способности рассуждений в других профессиональных областях.
Чтобы дополнительно проверить надежность модели, исследователи использовали GPT-4O в качестве валидатора, и результаты показали, что его точность достигла 96,5% на первом этапе и 94,5% на втором этапе. В то же время они также подтвердили, что валидаторы на основе LLM более надежны, чем традиционные методы точного соответствия. Кроме того, исследователи применили метод к китайской медицинской сфере, а также достигли замечательных результатов, демонстрируя адаптивность метода в различных областях и языковой среде.
В целом, появление Huatuogpt-O1 отмечает значительный прогресс в медицинском ИИ в сложных рассуждениях. Он не только предоставляет более надежные инструменты для медицинской диагностики и принятия решений, но также предоставляет новые идеи для будущего применения ИИ в других профессиональных областях. Хотя модель все еще находится на этапе исследования и не может применяться непосредственно к клинической практике, ее огромный потенциал привлек к себе широкое внимание и, как ожидается, будет играть большую роль в медицинской сфере в будущем.
Бумажный адрес: https://arxiv.org/pdf/2412.18925