El equipo de investigación de la Universidad China de Hong Kong (Shenzhen) y el Shenzhen Big Data Research Institute lanzaron recientemente un modelo de lenguaje a gran escala médica (LLM) llamado Huatuogpt-O1. Un paso importante. Diseñado para un razonamiento complejo en el campo médico, el modelo tiene como objetivo mejorar la precisión y confiabilidad del diagnóstico médico y la toma de decisiones. A diferencia del LLM que se centró en el razonamiento matemático en el pasado, Huatuogpt-O1 se centra en el campo especial de la atención médica, y ha abierto un nuevo camino para el desarrollo de IA médica al simular el riguroso proceso de pensamiento de los médicos en el trabajo real.
El principal desafío que enfrenta el equipo de investigación en el proceso de desarrollo es que el proceso de razonamiento en el campo de la medicina a menudo carece de pasos claros y es difícil de verificar. Para resolver este problema, seleccionaron 40,000 preguntas difíciles con respuestas correctas únicas y objetivas del Banco de Preguntas de Examen Médico y las transformaron en preguntas abiertas para construir un conjunto verificable de preguntas médicas. Estas preguntas no solo requieren que el modelo realice un razonamiento en profundidad, sino que también verifique la corrección del proceso de inferencia a través de las respuestas correctas o incorrectas, proporcionando así un soporte de datos confiable para la capacitación del modelo.

Para mejorar la capacidad de razonamiento del modelo, el equipo de investigación adoptó un método de capacitación en dos etapas. En la primera fase, utilizan la retroalimentación de validador (correcta o incorrecta) para guiar el modelo de búsquedas basadas en políticas, generando trayectorias de inferencia complejas. El modelo primero inicializa una cadena de pensamiento (COT). Estas trayectorias de razonamiento exitosas se utilizan para ajustar el LLM para darle la compleja capacidad de razonamiento de la reflexión iterativa. En la segunda fase, el equipo de investigación utilizó las recompensas dispersas proporcionadas por el validador para mejorar aún más las complejas capacidades de razonamiento del modelo a través de algoritmos de aprendizaje de refuerzo (RL).

Los resultados experimentales muestran que este método de entrenamiento en dos etapas ha logrado resultados significativos. Utilizando solo 40,000 preguntas verificables, un modelo con 8 mil millones de parámetros logró un aumento de 8.5 puntos en puntos de referencia médicos. Un modelo de parámetros de 70 mil millones también supera a otros LLM generales y específicos médicos de código abierto en múltiples puntos de referencia médicos. Estos resultados no solo confirman la efectividad del razonamiento complejo en la resolución de problemas médicos, sino que también demuestran el importante papel del aprendizaje de refuerzo para mejorar el rendimiento del modelo.
Huatuogpt-O1 es innovador porque utiliza problemas médicos verificables y validadores médicos por primera vez para mejorar las capacidades de razonamiento del complejo médico de LLM. Con este enfoque, el modelo puede pensar profundamente como un médico y realizar una autoexaminación y corrección antes de dar una respuesta. Esto no solo mejora el potencial de aplicación del modelo en el campo médico, sino que también proporciona referencia para mejorar la capacidad de razonamiento en otros campos profesionales.
Para verificar aún más la confiabilidad del modelo, los investigadores utilizaron GPT-4O como validador, y los resultados mostraron que su tasa de precisión alcanzó el 96.5% en la primera fase y 94.5% en la segunda fase. Al mismo tiempo, también confirmaron que los validadores basados en LLM son más confiables que los métodos de correspondencia precisos tradicionales. Además, los investigadores aplicaron el método al campo médico chino y también lograron resultados notables, lo que demuestra la adaptabilidad del método en diferentes campos y entornos de lenguaje.
En general, la aparición de Huatuogpt-O1 marca un progreso significativo en la IA médica en el razonamiento complejo. No solo proporciona herramientas más confiables para el diagnóstico médico y la toma de decisiones, sino que también proporciona nuevas ideas para la aplicación futura de IA en otros campos profesionales. Aunque el modelo todavía está en la etapa de investigación y no puede aplicarse directamente a la práctica clínica, su enorme potencial ha atraído una atención generalizada y se espera que desempeñe un papel más importante en el campo de la medicina en el futuro.
Dirección en papel: https://arxiv.org/pdf/2412.18925