El equipo QWEN de Alibaba lanzó recientemente su último miembro de la familia Modelo de lenguaje de código abierto (LLM) - QWQ -32B. Este modelo de inferencia con 32 mil millones de parámetros mejora significativamente el rendimiento en tareas complejas de resolución de problemas a través de la tecnología de aprendizaje de refuerzo (RL). El lanzamiento de QWQ-32B marca el avance adicional de Alibaba en el campo de la inteligencia artificial, especialmente en la aplicación y optimización de modelos de inferencia.
QWQ-32B es abierto de origen bajo la licencia Apache 2.0 en las plataformas de abrazos y modelos de Modelscope, lo que significa que no es solo para la investigación sino también para fines comerciales. Las empresas pueden integrar el modelo directamente en sus productos o servicios, incluidas las aplicaciones pagas. Además, los usuarios individuales también pueden acceder al modelo a través del chat Qwen y disfrutar de sus poderosas capacidades de inferencia.
QWQ, nombre completo Qwen-With-Questions, es un modelo de razonamiento de código abierto lanzado por primera vez por Alibaba en noviembre de 2024, con el objetivo de competir con la previa O1 de OpenAI. Este modelo mejora significativamente las habilidades lógicas de razonamiento y planificación mediante la auto revisión y mejora de las respuestas durante el proceso de razonamiento, especialmente en tareas matemáticas y de codificación. El lanzamiento de QWQ-32B consolida aún más la posición principal de Alibaba en este campo.
Los primeros modelos QWQ han superado la previa O1 de OpenAI en puntos de referencia matemáticos, como el AIME y las tareas de razonamiento científico y matemáticas como GPQA. Sin embargo, en los puntos de referencia de programación (como LivecodeBench), su rendimiento es relativamente débil y hay problemas como la mezcla de lenguaje y la argumentación del bucle. Sin embargo, Alibaba eligió lanzar el modelo bajo la licencia Apache 2.0, distinguiéndolo de las soluciones patentadas de OpenAI, permitiendo a los desarrolladores y empresas adaptarse y comercializarse libremente.

Con el desarrollo del campo de la inteligencia artificial, las limitaciones de los LLM tradicionales han surgido gradualmente, y la mejora del rendimiento provocada por la expansión a gran escala también ha comenzado a disminuir. Esto impulsa el interés en grandes modelos de inferencia (LRM), lo que mejora la precisión a través del razonamiento de tiempo de inferencia y la autorreflexión. QWQ-32B mejora aún más su rendimiento al integrar el aprendizaje de refuerzo y el autoestimulación estructurado y convertirse en un competidor importante en el campo de la IA de razonamiento.
QWQ-32B compitió con modelos principales como Deepseek-R1 y O1-Mini en la prueba de referencia, y logró resultados competitivos cuando el volumen de parámetros era más pequeño que algunos competidores. Por ejemplo, Deepseek-R1 tiene 671 mil millones de parámetros, mientras que el QWQ-32B tiene un requisito de memoria más pequeño cuando su rendimiento es comparable, generalmente solo se requieren 24 GB de VRAM en la GPU, mientras que ejecutar un STEPEEK R1 completo requiere más de 1500 GB de VRAM.

QWQ-32B adopta una arquitectura de modelo de lenguaje causal y ha llevado a cabo múltiples optimizaciones, incluidas 64 capas de transformadores, cuerda, swiglu, rmsnorm y sesgo QKV de atención. También emplea la atención de consulta generalizada (GQA), tiene una duración de contexto extendido de 131,072 tokens y sufre capacitación en varias etapas, incluyendo pre-entrenamiento, ajuste fino supervisado y aprendizaje de refuerzo.
El proceso de aprendizaje de refuerzo de QWQ-32B se divide en dos etapas: la primera etapa se centra en las matemáticas y las capacidades de codificación, y utiliza validadores de precisión y servidores de ejecución de código para capacitación; La segunda etapa es la capacitación de recompensas a través de un modelo de recompensa general y un validador basado en reglas para mejorar la siguiente instrucción, la alineación humana y las capacidades de razonamiento de poder, sin afectar sus capacidades matemáticas y de codificación.
Además, QWQ-32B también tiene capacidades de agente, que pueden ajustar dinámicamente el proceso de inferencia en función de la retroalimentación ambiental. El equipo QWEN recomienda usar configuraciones de inferencia específicas para un rendimiento óptimo y admite la implementación utilizando VLLM.
El equipo de Qwen considera QWQ-32B como el primer paso para mejorar las capacidades de razonamiento a través del aprendizaje de refuerzo extendido. En el futuro, planea explorar más a fondo la expansión del aprendizaje de refuerzo, integrar a los agentes y el aprendizaje de refuerzo para lograr un razonamiento a largo plazo y continuar desarrollando modelos básicos optimizados para el aprendizaje de refuerzo y, en última instancia, avanzar hacia la inteligencia artificial general (AGI).
Modelo: https://qwenlm.github.io/blog/qwq-32b/