MiniCPM-o2.6, el último modelo de lenguaje multimodal a gran escala lanzado por el equipo de OpenBMB, se destaca en la comunidad de código abierto con sus 800 millones de parámetros y potentes capacidades de procesamiento multimodal. Admite múltiples métodos de entrada, como imágenes, videos, texto y audio, y proporciona salida de texto y voz de alta calidad, con un rendimiento cercano al GPT-4o-202405. El modo de voz de MiniCPM-o2.6 ha agregado una función de diálogo bilingüe en tiempo real, que admite control de emociones, velocidad y estilo, e incluso juegos de roles y clonación de voz. Además, sus potentes capacidades de OCR y su compatibilidad con varios idiomas le permiten lograr avances significativos en la comprensión de vídeo en tiempo real y la transmisión en vivo multimodal en dispositivos móviles.

MiniCPM-o2.6 tiene poderosas capacidades de procesamiento de entrada, puede aceptar múltiples métodos de entrada, como imágenes, videos, texto y audio, y proporciona salida de texto y voz de alta calidad.
El modo de voz de este modelo tiene una nueva función de diálogo bilingüe en tiempo real. Los usuarios pueden configurar diferentes voces según sus necesidades, admiten control de emociones, velocidad y estilo, e incluso habilitan aplicaciones interesantes como juegos de roles y clonación de voces. Esta serie de innovaciones hace que MiniCPM-o2.6 sea más rico en experiencia interactiva y los usuarios puedan disfrutar de un método de comunicación más natural y fluido.
Además de los avances en el diálogo de voz, MiniCPM-o2.6 también ha logrado avances significativos en las capacidades de procesamiento visual. Su poderosa función OCR (reconocimiento óptico de caracteres) y su soporte en varios idiomas lo hacen más eficiente en la comprensión de videos en tiempo real. Esta destacada capacidad también permite por primera vez la transmisión en vivo multimodal en dispositivos móviles. Los usuarios pueden transmitir en vivo en dispositivos como iPad, lo que permite compartir contenidos de manera más interactiva e interesante.
Desde febrero de 2024, la serie MiniCPM ha lanzado seis versiones y el equipo tiene como objetivo continuar mejorando el rendimiento y la eficiencia de implementación del modelo. Este modelo no sólo es técnicamente innovador, sino que también representa un progreso significativo en la experiencia interactiva multimodal. Ya sean aplicaciones en el campo profesional o interacciones de entretenimiento en la vida diaria, MiniCPM-o2.6 se convertirá en un asistente inteligente indispensable para los usuarios.
Dirección del proyecto: https://github.com/OpenBMB/MiniCPM-o
Como la última versión de la serie MiniCPM, MiniCPM-o2.6 muestra un rendimiento sólido y escenarios de aplicaciones ricos en interacción multimodal, brindando a los usuarios una experiencia más conveniente e inteligente. Vale la pena esperar su desarrollo y actualizaciones futuras. innovador.