La startup de Seattle Moondream lanzó el modelo de lenguaje visual compacto Moondream2, que tiene solo 1,6 mil millones de parámetros, pero ha tenido un buen desempeño en varias pruebas de referencia, incluso mejor que algunos modelos con parámetros más grandes. Como modelo de código abierto, Moondream2 puede ejecutarse localmente en dispositivos de bajo rendimiento, como teléfonos inteligentes, y tiene potentes capacidades de procesamiento de imágenes y texto, incluidas preguntas y respuestas, OCR, conteo de objetos y clasificación. Sus puntajes superiores al 60% en DOCVQA, TextVQA y GQA, lo que demuestra su poderosa capacidad cuando se ejecuta localmente. Moondream ha recibido $ 4.5 millones en rondas de semillas y continúa actualizando el modelo para mejorar su rendimiento.
Recientemente, Moondream, una startup de Seattle, lanzó un modelo de lenguaje visual compacto llamado Moondream2. A pesar de su pequeño tamaño, el modelo se ha desempeñado bien en varios puntos de referencia y ha atraído mucha atención. Como modelo de código abierto, se espera que Moondream2 implemente el reconocimiento de imágenes locales en los teléfonos inteligentes.

Moondream2 se lanzó oficialmente en marzo. Desde su lanzamiento, el equipo Moondream ha actualizado continuamente el modelo para mejorar continuamente su rendimiento de referencia. La edición de julio mostró mejoras significativas en la comprensión de OCR y documentación, especialmente en el análisis de datos económicos históricos. El modelo obtuvo más del 60% en DOCVQA, TextVQA y GQA, mostrando su poderosa capacidad cuando se ejecuta localmente.
Una característica distintiva de Moondream2 es su tamaño compacto: solo 1.6 mil millones de parámetros, lo que hace que se ejecute no solo en los servidores de la nube, sino también en las computadoras locales e incluso algunos dispositivos de bajo rendimiento, como teléfonos inteligentes o computadoras de una sola placa.
A pesar de su pequeño tamaño, su rendimiento es comparable a algunos modelos competitivos con miles de millones de parámetros, e incluso supera a estos modelos más grandes en algunos puntos de referencia.
En comparación con los modelos de lenguaje visual de dispositivos móviles, los investigadores señalaron que aunque Moondream2 tiene solo 170 millones de parámetros, su rendimiento es comparable al del modelo de 700 millones de parámetros, y solo funciona ligeramente inferior al conjunto de datos SQA. Esto muestra que a pesar del excelente rendimiento del modelo pequeño, existen desafíos para comprender un contexto específico.

Vikhyat Korrapati, el desarrollador del modelo, dijo que Moondream2 se basó en otros modelos como Siglip, los conjuntos de datos de entrenamiento Phi-1.5 y Llava de Microsoft. El modelo de código abierto ahora está disponible de forma gratuita en GitHub y tiene una versión de demostración en la cara de abrazo. En la plataforma de codificación, Moondream2 también ha atraído una atención generalizada de la comunidad de desarrolladores y ha recibido más de 5,000 calificaciones de estrellas.
El éxito atrajo la atención de los inversores: Moondream recaudó con éxito $ 4.5 millones en una ronda de semillas dirigida por Felicis Ventures, el Fondo M12Github de Microsoft y Ascend. El CEO de la compañía, Jay Allen, ha trabajado para Amazon Web Services (AWS) durante muchos años y lidera la creciente startup.
El lanzamiento de Moondream2 marca el nacimiento de una variedad de modelos de código abierto optimizados profesionalmente que requieren menos recursos al proporcionar un rendimiento similar a los modelos más grandes y más antiguos. Aunque hay algunos pequeños modelos locales en el mercado, como el asistente inteligente de Apple y Gemini Nano de Google, estos dos fabricantes todavía están subcontratando tareas más complejas a la nube para resolver.
Huggingface: https: //huggingface.co/vikhyatk/moondream2
github: https: //github.com/vikhyat/moondream
Puntos clave:
Moondream ha lanzado Moondream2, un modelo de lenguaje visual con solo 160 millones de parámetros, que pueden ejecutarse en pequeños dispositivos como teléfonos inteligentes.
El modelo tiene fuertes capacidades de procesamiento de imágenes e imágenes, puede responder preguntas, realizar OCR, contar objetos y clasificar los puntos de referencia y realizar una excelente evaluación comparativa.
Moondream recaudó con éxito $ 4.5 millones en fondos, y el CEO trabajó en Amazon, y el equipo continuó actualizando y mejorando el rendimiento del modelo.
La aparición de Moondream2 ha traído nuevas posibilidades a las aplicaciones de IA móvil, y sus características de código abierto también han promovido la participación activa y la innovación de la comunidad de desarrolladores. En el futuro, con el desarrollo continuo de la tecnología, los modelos de IA pequeños y eficientes como Moondream2 desempeñarán un papel importante en más campos.