El campo de la inteligencia artificial ha marcado el comienzo de un gran avance, y el Laboratorio de Investigación sin fines de lucro de Cohere lanzó recientemente un modelo de IA multimodal llamado AYA Vision. Este logro innovador ha atraído una atención generalizada en la industria y es aclamado por Cohere como una de las tecnologías más avanzadas en la actualidad.

AYA Vision demuestra una excelente versatilidad, capaz de manejar tareas complejas, incluida la generación de descripción de la imagen, preguntas relacionadas con las fotos, traducción de texto y creación abstracta en 23 idiomas principales. Para promover la investigación científica global, Cohere proporciona esta tecnología de forma gratuita a través de la plataforma WhatsApp, lo que permite a los investigadores de todo el mundo acceder fácilmente y utilizar este logro de vanguardia.

Cohere destacó en su blog oficial que a pesar de los avances significativos en la tecnología de IA, todavía hay brechas significativas en el procesamiento multilingüe y las tareas multimodales. La investigación y el desarrollo de Aya Vision es romper este cuello de botella técnico y promover el desarrollo adicional de la inteligencia artificial en los campos de la lengua cruzada y la modalidad cruzada.
El modelo está disponible en dos versiones: AYA Vision32b y AYA Vision8b. Entre ellos, AYA Vision32b se desempeñó bien en varios puntos de referencia de comprensión visual, incluso superando modelos competitivos más grandes, incluida la visión LLAMA-3.290B de Meta. El AYA Vision8b también funcionó bien, superando los modelos diez veces su tamaño en algunas evaluaciones.

Estos dos modelos se han lanzado en la plataforma de desarrollo de IA Hugging Face, y tienen licencia bajo el Creative Commons4.0, y los usuarios están sujetos a los términos de uso aceptables de Cohere y están limitados al uso no comercial.
En términos de métodos de capacitación, Cohere adopta un conjunto de datos de inglés "diversificado" innovador para capacitar modelos a través de la traducción y las técnicas de anotación sintética. Esta tecnología de anotación sintética es generada por AI. Aunque tiene ciertas limitaciones, muchas instituciones líderes han adoptado, incluida OpenAI, que muestra su potencial para mejorar el rendimiento del modelo.
Cohere dijo que el uso de la tecnología de anotación sintética no solo mejora la eficiencia de la capacitación, sino que también reduce significativamente el consumo de recursos, lo que refleja las duales ventajas de la compañía en la innovación tecnológica y la optimización de recursos.
Para apoyar una investigación más profunda, Cohere también lanzó AyavisionBench, una nueva herramienta de evaluación de referencia. La herramienta está diseñada para evaluar el rendimiento del modelo en tareas visuales y de combinación de lenguaje, como el reconocimiento de la diferencia de imágenes y las características complejas de captura de pantalla a código.
En el contexto de la actual "crisis de evaluación" en la industria de inteligencia artificial, el lanzamiento de AyavisionBench proporciona un marco más completo y desafiante para la evaluación del modelo, que se espera que promueva la innovación en los estándares de evaluación de la industria.
Blog oficial: https://cohere.com/blog/aya-vision