O campo da inteligência artificial deu início a um grande avanço, e o Laboratório de Pesquisa sem fins lucrativos da Cohere divulgou recentemente um modelo multimodal de IA chamado AYA Vision. Essa conquista inovadora atraiu atenção generalizada no setor e é aclamada por Coere como uma das tecnologias mais avançadas no momento.

A AYA Vision demonstra excelente versatilidade, capaz de lidar com tarefas complexas, incluindo geração de descrição da imagem, perguntas relacionadas à foto, tradução de texto e criação abstrata em 23 idiomas principais. Para promover pesquisas científicas globais, a Cohere fornece essa tecnologia gratuitamente através da plataforma do WhatsApp, permitindo que pesquisadores de todo o mundo acessem e utilizem facilmente essa conquista de ponta.

Coere destacou em seu blog oficial que, apesar dos avanços significativos na tecnologia de IA, ainda existem lacunas significativas no processamento multilíngue e nas tarefas multimodais. A pesquisa e o desenvolvimento da AYA Vision são romper esse gargalo técnico e promover o desenvolvimento adicional da inteligência artificial nos campos da língua cruzada e da modalidade cruzada.
O modelo está disponível em duas versões: AYA Vision32b e AYA Vision8b. Entre eles, o AYA Vision32b teve um bom desempenho em vários benchmarks de entendimento visual, superando até modelos competitivos maiores, incluindo a visão de Llama-3.290b da Meta. O AYA Vision8b também teve um bom desempenho, superando os modelos dez vezes seu tamanho em algumas avaliações.

Esses dois modelos foram lançados na plataforma de desenvolvimento de AI, abraçando o rosto e são licenciados sob o Creative Commons4.0, e os usuários estão sujeitos aos termos de uso aceitáveis da Coere e são limitados ao uso não comercial.
Em termos de métodos de treinamento, a Cohere adota um conjunto de dados ingleses "diversificados" para treinar modelos por meio de técnicas de tradução e anotação sintética. Essa tecnologia de anotação sintética é gerada pela IA. Embora tenha certas limitações, foi adotado por muitas instituições líderes, incluindo o OpenAI, mostrando seu potencial para melhorar o desempenho do modelo.
Coere disse que o uso da tecnologia de anotação sintética não apenas melhora a eficiência do treinamento, mas também reduz significativamente o consumo de recursos, refletindo as duplas vantagens da empresa em inovação tecnológica e otimização de recursos.
Para apoiar pesquisas mais aprofundadas, a Cohere também lançou o AyavisionBench, uma nova ferramenta de avaliação de referência. A ferramenta foi projetada para avaliar o desempenho do modelo em tarefas visuais e de combinação de idiomas, como reconhecimento de diferenças de imagem e recursos complexos de captura de tela em código.
No contexto da atual "crise de avaliação" na indústria de inteligência artificial, o lançamento do AyavisionBench fornece uma estrutura mais abrangente e desafiadora para a avaliação do modelo, que deve promover a inovação nos padrões de avaliação do setor.
Blog oficial: https://cohere.com/blog/aya-vision