Recentemente, o Alibaba Tongyi Lab anunciou o código aberto de seu mais recente resultado de P&D - Vidorag, um sistema de geração aprimorado de pesquisa (RAG) projetado especificamente para o entendimento do documento visual. O teste de Vidorag no modelo GPT-4O mostrou que sua taxa de precisão atingiu impressionantes 79,4%, o que é mais de 10% maior que os sistemas tradicionais de pano. Esse inovador marca uma etapa importante no campo do processamento visual de documentos e fornece novas possibilidades para a aplicação de inteligência artificial no entendimento complexo de documentos.

Vidorag não é um modelo único tradicional, mas adota um design inovador de estrutura multi-agente. O sistema combina agentes de inferência iterativa dinâmica e tecnologia de recuperação híbrida com base no GMM (modelo híbrido gaussiano). Essa abordagem permite que Vidorag extrai e inferir informações -chave com mais precisão ao processar documentos visuais que contêm imagens e texto. Comparado com as limitações dos sistemas tradicionais de pano que dependem apenas da recuperação de texto, o Vidorag melhora significativamente o desempenho através da fusão de dados multimodais.
O Tongyi Lab descreve em detalhes como o Vidorag funciona em seus artigos publicados e repositório de código. Seu núcleo está em ajustar dinamicamente o processo de pesquisa e geração através da colaboração de vários agentes, reduzindo assim os fenômenos "ilusão" em cenários complexos (ou seja, o modelo gera conteúdo impreciso ou fabricado) e na melhoria da confiabilidade e relevância contextual das respostas.
O sistema tem uma precisão de 79,4% no GPT-4O, um número que não apenas demonstra seu excelente desempenho, mas também o compara aos sistemas tradicionais de pano. Embora os sistemas tradicionais de pano tenham um bom desempenho nas tarefas de geração de texto, eles geralmente se limitam à capacidade de recuperação de um único modo ao processar documentos visuais, e sua precisão geralmente pairam em um nível baixo. Vidorag aumentou a taxa de precisão em mais de 10 pontos percentuais, introduzindo profunda integração de informações visuais e informações de texto. Esse avanço é de grande significado para cenários que exigem entendimento do documento de alta precisão, como análise de documentos legais, interpretação do relatório médico e processamento de dados corporativos.
O movimento do Alibaba Tongyi Lab para o Open Source Vidorag também provocou discussões acaloradas no Twitter. Os usuários acreditam que a divulgação desse sistema não apenas reflete a força técnica do Alibaba no campo da IA, mas também fornece um recurso valioso para desenvolvedores e pesquisadores globais. Por meio de artigos e códigos públicos (links relevantes foram compartilhados em postagens no Twitter), o Vidorag deve acelerar a pesquisa e aplicação da tecnologia de RAG de documentos visuais e promover o desenvolvimento adicional de sistemas de IA multimodais.
O lançamento e o código aberto do Vidorag, sem dúvida, abriram novas direções para a tecnologia RAG. Com a crescente demanda por processamento visual de documentos, o surgimento de Vidorag pode ser apenas o começo, e podemos ver sistemas inovadores mais semelhantes emergindo no futuro.
Projeto: https://github.com/alibaba-nlp/vidorag