No campo da ciência da computação, o processamento de documentos complexos e convertendo -os em dados estruturados sempre foi um problema desafiador. Os métodos tradicionais geralmente dependem de combinações de modelos complexas ou grandes modelos multimodais, que, embora poderosos, geralmente têm alucinações e são computacionalmente caros.

Recentemente, o IBM e o Hugging Face colaboraram para lançar o Smoldocling, um modelo de linguagem de código aberto (VLM) com apenas 256m de parâmetros, projetado para resolver tarefas multimodais de conversão de documentos de ponta a ponta. A Smoldocling é única em seu tamanho compacto e recursos poderosos, o que reduz significativamente os requisitos de complexidade computacional e recursos.
A arquitetura da Smoldocling é baseada em abraçar o smolvlm-256m do rosto e alcança uma redução significativa na complexidade computacional por meio de tokenização otimizada e métodos de compressão de recursos visuais agressivos. Sua vantagem principal está no formato inovador de Doctags, que pode separar claramente o layout do documento, o conteúdo de texto e as informações visuais, como tabelas, fórmulas, trechos de código e gráficos.
Para treinar com mais eficiência, o Smoldocling adota uma abordagem de aprendizado de cursos, primeiro "congelando" o codificador visual e depois o ajuste gradualmente fino usando um conjunto de dados mais rico para melhorar o alinhamento semântico visual entre diferentes elementos de documentos. Graças à sua eficiência, a Smoldocling processa a página inteira do documento muito rapidamente, levando apenas 0,35 segundos por página nas GPUs do consumidor e consome menos de 500 MB de memória de vídeo.

Nos testes de desempenho, o Smoldocling teve um bom desempenho, superando significativamente muitos modelos competitivos maiores. Por exemplo, na tarefa OCR do documento de página inteira, o Smoldocling alcançou uma precisão significativamente maior em comparação com QWEN2.5VL com 7 bilhões de parâmetros e Nougat com 350 milhões de parâmetros, com menor distância de edição (0,48) e maior pontuação F1 (0,80).
Em termos de transcrição de fórmula, o Smoldocling também atingiu uma pontuação de 0,95 F1, comparável aos modelos de ponta como o GOT. O que é ainda mais louvável é que a Smoldocling estabeleceu uma nova referência no reconhecimento de snippets de código, com precisão e taxas de recall de 0,94 e 0,91, respectivamente.
O Smoldocling difere de outras soluções de OCR de documentos, pois é capaz de lidar com vários elementos complexos em um documento, incluindo código, gráficos, fórmulas e vários layouts. Seus recursos não se limitam a trabalhos científicos comuns, mas também processamento confiável de patentes, formas e documentos comerciais.
Com as médicos fornecendo metadados estruturados abrangentes, o Smoldocling remove a ambiguidade inerente a formatos como HTML ou Markdown, melhorando assim a disponibilidade a jusante de transformações de documentos. Seu tamanho compacto também permite o processamento em lote em larga escala com requisitos de recursos extremamente baixos, fornecendo soluções econômicas para implantações em larga escala.
Em suma, o lançamento do Smoldocling representa um grande avanço na tecnologia de conversão de documentos. Ele demonstra fortemente que os modelos compactos não apenas competem com grandes modelos básicos, mas também os superam significativamente em tarefas de missão crítica. Os pesquisadores demonstraram com sucesso que, por meio de treinamento direcionado, aumento de dados inovadores e novos formatos de marcação, como Doctags, as limitações tradicionalmente relacionadas ao tamanho e complexidade do modelo podem ser superadas. O Smoldocling de código aberto não apenas define novos padrões de eficiência e versatilidade para a tecnologia OCR, mas também fornece um recurso valioso para a comunidade por meio de conjuntos de dados abertos e arquitetura de modelo eficiente e compacta.