Na era digital, o processamento e a análise dos dados tabulares se tornaram particularmente importantes. No entanto, muitos dados tabulares ainda existem em formulários não estruturados, como digitalização de imagens de tabela estatística em documentos e dados de relatórios financeiros em arquivos PDF. Esses dados não podem ser processados direta e automaticamente, representando um enorme desafio à análise de dados e à compreensão do documento. Para resolver esse problema, a Baidu AI anunciou a nova solução de reconhecimento representativo de código aberto PP-TableMagic em 11 de março, que trouxe um grande avanço no campo da extração de informações estruturadas da tabela.
O lançamento do PP-TableMagic visa resolver as limitações da tecnologia tradicional de reconhecimento de tabela em cenários complexos. Através da inovadora arquitetura de rede multi-model, esta solução realiza o reconhecimento de tabela de ponta a ponta de alta precisão e suporta um ajuste fino altamente personalizado para todos os cenários. Os modelos tradicionais de reconhecimento geral de tabela geralmente têm um desempenho ruim quando enfrentam formatos complexos de tabela e são difíceis de atender às necessidades de diferentes cenários de aplicação. Para esse fim, a equipe do Baidu Paddlepddle lançou o PP-TableMagic, que adota um esquema de rede em tandem de vários modelos de "Classificação da tabela + reconhecimento da estrutura da tabela + detecção de células", o que melhora significativamente a precisão e a adaptabilidade do reconhecimento de tabela.

A vantagem principal do PP-TableMagic reside em seu projeto arquitetônico inovador. Esta solução adota uma arquitetura de fluxo duplo, divide as tabelas em duas categorias: tabelas com fio e tabelas sem fio e, em seguida, desmonta a tarefa de reconhecimento de tabela de ponta a ponta em duas submarcas: detecção de células e reconhecimento da estrutura da tabela. Finalmente, um resultado completo de previsão da tabela HTML é gerado através do algoritmo de fusão do resultado da auto-otimização. Entre eles, o modelo de classificação da tabela leve PP-LCNET_X1_0_TABLE_CLS desenvolvida pela equipe Paddlepddle pode classificar tabelas com fio e tabelas sem fio com alta precisão; O primeiro modelo de detecção de célula de célula de código aberto do setor RT-DETR-L_TABLE_CELL_DET realiza o posicionamento preciso das células da tabela de vários tipos; Enquanto o novo modelo representativo de reconhecimento da estrutura da grade Slanext tem um excelente desempenho na análise da estrutura HTML da tabela. Comparado com os modelos anteriores Slanet e Slanet_Plus, o Slanext usa o Vary-Vit-B com recursos de representação de recursos mais fortes como um codificador visual, melhorando ainda mais a precisão do reconhecimento da estrutura da tabela.
Em aplicações práticas, o PP-TableMagic pode não apenas processar tabelas diretamente, mas também atender às necessidades de diferentes cenários por meio de ajuste fino do modelo personalizado. Comparado com o ajuste fino dos modelos tradicionais de reconhecimento de tabela de ponta a ponta, a arquitetura de rede multi-model da PP-TableMagic permite que os usuários ajustem apenas os modelos-chave, evitando o problema de desempenho de "um se eleva e o outro cai" e reduzindo a carga de trabalho da anotação de dados. Além disso, para desenvolvedores seniores, a arquitetura da PP-TableMagic também suporta ajustes no nível da filial, que podem ser otimizados para tipos específicos de dados de tabela, melhorando ainda mais os recursos gerais de reconhecimento.
Para ajudar os usuários a começar rapidamente, o PP-TableMagic fornece guias de instalação detalhados e tutoriais de uso. Os usuários podem ligar para os modelos facilmente através da API Python fornecida pelo Paddlex, executar reconhecimento de tabela e exportação de resultados. Além disso, o PP-TableMagic também suporta inferência de alto desempenho, implantação baseada em serviços e implantação do lado final, que podem atender às necessidades de diferentes usuários. A equipe do Baidu Paddlepaddle também planeja realizar um curso on-line em 13 de março para analisar profundamente os detalhes técnicos do PP-TableMagic e abrir um cenário industrial prático para levar o usuário a experimentar o processo de desenvolvimento completo, desde a preparação de dados até a implantação de modelos.
Endereço de código aberto: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md