В эпоху цифровых технологий обработка и анализ табличных данных стали особенно важными. Тем не менее, многие табличные данные все еще существуют в неструктурированных формах, таких как сканирование статистических таблиц в документах и данных финансового отчета в файлах PDF. Эти данные не могут быть обработаны напрямую и автоматически, создавая огромную проблему для анализа данных и понимания документов. Чтобы решить эту проблему, Baidu AI объявил о новом репрезентативном решении распознавания с открытым исходным кодом 11 марта, которое привело к серьезным прорыву в области извлечения структурированной информации.
Запуск PP-Tablemagic стремится решить ограничения традиционной технологии распознавания таблиц в сложных сценариях. Благодаря инновационной мультимоделиной сетевой архитектуре, это решение реализует высокое определение конечного распознавания таблиц и поддерживает высокоостренную модель точную настройку для всех сценариев. Традиционные модели распознавания общих таблиц часто работают плохо при столкновении с сложными форматами таблицы и их трудно удовлетворить потребности различных сценариев применения. С этой целью команда Baidu PaddlePaddle запустила PP-Tablemagic, которая принимает многомодельную схему тандемного сетевого взаимодействия «Классификация таблиц + распознавание структуры таблицы + обнаружение ячейки», которая значительно повышает точность и адаптируемость распознавания таблиц.

Основное преимущество PP-Tablemagic заключается в его инновационном архитектурном дизайне. Это решение принимает архитектуру с двойным потоком, разделяет таблицы на две категории: проводные таблицы и беспроводные таблицы, а затем разбирает задачу распознавания таблицы на две подзадачи: обнаружение ячейки и распознавание структуры таблицы. Наконец, полный результат прогнозирования таблицы HTML генерируется благодаря алгоритму слияния результатов самооптимизации. Среди них легкая модель классификации TABLE PP-LCNET_X1_0_TABLE_CLS, разработанная командой PaddlePaddle может классифицировать проводные таблицы и беспроводные таблицы с высокой точностью; Первая в отрасли модель обнаружения ячеек с открытым исходным кодом RT-DETR-L_TABLE_CELL_DET реализует точное расположение табличных ячеек различных типов; В то время как новая репрезентативная модель распознавания структуры сетки Slanext отлично работает в таблице HTML -анализа структуры. По сравнению с предыдущими моделями SLANET и SLANET_PLUS, Slanext использует VARY-VIT-B с более сильными возможностями представления признаков в качестве визуального энкодера, что еще больше повышает точность распознавания структуры таблицы.
В практических приложениях PP-Tablemagic может не только напрямую обрабатывать таблицы, но и удовлетворять потребности различных сценариев с помощью индивидуальной модели точной настройки. По сравнению с тонкой настройкой традиционных сквозных моделей распознавания таблиц, многомодерная сетевая архитектура PP-TableMagic позволяет пользователям только настраивать только ключевые модели, избегая задачи производительности «одного подъема, а другая падает» и уменьшает рабочую нагрузку аннотации данных. Кроме того, для старших разработчиков архитектура PP-TableMagic также поддерживает корректировки на уровне филиала, которые могут быть оптимизированы для конкретных типов данных о таблице, что еще больше улучшает общие возможности распознавания.
Чтобы помочь пользователям начать быстро, PP-TableMagic предоставляет подробные руководства по установке и учебные пособия по использованию. Пользователи могут легко вызывать модели через Python API, предоставленный Paddlex, выполнять распознавание таблиц и экспорт результатов. Кроме того, PP-Tablemagic также поддерживает высокопроизводительный вывод, развертывание на основе услуг и развертывание конечной стороны, что может удовлетворить потребности различных пользователей. Команда Baidu PaddlePaddle также планирует провести онлайн-курс 13 марта, чтобы глубоко проанализировать технические детали PP-Tablemagic и открыть практический лагерь промышленного сценария, чтобы привести пользователя к полному процессу разработки от подготовки данных к моделированию развертывания.
Адрес с открытым исходным кодом: https://github.com/paddlepaddle/paddlex/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md