Trafilatura-это передовый пакет Python и инструмент командной строки, предназначенный для сбора текста в Интернете и упрощения процесса превращения необработанного HTML в структурированные, значимые данные . Он включает в себя все необходимые компоненты обнаружения и обработки текста для выполнения ползания, загрузки, соскоба и извлечения основных текстов, метаданных и комментариев. Он направлен на то, чтобы оставаться удобным и модульным : база данных не требуется, вывод может быть преобразован в обычно используемые форматы.
Переход от HTML -объема к основным частям может смягчить многие проблемы, связанные с качеством текста, сосредоточив внимание на фактическом содержании , избегая шума, вызванного повторяющимися элементами, такими как заголовки и нижние колонтитулы, и понимая данные и метаданные с выбранной информацией. Экстрактор достигает баланса между ограничивающим шумом (точностью) и включением всех действительных деталей (отзыв). Это надежно и достаточно быстро .
Trafilatura широко используется и интегрируется в тысячи проектов таких компаний, как Hurgingface, IBM и Microsoft Research, а также такие учреждения, как Институт Аллена, Стэнфорд, Токийский институт технологии и Мюнхенский университет.
Усовершенствованные веб -полки и открытие текста:
Параллельная обработка онлайн и автономного ввода:
Надежная и настраиваемая извлечение ключевых элементов:
Несколько форматов вывода:
Дополнительные дополнения:
Активно поддерживается при поддержке сообщества с открытым исходным кодом:
Trafilatura постоянно превосходит другие библиотеки с открытым исходным кодом в критериях извлечения текста, демонстрируя ее эффективность и точность при извлечении веб-контента. Экстрактор пытается набрать баланс между ограничивающим шумом и включая все действительные детали.
Для получения дополнительной информации см. В разделе «Конфликт» и «Оценка» для запуска оценки с последними данными и пакетами.
Начало работы с Trafilatura просто. Для получения дополнительной информации и подробных гидов, посетите документацию Trafilatura:
Плейлист YouTube с видеоуроками на нескольких языках:
Этот пакет распространяется по лицензии Apache 2.0.
Версии до v1.8.0 находятся под лицензией GPLV3+.
Взносы всех видов приветствуются. Посетите страницу для получения дополнительной информации. Отчеты об ошибках могут быть поданы на специальной странице выпуска.
Большое спасибо участникам, которые расширили документы или отправили отчеты об ошибках, функции и ошибки!
Эта работа началась как PhD -проект на перекрестке лингвистики и НЛП, этот опыт сыграл важную роль в формировании трафилатура на протяжении многих лет. Первоначально запущенный для создания текстовых баз данных для исследовательских целей в Берлин-Бренденбургской академии наук (DWD и ZDL-единицы), этот пакет продолжает сохраняться, но его будущее развитие зависит от поддержки сообщества.
Если вы цените это программное обеспечение или зависите от него для своего продукта, рассмотрите возможность спонсировать его и внести свой вклад в его кодовую базу . Ваша поддержка поможет поддерживать и улучшить этот популярный пакет, обеспечивая его рост, надежность и доступность для разработчиков и пользователей по всему миру.
Trafilatura - это итальянское слово для проводного чертежа, символизирующего процесс уточнения и преобразования. Это также способ формируется формы пасты.
Обратитесь через репозиторий программного обеспечения или страницу контактов для запросов, сотрудничества или обратной связи. Смотрите также социальные сети для последних обновлений.
Trafilatura широко используется в академической области, главным образом для сбора данных. Вот как это цитировать:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Совместно разработанные плагины и дополнительные пакеты также способствуют извлечению и анализу веб -данных:
Соответствующие посты можно найти на кусочках языка.
Впечатляет, вы достигли конца страницы: Спасибо за ваш интерес!