Behemoth - это платформа с открытым исходным кодом для крупномасштабной обработки документов на основе Apache Hadoop.
Он состоит из простой внедрения документа на основе аннотаций и ряда модулей, работающих в этих документах. Одним из основных аспектов Бегемота является упрощение развертывания анализаторов документов в больших масштабах, но также для предоставления многократных модулей для:
Его модульная архитектура упрощает разработку пользовательских аннотаторов на основе MapReduce.
Обратите внимание, что Бегемот не реализует какие-либо компоненты НЛП или машинного обучения как таковые, но служит «крупномасштабной клейкой» для существующих ресурсов. Будучи на основе Hadoop, он получает выгоду от всех своих функций, а именно масштабируемости, неисправности и, в частности, резервного копирования процветающего сообщества с открытым исходным кодом.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Список рассылки: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth