Behemoth é uma plataforma de código aberto para processamento de documentos em larga escala com base no Apache Hadoop.
Consiste em uma simples implementação baseada em anotação de um documento e em vários módulos que operam nesses documentos. Um dos principais aspectos do gigante é simplificar a implantação de analisadores de documentos em larga escala, mas também para fornecer módulos reutilizáveis para:
Sua arquitetura modular simplifica o desenvolvimento de anotadores personalizados com base no MapReduce.
Observe que o Behemoth não implementa nenhum componente de PNL ou aprendizado de máquina como tal, mas serve como um 'Grueware em larga escala' para os recursos existentes. Sendo baseado no Hadoop, ele se beneficia de todos os seus recursos, como escalabilidade, tolerância a falhas e, principalmente, o backup de uma próspera comunidade de código aberto.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Lista de discussão: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth