Behemoth es una plataforma de código abierto para el procesamiento de documentos a gran escala basado en Apache Hadoop.
Consiste en una implementación simple basada en anotaciones de un documento y una serie de módulos que operan en estos documentos. Uno de los aspectos principales del gigante es simplificar la implementación de analizadores de documentos a gran escala pero también proporcionar módulos reutilizables para:
Su arquitectura modular simplifica el desarrollo de anotadores personalizados basados en MapReduce.
Tenga en cuenta que Behemoth no implementa ningún componente de PNL o aprendizaje automático como tales, sino que sirve como un "pegamento a gran escala" para los recursos existentes. Al estar basado en Hadoop, se beneficia de todas sus características, a saber, escalabilidad, tolerancia a fallas y, sobre todo, la respaldo de una próspera comunidad de código abierto.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Lista de correo: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth