Behemoth est une plate-forme open source pour le traitement de documents à grande échelle basé sur Apache Hadoop.
Il se compose d'une simple implémentation basée sur l'annotation d'un document et d'un certain nombre de modules opérant sur ces documents. L'un des principaux aspects de Behemoth est de simplifier le déploiement d'analyseurs de documents à grande échelle mais aussi de fournir des modules réutilisables pour:
Son architecture modulaire simplifie le développement d'annotateurs personnalisés basés sur MapReduce.
Notez que Behemoth n'implémente aucun composant PNL ou d'apprentissage automatique en tant que tel, mais sert de «logiciel de gluers à grande échelle» pour les ressources existantes. Étant basé sur Hadoop, il bénéficie de toutes ses fonctionnalités, à savoir l'évolutivité, la tolérance aux failles et notamment la sauvegarde d'une communauté open source florissante.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Liste de diffusion: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth