Behemoth ist eine Open -Source -Plattform für die Dokumentenverarbeitung in großem Maßstab, die auf Apache Hadoop basiert.
Es besteht aus einer einfachen Annotationsimplementierung eines Dokuments und einer Reihe von Modulen, die auf diesen Dokumenten arbeiten. Einer der Hauptaspekte von Behemoth ist die Vereinfachung der Bereitstellung von Dokumentanalysatoren in großem Maßstab, aber auch wiederverwendbare Module für:
Die modulare Architektur vereinfacht die Entwicklung von benutzerdefinierten Annotatoren anhand von MapReduce.
Beachten Sie, dass Behemoth keine Komponenten von NLP oder maschinellem Lernen als solche implementiert, sondern als „groß angelegte Klebstoff“ für vorhandene Ressourcen dient. Als Hadoop-basiert profitiert es von all seinen Merkmalen, nämlich Skalierbarkeit, Fehlertoleranz und insbesondere der Backup einer florierenden Open-Source-Community.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Mailingliste: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth