behemoth
behemoth-1.1
龐然大物是基於Apache Hadoop的大型文檔處理的開源平台。
它由簡單的基於註釋的文檔實現以及在這些文檔上運行的許多模塊組成。龐然大物的主要方面之一是簡化大規模的文檔分析儀的部署,但也提供可重複使用的模塊:
它的模塊化體系結構簡化了基於MapReduce的自定義註釋的開發。
請注意,Bememoth並未實施任何NLP或機器學習組件,而是用於現有資源的“大規模膠水”。它是基於Hadoop的,它受益於其所有功能,即可擴展性,容忍性,最著名的是蓬勃發展的開源社區的後備。
Wiki:https://github.com/digitalpebble/behemoth/wiki
郵件列表:http://groups.google.com/group/digitalpebble
stackoverflow:http://stackoverflow.com/questions/tagged/behemoth