behemoth
behemoth-1.1
庞然大物是基于Apache Hadoop的大型文档处理的开源平台。
它由简单的基于注释的文档实现以及在这些文档上运行的许多模块组成。庞然大物的主要方面之一是简化大规模的文档分析仪的部署,但也提供可重复使用的模块:
它的模块化体系结构简化了基于MapReduce的自定义注释的开发。
请注意,Bememoth并未实施任何NLP或机器学习组件,而是用于现有资源的“大规模胶水”。它是基于Hadoop的,它受益于其所有功能,即可扩展性,容忍性,最著名的是蓬勃发展的开源社区的后备。
Wiki:https://github.com/digitalpebble/behemoth/wiki
邮件列表:http://groups.google.com/group/digitalpebble
stackoverflow:http://stackoverflow.com/questions/tagged/behemoth