Behemoth adalah platform open source untuk pemrosesan dokumen skala besar berdasarkan Apache Hadoop.
Ini terdiri dari implementasi dokumen berbasis anotasi sederhana dan sejumlah modul yang beroperasi pada dokumen-dokumen ini. Salah satu aspek utama raksasa adalah menyederhanakan penyebaran analisis dokumen dalam skala besar tetapi juga untuk menyediakan modul yang dapat digunakan kembali untuk:
Arsitektur modularnya menyederhanakan pengembangan annotator khusus berdasarkan MapReduce.
Perhatikan bahwa Behemoth tidak mengimplementasikan komponen NLP atau pembelajaran mesin apa pun tetapi berfungsi sebagai 'glueware skala besar' untuk sumber daya yang ada. Berbasis Hadoop, itu mendapat manfaat dari semua fiturnya, yaitu skalabilitas, toleransi kesalahan dan terutama cadangan komunitas open source yang berkembang.
Wiki: https://github.com/digitalpebble/behemoth/wiki
Daftar Mailing: http://groups.google.com/group/digitalpebble
StackOverflow: http://stackoverflow.com/questions/tagged/behemoth