Behemoth เป็นแพลตฟอร์มโอเพ่นซอร์สสำหรับการประมวลผลเอกสารขนาดใหญ่ตาม Apache Hadoop
ประกอบด้วยการใช้เอกสารที่ใช้คำอธิบายประกอบอย่างง่ายและโมดูลจำนวนหนึ่งที่ทำงานในเอกสารเหล่านี้ หนึ่งในประเด็นหลักของ Behemoth คือการทำให้การปรับใช้ของเครื่องวิเคราะห์เอกสารง่ายขึ้นในขนาดใหญ่ แต่ยังให้โมดูลที่นำกลับมาใช้ใหม่ได้สำหรับ:
สถาปัตยกรรมแบบแยกส่วนช่วยให้การพัฒนาคำอธิบายประกอบแบบกำหนดเองง่ายขึ้นตาม MapReduce
โปรดทราบว่า behemoth ไม่ได้ใช้ส่วนประกอบ NLP หรือการเรียนรู้ของเครื่องจักรใด ๆ แต่ทำหน้าที่เป็น 'glueware ขนาดใหญ่' สำหรับทรัพยากรที่มีอยู่ การใช้ Hadoop นั้นได้รับประโยชน์จากคุณสมบัติทั้งหมดคือความสามารถในการปรับขนาดการทนต่อความผิดพลาดและการสำรองข้อมูลชุมชนโอเพ่นซอร์สที่เจริญรุ่งเรืองที่สุด
Wiki: https://github.com/digitalpebble/behemoth/wiki
รายชื่อผู้รับจดหมาย: http://groups.google.com/group/digitalpebble
stackoverflow: http://stackoverflow.com/questions/tagged/behemoth