Behemoth هو منصة مفتوحة المصدر لمعالجة المستندات على نطاق واسع استنادًا إلى Apache Hadoop.
وهو يتألف من تطبيق بسيط قائم على التعليقات التوضيحية لمستند وعدد من الوحدات النمطية التي تعمل على هذه المستندات. يتمثل أحد الجوانب الرئيسية في العملاق في تبسيط نشر محلل المستندات على نطاق واسع ولكن أيضًا لتوفير وحدات قابلة لإعادة الاستخدام لـ:
بنيةها المعيارية تبسط تطوير المذيعات المخصصة على أساس MapReduce.
لاحظ أن العملاق لا ينفذ أي مكونات NLP أو مكونات التعلم الآلي على هذا النحو ، بل بمثابة "glueware على نطاق واسع" للموارد الحالية. كونه يعتمد على Hadoop ، فإنه يستفيد من جميع ميزاته ، وهي قابلية التوسع ، وتسامح الأعطال ، وأبرزها احتياطي مجتمع مفتوح المصدر المزدهر.
Wiki: https://github.com/digitalpebble/behemoth/wiki
القائمة البريدية: http://groups.google.com/group/digitalpebble
Stackoverflow: http://stackoverflow.com/questions/tagged/behemoth