يعد إطار التعلم الآلي لـ Datumbox بمثابة إطار عمل مفتوح المصدر مكتوب في Java والذي يسمح بالتطوير السريع للتعلم الآلي والتطبيقات الإحصائية. يتمثل التركيز الرئيسي للإطار في تضمين عدد كبير من خوارزميات التعلم الآلي والأساليب الإحصائية وأن تكون قادرًا على التعامل مع مجموعات البيانات الكبيرة الحجم.
حقوق الطبع والنشر (C) 2013-2020 Vasilis Vryniotis.
الكود مرخص بموجب ترخيص Apache ، الإصدار 2.0.
يتوفر Datumbox Framework على مستودع Maven Central.
أحدث إصدار مستقر من الإطار هو 0.8.2 (Build 20200805). لاستخدامه ، أضف المقتطف التالي في pom.xml الخاص بك:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
أحدث إصدار لقطة من الإطار هو 0.8.3-snapshot (Build 20201014). لاختباره ، قم بتحديث pom.xml الخاص بك على النحو التالي:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
فرع التطوير هو فرع التطوير (فرع GitHub الافتراضي) ، بينما يحتوي الفرع الرئيسي على أحدث إصدار مستقر من الإطار. يتم وضع علامة على جميع الإصدارات المستقرة بعلامات.
تتبع إصدارات الإطار نهج الإصدار الدلالي. للحصول على معلومات مفصلة حول الإصدارات المختلفة ، تحقق من Changelog.
يتم توثيق جميع الأساليب العامة وفئات الإطار مع تعليقات Javadoc. علاوة على ذلك ، يوجد اختبار Junit لكل نموذج يوضح بوضوح كيفية تدريب النماذج واستخدامها. أخيرًا ، لمزيد من الأمثلة حول كيفية استخدام الإطار ، يمكنك الخروج من أمثلة الكود أو المدونة الرسمية.
يأتي Datumbox مع عدد كبير من النماذج المدربة مسبقًا والتي تسمح لك بإجراء تحليل المعنويات (المستند والتويتر) ، وتحليل الذاتية ، وتصنيف الموضوع ، والكشف عن البريد العشوائي ، والكشف عن محتوى البالغين ، والكشف عن اللغة ، والكشف التجاري ، والكشف التعليمي ، والكشف عن الجنس. للحصول على النماذج الثنائية ، تحقق من حديقة حيوان Datumbox.
يدعم الإطار حاليًا إجراء اختبارات إحصائية متعددة البارامترية وغير البارامترية ، وحساب الإحصاءات الوصفية على البيانات الخاضعة للرقابة وغير الخاضعة للرقابة ، وأداء ANOVA ، وتحليل الكتلة ، وتقليل الأبعاد ، وتحليل الانحدار ، وتحليل الأوقات ، وأخذ العينات وحساب الاحتمالات من الموافقة والموافقة الأكثر شيوعًا. بالإضافة إلى ذلك ، فإنه يوفر العديد من الخوارزميات المنفذة بما في ذلك أقصى إنتروبيا ، و Bayes الساذجة ، و SVM ، وتجميع bootstrap ، و adaboost ، و kmeans ، والتجميع الهرمي ، ونماذج خليط عملية dirichlet ، والانحدار softmax ، والانحدار الترتيبي ، والانحدار الخطي ، والانحدار التدريجي ، والعديد من التقنيات الأخرى التي يمكن استخدامها ، والتعلم.
على الرغم من حقيقة أن أجزاء من الإطار قد استخدمت في التطبيقات التجارية ، لا يتم استخدام/اختبار جميع الفئات بالتساوي. حاليًا الإطار في إصدار ألفا ، لذلك يجب أن تتوقع بعض التغييرات على واجهات برمجة التطبيقات العامة على الإصدارات المستقبلية. إذا اكتشفت خطأً ، فيرجى إرساله كمسألة في مستودع GitHub الرسمي.
يمكن تحسين الإطار بعدة طرق ، ونتيجة لذلك ، يتم الترحيب بأي مساهمة. إلى حد بعيد ، فإن الميزة الأكثر أهمية المفقودة من الإطار هي القدرة على استخدامه من سطر الأوامر أو من لغات أخرى مثل Python. تشمل التحسينات المهمة الأخرى تحسين الوثائق وتغطية الاختبار والأمثلة ، وتحسين بنية الإطار ودعم المزيد من النماذج الإحصائية والتعلم الآلي. إذا قمت بإجراء أي تغييرات مفيدة على الرمز ، فيرجى التفكير في المساهمة بها عن طريق إرسال طلب سحب.
شكرًا جزيلاً لـ Eleftherios Bampaletakis على مدخلاته التي لا تقدر بثمن حول تحسين بنية الإطار. كما شكر الكثير من ej-technologies GmbH لتقديم ترخيص لـ Java Profiler وللطرقات لتوفير ترخيص لـ Java IDE.