Datumbox機器學習框架是用Java編寫的開源框架,可快速開發機器學習和統計應用程序。該框架的主要重點是包括大量的機器學習算法和統計方法,並能夠處理大型數據集。
版權(C)2013-2020 Vasilis Vryniotis。
該代碼是根據Apache許可證的2.0版獲得許可的。
Datumbox框架可在Maven Central存儲庫中獲得。
該框架的最新穩定版本為0.8.2(Build 20200805)。要使用它,請在pom.xml中添加以下片段:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
該框架的最新快照版本為0.8.3-Snapshot(Build 20201014)。要測試它,請按以下方式更新您的pom.xml:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
開發分支是開發分支(默認GitHub分支),而主分支包含該框架的最新穩定版本。所有穩定的版本均標有標籤。
該框架的版本遵循語義版本管理方法。有關各種版本的詳細信息,請查看ChangElog。
框架的所有公共方法和類都記錄在Javadoc評論中。此外,對於每個模型,都有一個JUNIT測試,該測試清楚地顯示瞭如何訓練和使用模型。最後,有關如何使用框架查看代碼示例或官方博客的更多示例。
Datumbox具有大量的預訓練模型,可讓您進行情感分析(文檔和Twitter),主觀性分析,主題分類,垃圾郵件檢測,成人內容檢測,語言檢測,商業檢測,教育檢測和性別檢測。要獲取二進制模型,請查看Datumbox Zoo。
該框架當前支持執行多個參數和非參數統計測試,計算審查和未經審查的數據的描述性統計,執行ANOVA,集群分析,降低尺寸降低,回歸分析,時間表分析,時間表分析,抽樣和計算最常見的離散和繼續分佈的概率。此外,它還提供了幾種實施的算法,包括最大熵,天真的貝葉斯,SVM,Bootstrap聚合,Adaboost,Kmeans,Kmeans,層次聚類,層次聚類,Dirichlet Process混合模型,軟療法回歸,序數回歸,序列回歸,線性回歸,線性回歸,PCA回歸,PCA和其他幾種可以用於功能選擇的技術。
儘管該框架的一部分已用於商業應用中,但並非所有類都同樣使用/測試。目前,該框架是在Alpha版本中,因此您應該期望將來的版本上的公共API進行一些更改。如果發現錯誤,請在官方GitHub存儲庫上提交該錯誤。
該框架可以通過多種方式改進,因此歡迎任何貢獻。到目前為止,該框架中最重要的功能是能夠從命令行或其他語言(例如Python)使用它。其他重要的增強功能包括改進文檔,測試覆蓋範圍和示例,改善框架的體系結構,並支持更多的機器學習和統計模型。如果您對代碼進行任何有用的更改,請考慮通過發送拉動請求來貢獻它們。
非常感謝Eleftherios Bampaletakis對改進框架建築的寶貴意見。也非常感謝EJ-Technologies GmbH為其Java Profiler提供許可,並感謝Jetbrains為其Java IDE提供許可證。