Datumbox Machine Learning Framework adalah kerangka kerja open-source yang ditulis dalam Java yang memungkinkan pembelajaran mesin pengembangan cepat dan aplikasi statistik. Fokus utama dari kerangka kerja adalah untuk memasukkan sejumlah besar algoritma pembelajaran mesin & metode statistik dan untuk dapat menangani kumpulan data berukuran besar.
Hak Cipta (C) 2013-2020 Vasilis Vryniotis.
Kode ini dilisensikan di bawah lisensi Apache, versi 2.0.
Datumbox Framework tersedia di Maven Central Repository.
Versi stabil terbaru dari kerangka kerja adalah 0,8,2 (Build 20200805). Untuk menggunakannya, tambahkan cuplikan berikut di pom.xml Anda:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
Versi snapshot terbaru dari kerangka kerja adalah 0,8,3-snapshot (Build 20201014). Untuk mengujinya, perbarui pom.xml Anda sebagai berikut:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
Cabang Develop adalah cabang pengembangan (cabang gitub default), sedangkan cabang master berisi versi stabil terbaru dari kerangka kerja. Semua rilis stabil ditandai dengan tag.
Rilis kerangka kerja mengikuti pendekatan versi semantik. Untuk informasi terperinci tentang berbagai rilis, periksa changelog.
Semua metode publik dan kelas kerangka kerja didokumentasikan dengan komentar Javadoc. Terlebih lagi untuk setiap model ada tes junit yang jelas menunjukkan cara melatih dan menggunakan model. Akhirnya untuk lebih banyak contoh tentang cara menggunakan kerangka kerja checkout contoh kode atau blog resmi.
Datumbox hadir dengan sejumlah besar model pra-terlatih yang memungkinkan Anda untuk melakukan analisis sentimen (dokumen & Twitter), analisis subjektivitas, klasifikasi topik, deteksi spam, deteksi konten dewasa, deteksi bahasa, deteksi komersial, deteksi pendidikan dan deteksi gender. Untuk mendapatkan model biner, periksa Kebun Binatang Datumbox.
Kerangka kerja saat ini mendukung melakukan beberapa uji statistik parametrik & non-parametrik, menghitung statistik deskriptif pada data yang disensor & tidak disensor, melakukan ANOVA, analisis cluster, pengurangan dimensi, analisis regresi, analisis waktu, pengambilan sampel dan perhitungan probabilitas dari distribusi yang paling umum dan melanjutkan. Selain itu, ia menyediakan beberapa algoritma yang diimplementasikan termasuk entropi maks, bayes naif, SVM, agregat bootstrap, Adaboost, Kmeans, pengelompokan hierarkis, model campuran proses Dirichlet, pemilihan linar, fitur linear, fitur linear, fitur linear, fitur linear, ensemble, dan beberapa teknik yang dapat digunakan, dan beberapa teknik lain yang dapat digunakan, dan beberapa teknik lain yang dapat digunakan, dan beberapa teknik yang dapat digunakan untuk regresi, PCA, dan beberapa teknik lain yang dapat digunakan, dan beberapa teknik yang dapat digunakan, dan beberapa teknik lain yang dapat digunakan untuk regresi, PCA, dan beberapa teknik lain yang dapat digunakan, dan beberapa teknik lain yang dapat digunakan, dan beberapa teknik lain yang dapat digunakan secara stepwise,
Terlepas dari kenyataan bahwa bagian -bagian dari kerangka kerja telah digunakan dalam aplikasi komersial, tidak semua kelas sama -sama digunakan/diuji. Saat ini kerangka kerja dalam versi alpha, jadi Anda harus mengharapkan beberapa perubahan pada API publik pada versi mendatang. Jika Anda melihat bug, silakan kirimkan sebagai masalah di repositori GitHub resmi.
Kerangka kerja ini dapat ditingkatkan dalam banyak hal dan sebagai hasilnya kontribusi apa pun diterima. Sejauh ini fitur terpenting yang hilang dari kerangka kerja adalah kemampuan untuk menggunakannya dari baris perintah atau dari bahasa lain seperti Python. Peningkatan penting lainnya termasuk meningkatkan dokumentasi, cakupan uji dan contoh -contohnya, meningkatkan arsitektur kerangka kerja dan mendukung lebih banyak pembelajaran mesin dan model statistik. Jika Anda membuat perubahan yang berguna pada kode, harap pertimbangkan untuk berkontribusi dengan mengirim permintaan tarik.
Terima kasih banyak kepada Eleftherios Bampaletakis atas masukannya yang tak ternilai untuk meningkatkan arsitektur kerangka kerja. Juga banyak terima kasih kepada EJ-Technologies GmbH karena telah memberikan lisensi untuk profiler Java mereka dan kepada JetBrains karena memberikan lisensi untuk IDE Java mereka.