Структура машинного обучения Datumbox-это рамка с открытым исходным кодом, написанная на Java, которая позволяет быстрое разработку машинного обучения и статистические приложения. Основное внимание в структуре - включить большое количество алгоритмов машинного обучения и статистических методов и иметь возможность обрабатывать наборы больших размеров.
Copyright (C) 2013-2020 Vasilis Vryniotis.
Код лицензирован по лицензии Apache, версия 2.0.
Datumbox Framework доступен в Maven Central Repository.
Последняя стабильная версия фреймворка составляет 0,8,2 (Build 20200805). Чтобы использовать его, добавьте следующий фрагмент в свой pom.xml:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
Последняя версия снимка Framework составляет 0,8,3-смапсот (Build 20201014). Чтобы проверить его, обновите свой pom.xml следующим образом:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
Разработка филиала - это филиал разработки (филиал GitHub по умолчанию), в то время как главная ветвь содержит последнюю стабильную версию фреймворка. Все стабильные выпуски отмечены метками.
Выпуски фреймворка следуют за семантическим подходом. Для получения подробной информации о различных выпусках проверьте изменение изменений.
Все публичные методы и классы структуры документированы с помощью комментариев Javadoc. Более того, для каждой модели есть тест JUNIT, который ясно показывает, как тренировать и использовать модели. Наконец, для получения дополнительных примеров того, как использовать фреймворк -оформление примеров кода или официального блога.
Datumbox поставляется с большим количеством предварительно обученных моделей, которые позволяют вам выполнять анализ настроений (документ и Twitter), анализ субъективности, классификацию тем, обнаружение спама, обнаружение содержания взрослых, обнаружение языка, коммерческое обнаружение, обнаружение образования и обнаружение пола. Чтобы получить двоичные модели, ознакомьтесь с зоопарком Datumbox.
В настоящее время структура поддерживает выполнение нескольких параметрических и непараметрических статистических тестов, расчета описательной статистики по данным цензурированной и нецензурной, выполняя ANOVA, кластерный анализ, сокращение размеров, регрессионный анализ, анализ времени, выборки и расчет вероятностей из наиболее распространенных дискретных распределений. Кроме того, он предоставляет несколько реализованных алгоритмов, включая максимальную энтропию, наивную байесу, SVM, агрегирование начальной загрузки, Adaboost, Kmeans, иерархическую кластеризация, модели смеси процессов Dirichlet, регрессия Softmax, регрессия ординал, линейную регрессию, регрессию, PCA и несколько других методов, которые могут использоваться для выбора функции, энсезодемийного обучения, линины.
Несмотря на то, что части структуры использовались в коммерческих приложениях, не все классы используются в равной степени/протестированы. В настоящее время фреймворк находится в альфа -версии, поэтому вы должны ожидать некоторых изменений в публичных API в будущих версиях. Если вы заметите ошибку, отправьте ее в качестве вопроса в официальном репозитории GitHub.
Структура может быть улучшена во многих отношениях, и в результате любой вклад приветствуется. Безусловно, наиболее важной особенностью, отсутствующей в рамках, является возможность использовать ее из командной строки или на других языках, таких как Python. Другие важные усовершенствования включают улучшение документации, охват теста и примеры, улучшение архитектуры структуры и поддержку большего количества машинного обучения и статистических моделей. Если вы внесете какие -либо полезные изменения в коде, пожалуйста, рассмотрите возможность внести им вклад, отправив запрос на привлечение.
Большое спасибо Eleftherios Bampaletakis за его неоценимый вклад в улучшение архитектуры структуры. Также большое спасибо EJ-Technologies GmbH за предоставление лицензии на их Java Profiler и JetBrains за предоставление лицензии на Java IDE.