A estrutura de aprendizado de máquina Datumbox é uma estrutura de código aberto escrito em Java, que permite o aprendizado de máquina de desenvolvimento rápido e as aplicações estatísticas. O foco principal da estrutura é incluir um grande número de algoritmos de aprendizado de máquina e métodos estatísticos e poder lidar com conjuntos de dados de tamanho grande.
Copyright (c) 2013-2020 Vasilis Vryniotis.
O código está licenciado sob a licença Apache, versão 2.0.
O DatumBox Framework está disponível no Maven Central Repository.
A versão estável mais recente da estrutura é 0,8.2 (Build 20200805). Para usá -lo, adicione o seguinte snippet em seu pom.xml:
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
A versão mais recente do Snapshot da estrutura é 0,8.3-SNAPSHOT (Build 20201014). Para testá -lo, atualize seu pom.xml da seguinte forma:
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
A filial Desenvolvimento é a filial de desenvolvimento (filial padrão do GitHub), enquanto a filial principal contém a mais recente versão estável da estrutura. Todos os lançamentos estáveis são marcados com tags.
Os lançamentos da estrutura seguem a abordagem de versão semântica. Para obter informações detalhadas sobre os vários lançamentos, consulte o Changelog.
Todos os métodos públicos e classes da estrutura estão documentados com comentários Javadoc. Além disso, para cada modelo, há um teste JUNIT que mostra claramente como treinar e usar os modelos. Finalmente, para obter mais exemplos sobre como usar o quadro da estrutura dos exemplos de código ou do blog oficial.
O DatumBox vem com um grande número de modelos pré-treinados que permitem executar análises de sentimentos (documentos e twitter), análise de subjetividade, classificação de tópicos, detecção de spam, detecção de conteúdo de adultos, detecção de idiomas, detecção comercial, detecção educacional e detecção de gênero. Para obter os modelos binários, consulte o zoológico de Datumbox.
Atualmente, a estrutura suporta a execução de testes estatísticos paramétricos e não paramétricos, calculando estatísticas descritivas sobre dados censurados e sem censura, executando ANOVA, análise de cluster, redução de dimensão, análise de regressão, análise de tempo, amostragem e cálculo de probabilidades das distribuições discretas e continuadas comuns. In addition it provides several implemented algorithms including Max Entropy, Naive Bayes, SVM, Bootstrap Aggregating, Adaboost, Kmeans, Hierarchical Clustering, Dirichlet Process Mixture Models, Softmax Regression, Ordinal Regression, Linear Regression, Stepwise Regression, PCA and several other techniques that can be used for feature selection, ensemble learning, linear programming solving and recommender systems.
Apesar do fato de que partes da estrutura tenham sido usadas em aplicações comerciais, nem todas as classes são igualmente usadas/testadas. Atualmente, a estrutura está na versão alfa, portanto, você deve esperar algumas alterações nas APIs públicas em versões futuras. Se você encontrar um bug, envie -o como um problema no repositório oficial do GitHub.
A estrutura pode ser melhorada de várias maneiras e, como resultado, qualquer contribuição é bem -vinda. De longe, o recurso mais importante que falta na estrutura é a capacidade de usá -lo na linha de comando ou em outros idiomas, como o Python. Outros aprimoramentos importantes incluem melhorar a documentação, a cobertura do teste e os exemplos, melhorar a arquitetura da estrutura e apoiar mais aprendizado de máquina e modelos estatísticos. Se você fizer alguma alteração útil no código, considere contribuí -las enviando uma solicitação de tração.
Muito obrigado a Eleftherios Bampaletakis por sua inestimável contribuição sobre a melhoria da arquitetura da estrutura. Muito obrigado à EJ-Technologies GmbH por fornecer uma licença para o seu Profiler Java e a JetBrains por fornecer uma licença para o seu Java IDE.