Datumbox Machine Learning Framework는 Java로 작성된 오픈 소스 프레임 워크로 빠른 개발 기계 학습 및 통계 응용 프로그램을 허용합니다. 이 프레임 워크의 주요 초점은 수많은 머신 러닝 알고리즘 및 통계 방법을 포함하고 대규모 크기의 데이터 세트를 처리 할 수있는 것입니다.
저작권 (C) 2013-2020 Vasilis vryniotis.
코드는 Apache 라이센스 버전 2.0에 따라 라이센스가 부여됩니다.
Datumbox Framework는 Maven Central Repository에서 사용할 수 있습니다.
프레임 워크의 최신 안정 버전은 0.8.2 (빌드 20200805)입니다. 그것을 사용하려면 pom.xml에 다음 스 니펫을 추가하십시오.
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.2</version>
</dependency>
프레임 워크의 최신 스냅 샷 버전은 0.8.3-SNAPSHOT (빌드 20201014)입니다. 테스트하려면 다음과 같이 pom.xml을 업데이트하십시오.
<repository>
<id>sonatype-snapshots</id>
<name>sonatype snapshots repo</name>
<url>https://oss.sonatype.org/content/repositories/snapshots</url>
</repository>
<dependency>
<groupId>com.datumbox</groupId>
<artifactId>datumbox-framework-lib</artifactId>
<version>0.8.3-SNAPSHOT</version>
</dependency>
개발 분기는 개발 지점 (기본 GitHub Branch)이며 마스터 브랜치에는 최신 안정 버전의 프레임 워크가 포함되어 있습니다. 모든 안정적인 릴리스에는 태그가 표시됩니다.
프레임 워크의 릴리스는 시맨틱 버전화 접근법을 따릅니다. 다양한 릴리스에 대한 자세한 정보는 Changelog를 확인하십시오.
프레임 워크의 모든 공개 방법과 클래스는 Javadoc 의견으로 문서화됩니다. 또한 모든 모델의 경우 모델을 훈련하고 사용하는 방법을 명확하게 보여주는 Junit 테스트가 있습니다. 마지막으로 Framework Checkout를 사용하는 방법에 대한 더 많은 예는 코드 예제 또는 공식 블로그를 사용합니다.
Datumbox에는 감정 분석 (문서 및 트위터), 주관성 분석, 주제 분류, 스팸 탐지, 성인 컨텐츠 탐지, 언어 탐지, 상업적 탐지, 교육 감지 및 성 탐지를 수행 할 수있는 수많은 미리 훈련 된 모델이 함께 제공됩니다. 이진 모델을 얻으려면 Datumbox 동물원을 확인하십시오.
이 프레임 워크는 현재 다중 파라 메트릭 및 비모수 적 통계 테스트를 수행하고 검열 및 무수정 데이터에 대한 설명 통계를 계산하고, ANOVA, 클러스터 분석, 차원 감소, 회귀 분석, 타임 서리 분석, 샘플링 및 가장 일반적인 이산 및 계속 분포의 계산 및 계산을 지원합니다. 또한 Max Entropy, Naive Bayes, SVM, SVM, Bootstrap Aggregating, Adaboost, Kmeans, 계층 적 클러스터링, Dirichlet 프로세스 혼합 모델, SoftMax 회귀, 서수 회귀, 선형 회귀, PCA 및 기능 선택에 사용될 수있는 여러 가지 기술, 리니어링 시스템에 사용될 수있는 몇 가지 구현 된 알고리즘을 제공합니다.
프레임 워크의 일부가 상업용 응용 프로그램에 사용되었다는 사실에도 불구하고 모든 클래스가 동일하게 사용/테스트되는 것은 아닙니다. 현재 프레임 워크는 알파 버전으로 이루어 지므로 향후 버전에서 공개 API에 대한 일부 변경이 예상됩니다. 버그를 발견하면 공식 Github 저장소에서 문제로 제출하십시오.
프레임 워크는 여러 가지면에서 개선 될 수 있으며 결과적으로 어떤 기여도를 환영합니다. 프레임 워크에서 누락 된 가장 중요한 기능은 명령 줄이나 Python과 같은 다른 언어에서 사용하는 기능입니다. 다른 중요한 개선 사항으로는 문서 개선, 테스트 범위 및 예제, 프레임 워크의 아키텍처 개선 및 더 많은 기계 학습 및 통계 모델을 지원하는 것입니다. 코드에서 유용한 변경 사항을 작성하는 경우 풀 요청을 보내어 코드를 기여하는 것이 좋습니다.
프레임 워크의 아키텍처 개선에 대한 귀중한 입력에 대해 Eleftherios Bampaletakis에게 감사드립니다. 또한 Java 프로파일 러에게 라이센스를 제공 한 EJ-Technologies GMBH와 Java IDE에 대한 라이센스를 제공 한 JetBrains에게 감사드립니다.