Apache OpenNLP 라이브러리는 자연어 텍스트 처리를위한 기계 학습 기반 툴킷입니다.
이 툴킷은 Java로 완전히 작성되었으며 토큰 화, 문장 세분화, 부품 태그, 엔티티 추출, 청킹, 구문 분석, 코퍼 컨퍼런스 해상도, 언어 감지 등 일반적인 NLP 작업을 지원합니다!
이러한 작업은 일반적으로보다 고급 텍스트 처리 서비스를 구축해야합니다.
OpenNLP 프로젝트의 목표는 위에서 언급 한 작업에 대한 성숙한 툴킷이되는 것입니다.
추가 목표는 다양한 언어에 대한 수많은 사전 구축 된 모델과 해당 모델이 얻은 주석이 달린 텍스트 리소스를 제공하는 것입니다.
현재 OpenNLP에는 최대 엔트로피, 퍼셉트론 및 순진한 베이와 같은 일반적인 분류기가 포함되어 있습니다.
OpenNLP는 Java API를 통해 프로그래밍 방식으로 또는 CLI를 통해 터미널에서 사용할 수 있습니다. OpenNLP API는 Apache Flink, Apache Nifi, Apache Spark와 같은 분산 스트리밍 데이터 파이프 라인에 쉽게 연결할 수 있습니다.
자세한 내용은 OpenNLP 홈페이지를 방문하십시오
모든 언어와 함께 OpenNLP를 사용할 수 있으며 여기에는 데모 모델이 제공됩니다.
이 모델은 최신 릴리스와 완전히 호환되며 테스트 또는 시작에 사용할 수 있습니다.
메모
다른 모든 사용 사례에 대해 자신의 모델을 훈련하십시오.
Javadocs, 코드 사용 및 명령 줄 인터페이스 예제를 포함한 문서는 여기에서 확인할 수 있습니다.
최근 뉴스, 업데이트 및 주제의 경우 다음을 수행 할 수 있습니다.
또한 커뮤니티의 OpenNLP 질문과 답변을 확인하십시오.
현재 라이브러리에는 다른 패키지가 있습니다.
opennlp-tools : 핵심 툴킷.opennlp-tools-models : ClassPath에서 OpenNLP 모델을로드하는 일련의 클래스 세트.opennlp-uima : Apache UIMA 주석 세트 세트.opennlp-morfologik-addon : Morfologik의 애드온opennlp-dl : onnxruntime 종속성을 사용하여 ONNX 모델에 대한 OpenNLP 인터페이스 구현.opennlp-dl-gpu : onnxruntime onnxruntime_gpu 의 종속성으로 대체하여 GPU 가속도를 지원합니다.opennlp-sandbox : 샌드 박스에서 진행중인 다른 프로젝트가 있습니다. Maven, SBT 또는 Gradle에서 핵심 툴킷을 직접 가져올 수 있습니다.
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>${opennlp.version}</version>
</dependency>
libraryDependencies += "org.apache.opennlp" % "opennlp-tools" % "${opennlp.version}"
compile group: "org.apache.opennlp", name: "opennlp-tools", version: "${opennlp.version}"
자세한 내용은 문서를 확인하십시오
도서관을 구축하려면 적어도 JDK 17과 Maven 3.3.9가 필요합니다.
복제 후 저장소는 대상 디렉토리로 이동하여 실행합니다.
mvn install
Apache OpenNLP 프로젝트는 자원 봉사자들이 개발했으며 항상 프로젝트의 모든 부분에서 일할 새로운 기여자를 찾고 있습니다. 모든 기여는 환영하며 더 나은 것을 만들기 위해 필요합니다. 작은 문서 오타 수정에서 새로운 구성 요소에 이르기까지 기여할 수 있습니다.
참여하고 싶다면 여기 지침을 따르십시오.