A biblioteca Apache OpenNLP é um kit de ferramentas baseado em aprendizado de máquina para o processamento do texto da linguagem natural.
Este kit de ferramentas é escrito completamente em Java e fornece suporte para tarefas comuns de PNL, como tokenização, segmentação de sentenças, marcação de parte da fala, extração de entidade, Chunking, Parsing, resolução de núcleo, detecção de idiomas e muito mais!
Essas tarefas geralmente são necessárias para criar serviços de processamento de texto mais avançados.
O objetivo do projeto OpenNLP é ser um kit de ferramentas maduro para as tarefas acima mencionadas.
Um objetivo adicional é fornecer um grande número de modelos pré-criados para uma variedade de idiomas, bem como os recursos de texto anotados dos quais esses modelos são derivados.
Atualmente, o OpenNLP inclui classificadores comuns, como entropia máxima, perceptron e ingênuo Bayes.
O OpenNLP pode ser usado programaticamente através de sua API Java ou de um terminal através de sua CLI. A API OpenNLP pode ser facilmente conectada a pipelines de dados de streaming distribuídos como Apache Flink, Apache NIFI, Apache Spark.
Para informações adicionais, visite a página inicial do OpenNLP
Você pode usar o OpenNLP com qualquer idioma, os modelos de demonstração são fornecidos aqui.
Os modelos são totalmente compatíveis com a versão mais recente, eles podem ser usados para testar ou iniciar.
Observação
Treine seus próprios modelos para todos os outros casos de uso.
Documentação, incluindo Javadocs, Uso de Código e Exemplos de Interface da linha de comando estão disponíveis aqui
Para notícias recentes, atualizações e tópicos, você pode:
Por favor, verifique também as perguntas e respostas do OpenNLP da comunidade.
Atualmente, a biblioteca possui pacotes diferentes:
opennlp-tools : o principal kit de ferramentas.opennlp-tools-models : um conjunto de classes para carregar modelos OpenNLP no caminho de classe.opennlp-uima : um conjunto de anotadores Apache UIMA.opennlp-morfologik-addon : um addon para Morfologikopennlp-dl : OpenNLP Interface implementações para modelos ONNX usando a dependência onnxruntime .opennlp-dl-gpu : substitui onnxruntime pela dependência onnxruntime_gpu para suportar a aceleração da GPU.opennlp-sandbox : Outros projetos em andamento são encontrados na caixa de areia Você pode importar o kit de ferramentas Core diretamente do Maven, SBT ou Gradle:
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>${opennlp.version}</version>
</dependency>
libraryDependencies += "org.apache.opennlp" % "opennlp-tools" % "${opennlp.version}"
compile group: "org.apache.opennlp", name: "opennlp-tools", version: "${opennlp.version}"
Para mais detalhes, verifique nossa documentação
Pelo menos JDK 17 e Maven 3.3.9 são necessários para construir a biblioteca.
Depois de clonar o repositório, entre no diretório de destino e corra:
mvn install
O projeto Apache OpenNLP é desenvolvido por voluntários e está sempre procurando novos colaboradores para trabalhar em todas as partes do projeto. Toda contribuição é bem -vinda e necessária para torná -la melhor. Uma contribuição pode ser qualquer coisa, desde uma pequena correção de digitação de documentação até um novo componente.
Se você deseja se envolver, siga as instruções aqui