La biblioteca Apache OpenNLP es un kit de herramientas basado en el aprendizaje automático para el procesamiento del texto del lenguaje natural.
Este kit de herramientas se escribe por completo en Java y proporciona soporte para tareas comunes de la PNL, como tokenización, segmentación de oraciones, etiquetado de parte del voz, extracción de entidad nombrada, fragmentación, análisis, resolución de coreferencia, detección del lenguaje y más.
Por lo general, estas tareas son necesarias para crear servicios de procesamiento de texto más avanzados.
El objetivo del proyecto OpenNLP es ser un juego de herramientas maduro para las tareas mencionadas anteriormente.
Un objetivo adicional es proporcionar una gran cantidad de modelos preconstruidos para una variedad de idiomas, así como los recursos de texto anotados de los que se derivan esos modelos.
Actualmente, OpenNLP incluye clasificadores comunes como la máxima entropía, Perceptron y Bayes ingenuos.
OpenNLP se puede usar tanto programáticamente a través de su API Java o desde un terminal a través de su CLI. La API OpenNLP se puede conectar fácilmente a las tuberías de datos de transmisión distribuidas como Apache Flink, Apache Nifi, Apache Spark.
Para obtener información adicional, visite la página de inicio de OpenNLP
Puede usar OpenNLP con cualquier idioma, se proporcionan modelos de demostración aquí.
Los modelos son totalmente compatibles con la última versión, se pueden usar para probar o comenzar.
Nota
Capacite a sus propios modelos para todos los demás casos de uso.
La documentación, incluidos los Javadocs, el uso del código y los ejemplos de interfaz de línea de comandos están disponibles aquí
Para noticias, actualizaciones y temas recientes, puede:
Por favor, también consulte las preguntas y respuestas de OpenNLP de la comunidad.
Actualmente, la biblioteca tiene diferentes paquetes:
opennlp-tools : The Core Toolkit.opennlp-tools-models : un conjunto de clases para cargar modelos OpenNLP desde el ClassPath.opennlp-uima : un conjunto de anotadores Apache UIMA.opennlp-morfologik-addon : un complemento para Morfologikopennlp-dl : implementaciones de la interfaz OpenNLP para modelos ONNX utilizando la dependencia onnxruntime .opennlp-dl-gpu : reemplaza onnxruntime con la dependencia onnxruntime_gpu para admitir la aceleración de GPU.opennlp-sandbox : Otros proyectos en progreso se encuentran en el sandbox Puede importar el kit de herramientas central directamente desde Maven, SBT o Gradle:
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>${opennlp.version}</version>
</dependency>
libraryDependencies += "org.apache.opennlp" % "opennlp-tools" % "${opennlp.version}"
compile group: "org.apache.opennlp", name: "opennlp-tools", version: "${opennlp.version}"
Para más detalles, consulte nuestra documentación
Al menos JDK 17 y Maven 3.3.9 son necesarios para construir la biblioteca.
Después de clonar el repositorio, vaya al directorio de destino y ejecute:
mvn install
El proyecto Apache OpenNLP es desarrollado por voluntarios y siempre busca nuevos contribuyentes para trabajar en todas las partes del proyecto. Cada contribución es bienvenida y necesaria para mejorarla. Una contribución puede ser cualquier cosa, desde una pequeña solución para escribir documentación hasta un nuevo componente.
Si desea involucrarse, siga las instrucciones aquí