La bibliothèque Apache OpenNLP est une boîte à outils basée sur l'apprentissage automatique pour le traitement du texte du langage naturel.
Cette boîte à outils est entièrement écrite en Java et fournit une prise en charge des tâches NLP communes, telles que la tokenisation, la segmentation des phrases, le marquage d'une partie du discours, l'extraction des entités nommée, le morceau, l'analyse, la résolution de coreférence, la détection du langage et plus encore!
Ces tâches sont généralement nécessaires pour créer des services de traitement de texte plus avancés.
L'objectif du projet OpenNLP est d'être une boîte à outils mature pour les tâches mentionnées ci-dessus.
Un objectif supplémentaire est de fournir un grand nombre de modèles prédéfinis pour une variété de langues, ainsi que les ressources texte annotées dont ces modèles sont dérivés.
Actuellement, OpenNLP comprend des classificateurs communs tels que l'entropie maximale, le perceptron et les Bayes naïfs.
OpenNLP peut être utilisé à la fois par programme via son API Java ou à partir d'un terminal via son CLI. L'API OpenNLP peut être facilement branchée sur des pipelines de données de streaming distribués comme Apache Flink, Apache NiFi, Apache Spark.
Pour plus d'informations, visitez la page d'accueil OpenNLP
Vous pouvez utiliser OpenNLP avec n'importe quelle langue, des modèles de démonstration sont fournis ici.
Les modèles sont entièrement compatibles avec la dernière version, ils peuvent être utilisés pour tester ou commencer.
Note
Veuillez former vos propres modèles pour tous les autres cas d'utilisation.
La documentation, y compris les javadocs, l'utilisation du code et les exemples d'interface de ligne de commande sont disponibles ici
Pour les nouvelles, les mises à jour et les sujets récentes, vous pouvez:
Veuillez également consulter les questions et réponses OpenNLP de la communauté.
Actuellement, la bibliothèque dispose de différents packages:
opennlp-tools : The Core Toolkit.opennlp-tools-models : un ensemble de classes pour charger les modèles OpenNLP à partir du CLASSPATH.opennlp-uima : un ensemble d'annotateurs Apache Uima.opennlp-morfologik-addon : un addon pour Morfologikopennlp-dl : Implémentations d'interface OpenNLP pour les modèles ONNX à l'aide de la dépendance onnxruntime .opennlp-dl-gpu : remplace onnxruntime par la dépendance onnxruntime_gpu pour soutenir l'accélération GPU.opennlp-sandbox : D'autres projets en cours sont trouvés dans le bac à sable Vous pouvez importer la boîte à outils principale directement à partir de Maven, SBT ou Gradle:
<dependency>
<groupId>org.apache.opennlp</groupId>
<artifactId>opennlp-tools</artifactId>
<version>${opennlp.version}</version>
</dependency>
libraryDependencies += "org.apache.opennlp" % "opennlp-tools" % "${opennlp.version}"
compile group: "org.apache.opennlp", name: "opennlp-tools", version: "${opennlp.version}"
Pour plus de détails, veuillez consulter notre documentation
Au moins JDK 17 et Maven 3.3.9 sont nécessaires pour construire la bibliothèque.
Après le clonage, le référentiel, allez dans le répertoire de destination et exécutez:
mvn install
Le projet Apache OpenNLP est développé par des bénévoles et est toujours à la recherche de nouveaux contributeurs pour travailler sur toutes les parties du projet. Chaque contribution est la bienvenue et nécessaire pour l'améliorer. Une contribution peut être n'importe quoi, d'une petite dactylographie de documentation à un nouveau composant.
Si vous souhaitez vous impliquer, veuillez suivre les instructions ici