Stanford Corenlp fournit un ensemble d'outils d'analyse du langage naturel écrit en Java. Il peut prendre un texte de langage humain brut et donner les formes de base de mots, leurs parties de la parole, qu'ils soient les noms des entreprises, des personnes, etc., normalisent et interprétent les dates, les temps et les quantités numériques, marquer la structure des phrases en termes de phrases ou de dépendances syntaxiques, et indiquer quelles phrases nouelles se réfèrent aux mêmes entités. Il a été initialement développé pour l'anglais, mais fournit désormais également différents niveaux de soutien aux (standard modernes) arabes, (continentaux) chinois, français, allemands, hongrois, italiens et espagnols. Stanford Corenlp est un cadre intégré, ce qui facilite l'application d'un tas d'outils d'analyse du langage à un morceau de texte. À partir de texte brut, vous pouvez exécuter tous les outils avec seulement deux lignes de code. Ses analyses fournissent les éléments fondamentaux pour les applications de compréhension de texte spécifiques au niveau de niveau supérieur et spécifiques au domaine. Stanford Corenlp est un ensemble d'outils de traitement du langage naturel stables et bien testés, largement utilisés par divers groupes dans le monde universitaire, l'industrie et le gouvernement. Les outils utilisent diversement des composants d'apprentissage automatique basés sur des règles et probabilistes.
Le code de Stanford Corenlp est écrit en Java et sous licence GNU General Public (V2 ou version ultérieure). Notez qu'il s'agit du GPL complet, qui permet de nombreuses utilisations gratuites, mais pas son utilisation dans un logiciel propriétaire que vous distribuez à d'autres.
Plusieurs fois par an, nous distribuons une nouvelle version du logiciel, ce qui correspond à un engagement stable.
Pendant le temps entre les versions, on peut toujours utiliser la dernière version sous-développement de notre code.
Voici quelques instructions utiles pour utiliser le dernier code:
Parfois, nous fournirons ici des pots mis à jour qui ont la dernière version du code.
À l'heure actuelle, la version actuelle publiée du code est notre pot publié le plus récent, bien que vous puissiez toujours construire vous-même le tout dernier de GitHub Head.
cd CoreNLP ; antcd CoreNLP/classes ; jar -cf ../stanford-corenlp.jar edumvn package , il devrait exécuter les tests et construire ce fichier de pot: CoreNLP/target/stanford-corenlp-4.5.4.jarstanford-corenlp-models-current.jar vous devrez définir -Dclassifier=models . Voici l'exemple de commande pour l'espagnol: mvn install:install-file -Dfile=/location/of/stanford-spanish-corenlp-models-current.jar -DgroupId=edu.stanford.nlp -DartifactId=stanford-corenlp -Dversion=4.5.4 -Dclassifier=models-spanish -Dpackaging=jar Les pots de modèles qui correspondent au dernier code peuvent être trouvés dans le tableau ci-dessous.
Certains des plus grands modèles (anglais) - comme l'analyseur et Wikidict de Shift-Reduce - ne sont pas distribués avec notre pot de modèles par défaut. Ceux-ci nécessitent le téléchargement des pots anglais (extra) et anglais (KBP). Les ressources pour d'autres langues nécessitent l'utilisation du pot de modèles correspondant.
La meilleure façon d'obtenir les modèles est d'utiliser GIT-LFS et de les cloner de Hugging Face Hub.
Par exemple, pour obtenir les modèles français, exécutez les commandes suivantes:
# Make sure you have git-lfs installed
# (https://git-lfs.github.com/)
git lfs install
git clone https://huggingface.co/stanfordnlp/corenlp-french
Les bocaux peuvent être téléchargés directement à partir des liens ci-dessous ou de la page Houging Face Hub également.
| Langue | Pot de modèle | Dernière mise à jour |
|---|---|---|
| arabe | Télécharger (HF Hub) | 4.5.6 |
| Chinois | Télécharger (HF Hub) | 4.5.6 |
| Anglais (extra) | Télécharger (HF Hub) | 4.5.6 |
| Anglais (KBP) | Télécharger (HF Hub) | 4.5.6 |
| Français | Télécharger (HF Hub) | 4.5.6 |
| Allemand | Télécharger (HF Hub) | 4.5.6 |
| hongrois | Télécharger (HF Hub) | 4.5.6 |
| italien | Télécharger (HF Hub) | 4.5.6 |
| Espagnol | Télécharger (HF Hub) | 4.5.6 |
Merci à un visage étreint d'avoir aidé avec notre hébergement!
Si vous ne connaissez pas Gradle lui-même, voir le site officiel: https://gradle.org
Écrivez ce qui suit dans votre build.gradle selon Maven Central:
dependencies {
implementation ' edu.stanford.nlp:stanford-corenlp:4.5.5 '
}Si vous souhaitez analyser l'anglais, ajoutez les suivants:
implementation " edu.stanford.nlp:stanford-corenlp:4.5.5:models "
implementation " edu.stanford.nlp:stanford-corenlp:4.5.5:models-english "
implementation " edu.stanford.nlp:stanford-corenlp:4.5.5:models-english-kbp "Si vous utilisez une autre version, remplacez "4.5.5" à une version que vous utilisez.
Vous pouvez trouver des sorties de Stanford Corenlp sur Maven Central.
Vous pouvez trouver plus d'explications et de documents sur la page d'accueil de Stanford Corenlp.
Pour plus d'informations sur la contribution à Stanford Corenlp, voir le fichier contributing.md.
Les questions sur Corenlp peuvent être publiées sur StackOverflow avec le tag Stanford-NLP, soit sur les listes de diffusion.