
Cette bibliothèque Python vous aide à augmenter la PNL pour vos projets d'apprentissage automatique. Visitez cette introduction pour comprendre l'augmentation des données dans la PNL. Augmenter est l'élément de base de l'augmentation tandis que Flow est un pipeline pour l'orchestre multi-augmenter ensemble.


| Section | Description |
|---|---|
| Démo rapide | Comment utiliser cette bibliothèque |
| Augmentant | Introduire toutes les méthodes d'augmentation disponibles |
| Installation | Comment installer cette bibliothèque |
| Changements récents | Dernière amélioration |
| Lecture d'extension | Plus d'exemples ou de recherches de la vie réelle |
| Référence | Référence de ressources externes telles que les données ou le modèle |
| Augmentant | Cible | Augmentant | Action | Description |
|---|---|---|---|---|
| Textuel | Personnage | Clavier | remplaçant | Simuler l'erreur de distance du clavier |
| Textuel | Ocraug | remplaçant | Simuler l'erreur du moteur OCR | |
| Textuel | Randomaug | insérer, substituer, échanger, supprimer | Appliquer l'augmentation au hasard | |
| Textuel | Mot | Antonymaug | remplaçant | Substituer le mot de sens opposé selon WordNet Antonym |
| Textuel | Contextualwordembsaug | insérer, substituer | Nourrir le mot de l'environnement au modèle de langue Bert, Distilbert, Roberta ou XLNET pour découvrir le mot le plus costume pour l'augmentation | |
| Textuel | Randomwordaug | échanger, récolter, supprimer | Appliquer l'augmentation au hasard | |
| Textuel | Orthographier | remplaçant | Mot de substitut selon le dictionnaire d'erreur d'orthographe | |
| Textuel | Fractionnaire | diviser | Diviser un mot en deux mots au hasard | |
| Textuel | Synonymaug | remplaçant | Remplacez le mot similaire selon WordNet / PPDB Synonyme | |
| Textuel | Tfidfaug | insérer, substituer | Utilisez TF-IDF pour savoir comment le mot doit être augmenté | |
| Textuel | Wordembsaug | insérer, substituer | Levier Word2Vec, Glove ou FastText intégration pour appliquer une augmentation | |
| Textuel | Backtranslationaug | remplaçant | Tirez parti de deux modèles de traduction pour l'augmentation | |
| Textuel | Réservé | remplaçant | Remplacer les mots réservés | |
| Textuel | Phrase | Contextualwordembsforsendenableaug | insérer | Insérez la phrase selon la prédiction XLNET, GPT2 ou DISTILGPT2 |
| Textuel | Abstsummaug | remplaçant | Résumer l'article par la méthode de résumé abstractif | |
| Textuel | Lambadaaug | remplaçant | Utilisation du modèle de langue pour générer du texte, puis en utilisant un modèle de classification pour conserver des résultats de haute qualité | |
| Signal | Audio | Cropaug | supprimer | Supprimer le segment de l'audio |
| Signal | Vigound | remplaçant | Ajustez le volume de l'audio | |
| Signal | Maskaug | remplaçant | Mask Audio segment | |
| Signal | Noseaug | remplaçant | Injecter le bruit | |
| Signal | Pitchaug | remplaçant | Ajuster la hauteur de l'audio | |
| Signal | Shiftaug | remplaçant | Dimension de temps de changement de temps en avant / en arrière | |
| Signal | Speedaug | remplaçant | Ajustez la vitesse de l'audio | |
| Signal | Vtlpaug | remplaçant | Changer le tractus vocal | |
| Signal | Normalizeaug | remplaçant | Normaliser l'audio | |
| Signal | PolarityInverseaug | remplaçant | Échangez positif et négatif pour l'audio | |
| Signal | Spectrogramme | Fréquence Maskingaug | remplaçant | Définir le bloc de valeurs à zéro selon la dimension de fréquence |
| Signal | Chronologie | remplaçant | Définir le bloc de valeurs à zéro en fonction de la dimension temporelle | |
| Signal | Vigound | remplaçant | Ajuster le volume |
| Augmentant | Augmentant | Description |
|---|---|---|
| Pipeline | Séquentiel | Appliquer la liste des fonctions d'augmentation séquentiellement |
| Pipeline | Parfois | Appliquer certaines fonctions d'augmentation au hasard |
La bibliothèque prend en charge Python 3.5+ dans la plate-forme Linux et Window.
Pour installer la bibliothèque:
pip install numpy requests nlpaugou installer la dernière version (inclure les fonctionnalités bêta) à partir de github directement
pip install numpy git+https://github.com/makcedward/nlpaug.gitou installer sur conda
conda install -c makcedward nlpaugSi vous utilisez BackTranslationAug, ContextualWordEmbsaug, ContextualEmbsForsensenCeug et Abstsumaug, installant également les dépendances suivantes
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceSi vous utilisez Lambadaaug, l'installation également des dépendances suivantes
pip install simpletransformers > =0.61.10Si vous utilisez Antonymaug, Synonymaug, en installant également les dépendances suivantes
pip install nltk > =3.4.5Si vous utilisez WordEmbsaug (Word2Vec, Glove ou FastText), téléchargez d'abord le modèle pré-formé et installez également les dépendances suivantes
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Si vous utilisez Synonymaug (PPDB), téléchargez le fichier à partir de l'URI suivant. Vous ne pouvez pas exécuter l'augmentation si vous obtenez un fichier PPDB à partir d'un autre site Web
http://paraphrase.org/ # /downloadSi vous utilisez Pitchaug, Speedaug et Vtlpaug, l'installation également des dépendances suivantes
pip install librosa > =0.9.1 matplotlibVoir Changelog pour plus de détails.
Cette bibliothèque utilise des données (par exemple, capturer à partir d'Internet), la recherche (par exemple après l'idée augmentée), le modèle (par exemple, à l'aide du modèle pré-formé), voir la source de données pour plus de détails.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Ce package est cité par de nombreux livres, atelier et documents de recherche universitaire (70+). Voici quelques exemples et vous pouvez visiter ici pour obtenir la liste complète.
Sakares Saengkaew | Binoy Dalal | Emrecan Çelik |