
Diese Python -Bibliothek hilft Ihnen beim Augmenting NLP für Ihre maschinellen Lernprojekte. Besuchen Sie diese Einführung, um die Datenvergrößerung in NLP zu verstehen. Augmenter ist das grundlegende Element der Augmentation, während Flow zusammen eine Pipeline zum Orchester Multi Augmenter ist.


| Abschnitt | Beschreibung |
|---|---|
| Schnelle Demo | So verwenden Sie diese Bibliothek |
| Augmenter | Führen Sie alle verfügbaren Augmentationsmethoden ein |
| Installation | So installieren Sie diese Bibliothek |
| Jüngste Änderungen | Neueste Verbesserung |
| Verlängerung | Weitere Beispiele oder Forschungen im wirklichen Leben |
| Referenz | Referenz von externen Ressourcen wie Daten oder Modell |
| Augmenter | Ziel | Augmenter | Aktion | Beschreibung |
|---|---|---|---|---|
| Text | Charakter | Keyboardaug | Ersatz | Simulieren Sie den Tastaturentfernungsfehler |
| Text | Ocaug | Ersatz | Simulieren Sie den OCR -Motorfehler | |
| Text | Randomaug | Einlegen, ersetzen, tauschen, löschen | Vergrößerung zufällig anwenden | |
| Text | Wort | Antonymaug | Ersatz | Ersetzen Sie das entgegengesetzte Bedeutungswort nach WordNet Antonymy |
| Text | ContextualWordembsaug | Einfügen, Ersatz | Füttern der Umgebung Wort an Bert, Distilbert, Roberta oder XLNET -Sprachmodell, um das meistklabe Wort für die Augmentation herauszufinden | |
| Text | Randomwordaug | Tauschen, Ernte, löschen | Vergrößerung zufällig anwenden | |
| Text | Spellingaug | Ersatz | Ersetzen Sie das Wort nach Rechtschreibfehlern Dictionary | |
| Text | Splitaug | Teilt | Teilen Sie ein Wort zufällig auf zwei Wörter auf | |
| Text | Synonymaug | Ersatz | Ersetzen Sie ein ähnliches Wort nach WordNet/ PPDB -Synonym | |
| Text | Tfidfaug | Einfügen, Ersatz | Verwenden Sie TF-IDF, um herauszufinden, wie Wort erweitert werden sollte | |
| Text | Wordembsaug | Einfügen, Ersatz | Nutzen Sie Word2VEC-, Handschuh- oder FastText -Einbettungen, um die Augmentation anzuwenden | |
| Text | Backtranslationaug | Ersatz | Nutzen Sie zwei Übersetzungsmodelle für die Augmentation | |
| Text | Reservedaug | Ersatz | Reservierte Wörter ersetzen | |
| Text | Satz | ContextualWordembsForSentCeaug | einfügen | Setzen Sie den Satz gemäß XLNET, GPT2 oder DISTILGPT2 -Vorhersage ein |
| Text | Abstsummaug | Ersatz | Fassen Sie den Artikel nach Abstractive Summarization Methode zusammen | |
| Text | Lambadaaug | Ersatz | Verwenden des Sprachmodells, um Text zu generieren und dann das Klassifizierungsmodell zu verwenden, um qualitativ hochwertige Ergebnisse beizubehalten | |
| Signal | Audio | Cropaug | löschen | Löschen Sie das Segment von Audio |
| Signal | Lautstärke | Ersatz | Passen Sie das Volumen von Audio an | |
| Signal | Maskaug | Ersatz | Maske Audio -Segment | |
| Signal | Noiseaug | Ersatz | Geräusche injizieren | |
| Signal | Pitchaug | Ersatz | Passen Sie Audio's Pitch an | |
| Signal | Shiftaug | Ersatz | Schichtzeitdimension vorwärts/ rückwärts | |
| Signal | Speedaug | Ersatz | Passen Sie die Geschwindigkeit von Audio an | |
| Signal | Vtlpaug | Ersatz | Vokaltrakt ändern | |
| Signal | Normalizeaug | Ersatz | Audio normalisieren | |
| Signal | PolarityInverseaug | Ersatz | Swap positiv und negativ gegen Audio | |
| Signal | Spektrogramm | Frequenzmaskingaug | Ersatz | Stellen Sie den Werteblock nach Frequenzdimension auf Null ein |
| Signal | Timemaskingaug | Ersatz | Stellen Sie den Werteblock gemäß Zeitdimension auf Null fest | |
| Signal | Lautstärke | Ersatz | Volumen einstellen |
| Augmenter | Augmenter | Beschreibung |
|---|---|---|
| Pipeline | Sequentiell | Anwenden Sie die Liste der Augmentationsfunktionen nacheinander an |
| Pipeline | Manchmal | Wenden Sie einige Augmentationsfunktionen zufällig an |
Die Bibliothek unterstützt Python 3.5+ in Linux- und Fensterplattform.
So installieren Sie die Bibliothek:
pip install numpy requests nlpaugOder installieren Sie die neueste Version (Beta -Funktionen) direkt von GitHub
pip install numpy git+https://github.com/makcedward/nlpaug.gitoder über Conda installieren
conda install -c makcedward nlpaugWenn Sie BacktranslationAg, contextualWordembsaug, contextualWordembsForSentCeaug und abstsummaug verwenden, installieren Sie auch die folgenden Abhängigkeiten
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceWenn Sie Lambadaaug verwenden, installieren Sie auch die folgenden Abhängigkeiten
pip install simpletransformers > =0.61.10Wenn Sie Antonymaug verwenden, synonymaug, installieren Sie auch die folgenden Abhängigkeiten
pip install nltk > =3.4.5Wenn Sie Wordembsaug (Word2VEC, Handschuh oder FastText) verwenden, laden Sie zuerst vor ausgebildetes Modell herunter und installieren Sie auch die folgenden Abhängigkeiten
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Wenn Sie Synonymaug (PPDB) verwenden, werden die Datei aus dem folgenden URI heruntergeladen. Möglicherweise können Sie den Augmenter nicht ausführen, wenn Sie eine PPDB -Datei von einer anderen Website erhalten
http://paraphrase.org/ # /downloadWenn Sie PitchAg, Speedaug und VTLPAUG verwenden, installieren Sie auch die folgenden Abhängigkeiten
pip install librosa > =0.9.1 matplotlibWeitere Informationen finden Sie unter ChangeLog.
Diese Bibliothek verwendet Daten (z. B. Erfassung aus dem Internet), Forschung (z. B. nach Augmenter-Idea), Modell (z. B. mit vorgebildetem Modell). Weitere Informationen finden Sie in der Datenquelle.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Dieses Paket wird von vielen Büchern, Workshops und akademischen Forschungsarbeiten (70+) zitiert. Hier sind einige Beispiele und Sie können hier besuchen, um die vollständige Liste zu erhalten.
Sakares Saengkaew | Binoy Dalal | Emrecan Çelik |