
このPythonライブラリは、機械学習プロジェクトのNLPを増強するのに役立ちます。 NLPでのデータ増強について理解するには、この紹介をご覧ください。 Augmenterは増強の基本的な要素であり、 Flowオーケストラマルチ拡張器へのパイプラインです。


| セクション | 説明 |
|---|---|
| クイックデモ | このライブラリの使用方法 |
| 拡張器 | 利用可能なすべての増強方法を紹介します |
| インストール | このライブラリをインストールする方法 |
| 最近の変更 | 最新の強化 |
| 拡張読み取り | より現実的な例や研究 |
| 参照 | データやモデルなどの外部リソースの参照 |
| 拡張器 | ターゲット | 拡張器 | アクション | 説明 |
|---|---|---|---|---|
| テキスト | キャラクター | keyboardaug | 代わりの | キーボード距離エラーをシミュレートします |
| テキスト | ocraug | 代わりの | OCRエンジンエラーをシミュレートします | |
| テキスト | ランダム | 挿入、代用、スワップ、削除 | 拡張をランダムに適用します | |
| テキスト | 言葉 | antonymaug | 代わりの | WordNetの反意語に従って、反対の意味単語を置き換えます |
| テキスト | contextualwordembsaug | 挿入、代用してください | バート、ディスティルバート、ロベルタ、またはXLNET言語モデルに環境を供給して、増強のための最も訴訟の言葉を見つける | |
| テキスト | randomwordaug | 交換、作物、削除 | 拡張をランダムに適用します | |
| テキスト | spellingaug | 代わりの | スペルミス辞書に従って単語を置き換えます | |
| テキスト | splitaug | スプリット | ランダムに1つの単語を2つの単語に分割します | |
| テキスト | Synonymaug | 代わりの | WordNet/ PPDB同義語に従って同様の単語を置き換えます | |
| テキスト | tfidfaug | 挿入、代用してください | TF-IDFを使用して、単語をどのように拡張すべきかを調べる | |
| テキスト | wordembsaug | 挿入、代用してください | Word2vec、グローブ、またはFastText埋め込みを活用して、増強を適用します | |
| テキスト | バックトランスルーション | 代わりの | 増強のために2つの翻訳モデルを活用します | |
| テキスト | 予約済み | 代わりの | 予約された単語を置き換えます | |
| テキスト | 文 | ContextualWordembsforSentenceaug | 入れる | XLNET、GPT2、またはDistilGPT2予測に従って文を挿入します |
| テキスト | abstsummaug | 代わりの | 抽象的要約法による記事を要約します | |
| テキスト | Lambadaaug | 代わりの | 言語モデルを使用してテキストを生成し、分類モデルを使用して高品質の結果を維持する | |
| 信号 | オーディオ | Cropaug | 消去 | オーディオのセグメントを削除します |
| 信号 | loudnessaug | 代わりの | オーディオのボリュームを調整します | |
| 信号 | Maskaug | 代わりの | オーディオのセグメントをマスクします | |
| 信号 | noiseaug | 代わりの | 注入ノイズ | |
| 信号 | ピタウグ | 代わりの | オーディオのピッチを調整します | |
| 信号 | Shiftaug | 代わりの | シフト時間寸法は前方/後方にシフトします | |
| 信号 | SpeedAug | 代わりの | オーディオの速度を調整します | |
| 信号 | vtlpaug | 代わりの | 声帯を変更します | |
| 信号 | normalizeaug | 代わりの | オーディオを正常化します | |
| 信号 | PolarityInverseaug | 代わりの | オーディオにポジティブとネガティブを交換します | |
| 信号 | スペクトログラム | FuelchedMaskingaug | 代わりの | 周波数寸法に応じて値のブロックをゼロに設定します |
| 信号 | Timemaskingaug | 代わりの | 時間のディメンションに応じて値のブロックをゼロに設定します | |
| 信号 | loudnessaug | 代わりの | ボリュームを調整します |
| 拡張器 | 拡張器 | 説明 |
|---|---|---|
| パイプライン | 一連 | 増強関数のリストを順番に適用します |
| パイプライン | 時々 | いくつかの増強関数をランダムに適用します |
ライブラリは、LinuxおよびWindowプラットフォームでPython 3.5+をサポートしています。
ライブラリをインストールするには:
pip install numpy requests nlpaugまたは、GitHubから直接最新バージョン(ベータ機能を含める)をインストールします
pip install numpy git+https://github.com/makcedward/nlpaug.gitまたはコンドラにインストールします
conda install -c makcedward nlpaugBack TranslationAug、ContextualWordembsaug、ContextUalwordembsforSentenceaug、abstsummaugを使用する場合、次の依存関係もインストールします
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceLambadaaugを使用する場合は、次の依存関係もインストールしています
pip install simpletransformers > =0.61.10Antonymaug、Synonymaugを使用する場合、次の依存関係もインストールします
pip install nltk > =3.4.5wordembsaug(word2vec、glove、またはfasttext)を使用する場合は、最初に事前に訓練されたモデルをダウンロードして、次の依存関係もインストールします
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2SynonyMaug(PPDB)を使用する場合は、次のURIからファイルをダウンロードします。他のWebサイトからPPDBファイルを取得した場合、Augmenterを実行できない場合があります
http://paraphrase.org/ # /downloadBiteaug、Speedaug、vtlpaugを使用する場合、次の依存関係もインストールします
pip install librosa > =0.9.1 matplotlib詳細については、changelogを参照してください。
このライブラリでは、データ(インターネットからのキャプチャなど)、研究(例えば、Augmenter Ideaをフォローする)、モデル(例:事前訓練されたモデルの使用)を使用して、詳細についてはデータソースを参照してください。
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}このパッケージは、多くの本、ワークショップ、学術研究論文(70歳以上)で引用されています。ここにいくつかの例があり、完全なリストを取得するためにここにアクセスすることができます。
sakares saengkaew | ビノイダラル | エムレカンゼリク |