nlpaug
Release 1.1.11

這個Python庫可幫助您為機器學習項目增強NLP。請訪問此簡介,以了解NLP中的數據增強。 Augmenter是增強的基本要素,而Flow是樂團多增強器的管道。


| 部分 | 描述 |
|---|---|
| 快速演示 | 如何使用此庫 |
| 增強器 | 介紹所有可用的增強方法 |
| 安裝 | 如何安裝此庫 |
| 最近的變化 | 最新增強 |
| 擴展閱讀 | 更多現實生活中的例子或研究 |
| 參考 | 參考外部資源,例如數據或模型 |
| 增強器 | 目標 | 增強器 | 行動 | 描述 |
|---|---|---|---|---|
| 文字 | 特點 | 鍵盤格 | 代替 | 模擬鍵盤距離錯誤 |
| 文字 | OCRAUG | 代替 | 模擬OCR引擎錯誤 | |
| 文字 | Randomaug | 插入,替代,交換,刪除 | 隨機應用增強 | |
| 文字 | 單詞 | Antonyaug | 代替 | 根據WordNet反義詞代替相反的含義單詞 |
| 文字 | ContextualWordeMbsaug | 插入,替代 | 餵食周圍的詞,貝特,迪士伯特,羅伯塔或xlnet語言模型,以找出最大的套件詞 | |
| 文字 | Randomwordaug | 交換,農作物,刪除 | 隨機應用增強 | |
| 文字 | Spellingaug | 代替 | 根據拼寫錯誤詞典替換單詞 | |
| 文字 | Splitaug | 分裂 | 將一個單詞分為兩個單詞隨機 | |
| 文字 | 同步 | 代替 | 根據WordNet/ PPDB的同義詞代替類似的單詞 | |
| 文字 | tfidfaug | 插入,替代 | 使用tf-idf找出應該如何增強單詞 | |
| 文字 | Wordembsaug | 插入,替代 | 利用Word2Vec,手套或FastText嵌入以應用增強 | |
| 文字 | 退化 | 代替 | 利用兩種翻譯模型進行增強 | |
| 文字 | 保留 | 代替 | 更換保留的單詞 | |
| 文字 | 句子 | contextualwordembsforsenceAug | 插入 | 根據XLNET,GPT2或DISTILGPT2預測插入句子 |
| 文字 | Abstsummaug | 代替 | 通過抽象摘要方法彙總文章 | |
| 文字 | LAMBAANDAUG | 代替 | 使用語言模型生成文本,然後使用分類模型保留高質量結果 | |
| 訊號 | 聲音的 | 雜技 | 刪除 | 刪除音頻段 |
| 訊號 | Loudnessaug | 代替 | 調整音頻的音量 | |
| 訊號 | Maskaug | 代替 | 蒙版音頻的段 | |
| 訊號 | 吵鬧 | 代替 | 注入噪聲 | |
| 訊號 | Pitchaug | 代替 | 調整音頻的音高 | |
| 訊號 | Shiftaug | 代替 | 向前/向後移動時間尺寸 | |
| 訊號 | Speedaug | 代替 | 調整音頻的速度 | |
| 訊號 | vtlpaug | 代替 | 更改聲帶 | |
| 訊號 | ranasonizeaug | 代替 | 標準化音頻 | |
| 訊號 | PolarityInverseaug | 代替 | 交換正面和負面的音頻 | |
| 訊號 | 頻譜圖 | foryshmaskingaug | 代替 | 根據頻率維度將值塊設置為零 |
| 訊號 | Timemaskingaug | 代替 | 根據時間維度將值塊設置為零 | |
| 訊號 | Loudnessaug | 代替 | 調整音量 |
| 增強器 | 增強器 | 描述 |
|---|---|---|
| 管道 | 順序 | 順序應用增強功能列表 |
| 管道 | 有時 | 隨機應用一些增強功能 |
該庫支持Linux和Window平台中的Python 3.5+。
要安裝庫:
pip install numpy requests nlpaug或直接從GitHub安裝最新版本(包括Beta功能)
pip install numpy git+https://github.com/makcedward/nlpaug.git或安裝在Conda上
conda install -c makcedward nlpaug如果您使用backtranslationaug,contextualwordembsaug,contextualwordembsforsenceaug和abstsummaug,也安裝以下依賴項
pip install torch > =1.6.0 transformers > =4.11.3 sentencepiece如果您使用Lambadaaug,請安裝以下依賴項
pip install simpletransformers > =0.61.10如果您使用Antonymaug,同步,也安裝以下依賴項
pip install nltk > =3.4.5如果您使用WordEmbsaug(Word2Vec,Glove或FastText),請先下載預訓練的模型並安裝以下依賴項
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2如果您使用同步(PPDB),請從以下URI下載文件。如果您從其他網站獲得PPDB文件,則可能無法運行增強器
http://paraphrase.org/ # /download如果您使用pitchaug,speedaug和vtlpaug,請安裝以下依賴項
pip install librosa > =0.9.1 matplotlib有關更多詳細信息,請參見ChangElog。
該庫使用數據(例如從Internet捕獲),研究(例如,增強器的想法之後),模型(例如使用預訓練模型)請參見數據源以獲取更多詳細信息。
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}許多書籍,研討會和學術研究論文(70+)引用了此包裹。以下是一些示例,您可以訪問此處獲取完整列表。
Sakares Saengkaew | Binoy Dalal | EmrecanCelik |