nlpaug
Release 1.1.11

这个Python库可帮助您为机器学习项目增强NLP。请访问此简介,以了解NLP中的数据增强。 Augmenter是增强的基本要素,而Flow是乐团多增强器的管道。


| 部分 | 描述 |
|---|---|
| 快速演示 | 如何使用此库 |
| 增强器 | 介绍所有可用的增强方法 |
| 安装 | 如何安装此库 |
| 最近的变化 | 最新增强 |
| 扩展阅读 | 更多现实生活中的例子或研究 |
| 参考 | 参考外部资源,例如数据或模型 |
| 增强器 | 目标 | 增强器 | 行动 | 描述 |
|---|---|---|---|---|
| 文字 | 特点 | 键盘格 | 代替 | 模拟键盘距离错误 |
| 文字 | OCRAUG | 代替 | 模拟OCR引擎错误 | |
| 文字 | Randomaug | 插入,替代,交换,删除 | 随机应用增强 | |
| 文字 | 单词 | Antonyaug | 代替 | 根据WordNet反义词代替相反的含义单词 |
| 文字 | ContextualWordeMbsaug | 插入,替代 | 喂食周围的词,贝特,迪士伯特,罗伯塔或xlnet语言模型,以找出最大的套件词 | |
| 文字 | Randomwordaug | 交换,农作物,删除 | 随机应用增强 | |
| 文字 | Spellingaug | 代替 | 根据拼写错误词典替换单词 | |
| 文字 | Splitaug | 分裂 | 将一个单词分为两个单词随机 | |
| 文字 | 同步 | 代替 | 根据WordNet/ PPDB的同义词代替类似的单词 | |
| 文字 | tfidfaug | 插入,替代 | 使用tf-idf找出应该如何增强单词 | |
| 文字 | Wordembsaug | 插入,替代 | 利用Word2Vec,手套或FastText嵌入以应用增强 | |
| 文字 | 退化 | 代替 | 利用两种翻译模型进行增强 | |
| 文字 | 保留 | 代替 | 更换保留的单词 | |
| 文字 | 句子 | contextualwordembsforsenceAug | 插入 | 根据XLNET,GPT2或DISTILGPT2预测插入句子 |
| 文字 | Abstsummaug | 代替 | 通过抽象摘要方法汇总文章 | |
| 文字 | LAMBAANDAUG | 代替 | 使用语言模型生成文本,然后使用分类模型保留高质量结果 | |
| 信号 | 声音的 | 杂技 | 删除 | 删除音频段 |
| 信号 | Loudnessaug | 代替 | 调整音频的音量 | |
| 信号 | Maskaug | 代替 | 蒙版音频的段 | |
| 信号 | 吵闹 | 代替 | 注入噪声 | |
| 信号 | Pitchaug | 代替 | 调整音频的音高 | |
| 信号 | Shiftaug | 代替 | 向前/向后移动时间尺寸 | |
| 信号 | Speedaug | 代替 | 调整音频的速度 | |
| 信号 | vtlpaug | 代替 | 更改声带 | |
| 信号 | ranasonizeaug | 代替 | 标准化音频 | |
| 信号 | PolarityInverseaug | 代替 | 交换正面和负面的音频 | |
| 信号 | 频谱图 | foryshmaskingaug | 代替 | 根据频率维度将值块设置为零 |
| 信号 | Timemaskingaug | 代替 | 根据时间维度将值块设置为零 | |
| 信号 | Loudnessaug | 代替 | 调整音量 |
| 增强器 | 增强器 | 描述 |
|---|---|---|
| 管道 | 顺序 | 顺序应用增强功能列表 |
| 管道 | 有时 | 随机应用一些增强功能 |
该库支持Linux和Window平台中的Python 3.5+。
要安装库:
pip install numpy requests nlpaug或直接从GitHub安装最新版本(包括Beta功能)
pip install numpy git+https://github.com/makcedward/nlpaug.git或安装在Conda上
conda install -c makcedward nlpaug如果您使用backtranslationaug,contextualwordembsaug,contextualwordembsforsenceaug和abstsummaug,也安装以下依赖项
pip install torch > =1.6.0 transformers > =4.11.3 sentencepiece如果您使用Lambadaaug,请安装以下依赖项
pip install simpletransformers > =0.61.10如果您使用Antonymaug,同步,也安装以下依赖项
pip install nltk > =3.4.5如果您使用WordEmbsaug(Word2Vec,Glove或FastText),请先下载预训练的模型并安装以下依赖项
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2如果您使用同步(PPDB),请从以下URI下载文件。如果您从其他网站获得PPDB文件,则可能无法运行增强器
http://paraphrase.org/ # /download如果您使用pitchaug,speedaug和vtlpaug,请安装以下依赖项
pip install librosa > =0.9.1 matplotlib有关更多详细信息,请参见ChangElog。
该库使用数据(例如从Internet捕获),研究(例如,增强器的想法之后),模型(例如使用预训练模型)请参见数据源以获取更多详细信息。
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}许多书籍,研讨会和学术研究论文(70+)引用了此包裹。以下是一些示例,您可以访问此处获取完整列表。
Sakares Saengkaew | Binoy Dalal | EmrecanCelik |