
Esta biblioteca Python ajuda você a aumentar a PNL para seus projetos de aprendizado de máquina. Visite esta introdução para entender sobre o aumento de dados na PNL. Augmenter é o elemento básico de aumento, enquanto Flow é um pipeline para o Orchestra Multi Augmenter.


| Seção | Descrição |
|---|---|
| Demonstração rápida | Como usar esta biblioteca |
| AUMPENTE | Introduzir todos os métodos de aumento disponíveis |
| Instalação | Como instalar esta biblioteca |
| Mudanças recentes | Mais recente aprimoramento |
| Leitura de extensão | Mais exemplos ou pesquisas da vida real |
| Referência | Referência de recursos externos, como dados ou modelo |
| AUMPENTE | Alvo | AUMPENTE | Ação | Descrição |
|---|---|---|---|---|
| Textual | Personagem | Keyboardaug | substituir | Simular erro de distância do teclado |
| Textual | Ocraug | substituir | Simular o erro do motor OCR | |
| Textual | Randomaug | inserir, substituir, trocar, excluir | Aplique o aumento aleatoriamente | |
| Textual | Palavra | Antonymaug | substituir | Substituto oposto significa palavra de acordo com o Antônimo WordNet |
| Textual | ContextualwordEmbssaug | inserir, substituto | Alimentando arredores Palavra para Bert, Distilbert, Roberta ou XLNET Modelo de linguagem para descobrir a palavra mais pretlabe para aumento | |
| Textual | RandomwordAug | Troque, corte, exclua | Aplique o aumento aleatoriamente | |
| Textual | Splingaug | substituir | Palavra substituta de acordo com o erro de ortografia Dicionário | |
| Textual | Splitaug | dividir | Divida uma palavra a duas palavras aleatoriamente | |
| Textual | Sinonymaug | substituir | Substitua palavra semelhante de acordo com o sinônimo WordNet/ PPDB | |
| Textual | Tfidfaug | inserir, substituto | Use TF-IDF para descobrir como a palavra deve ser aumentada | |
| Textual | Wordembsaug | inserir, substituto | Alavance as incorporações Word2Vec, Glove ou FastText para aplicar o aumento | |
| Textual | BackTranslationAug | substituir | Aproveite dois modelos de tradução para aumento | |
| Textual | Reservastag | substituir | Substitua as palavras reservadas | |
| Textual | Frase | ContextualwordEmbsForSenceAuG | inserir | Insira a frase de acordo com a previsão XLNET, GPT2 ou DISTILGPT2 |
| Textual | Abstsummaug | substituir | Resumir o artigo por método de resumo abstrato | |
| Textual | Lambadaaug | substituir | Usando o modelo de linguagem para gerar texto e depois usar o modelo de classificação para reter resultados de alta qualidade | |
| Sinal | Áudio | CropAug | excluir | Exclua o segmento do Audio |
| Sinal | Sonordeaug | substituir | Ajuste o volume do áudio | |
| Sinal | Maskaug | substituir | Máscara o segmento do Audio | |
| Sinal | NoiseAug | substituir | Injetar ruído | |
| Sinal | Pitcheug | substituir | Ajuste o tom do áudio | |
| Sinal | ShiftAug | substituir | Dimensão do tempo de mudança para frente/ para trás | |
| Sinal | SpeedAug | substituir | Ajuste a velocidade do áudio | |
| Sinal | Vtlpaug | substituir | Mude o trato vocal | |
| Sinal | NormizeAuG | substituir | Normalize áudio | |
| Sinal | PolarityInverseaug | substituir | Troque positivo e negativo para o áudio | |
| Sinal | Espectrograma | FrequencymaskingAug | substituir | Defina o bloco de valores como zero de acordo com a dimensão da frequência |
| Sinal | TimemaskingAug | substituir | Defina o bloco de valores como zero de acordo com a dimensão do tempo | |
| Sinal | Sonordeaug | substituir | Ajuste o volume |
| AUMPENTE | AUMPENTE | Descrição |
|---|---|---|
| Oleoduto | Sequencial | Aplicar a lista de funções de aumento sequencialmente |
| Oleoduto | Às vezes | Aplique algumas funções de aumento aleatoriamente |
A biblioteca suporta o Python 3.5+ na plataforma Linux e Window.
Para instalar a biblioteca:
pip install numpy requests nlpaugou instale a versão mais recente (inclua recursos beta) do GitHub diretamente
pip install numpy git+https://github.com/makcedward/nlpaug.gitou instalar em vez
conda install -c makcedward nlpaugSe você usar backtranslationaug, contextualwordembsaug, contextualwordembesborsEntenceaug e abstsummaug, instalando as seguintes dependências também
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceSe você usar Lambadaaug, instalando as seguintes dependências também
pip install simpletransformers > =0.61.10Se você usar Antonymaug, sinonymaug, instalando as seguintes dependências também
pip install nltk > =3.4.5Se você usar o wordembsaug (word2vec, luva ou texto rápido), baixando o modelo pré-treinado primeiro e instalando as seguintes dependências também
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Se você usar o SynonyMaug (PPDB), baixando o arquivo do seguinte URI. Você pode não ser capaz de executar o aumento se obtiver arquivo ppdb de outro site
http://paraphrase.org/ # /downloadSe você usar pitchaug, speedaug e vtlpaug, instalando as seguintes dependências também
pip install librosa > =0.9.1 matplotlibVeja Changelog para obter mais detalhes.
Esta biblioteca usa dados (por exemplo, captura da Internet), pesquisa (por exemplo, seguindo a idéia do aumento do aumento), modelo (por exemplo, usando modelo pré-treinado), consulte a fonte de dados para obter mais detalhes.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Este pacote é citado por muitos livros, oficinas e trabalhos de pesquisa acadêmica (70+). Aqui estão alguns exemplos e você pode visitar aqui para obter a lista completa.
Sakares Saengkaew | Binoy Dalal | Emrecan Çelik |