
Esta biblioteca de Python te ayuda a aumentar la PNL para tus proyectos de aprendizaje automático. Visite esta introducción para comprender sobre el aumento de datos en PNL. Augmenter es el elemento básico del aumento, mientras que Flow es una tubería para la orquesta múltiple el aumento juntos.


| Sección | Descripción |
|---|---|
| Demostración rápida | Cómo usar esta biblioteca |
| Aumentador | Introducir todos los métodos de aumento disponibles |
| Instalación | Cómo instalar esta biblioteca |
| Cambios recientes | Última mejora |
| Lectura de extensión | Más ejemplos o investigaciones de la vida real |
| Referencia | Referencia de recursos externos como datos o modelo |
| Aumentador | Objetivo | Aumentador | Acción | Descripción |
|---|---|---|---|---|
| Textual | Personaje | Teclado | sustituto | Simular Error de distancia del teclado |
| Textual | Ocraug | sustituto | Simular el error del motor OCR | |
| Textual | Randomaug | insertar, sustituir, intercambiar, eliminar | Aplicar el aumento al azar | |
| Textual | Palabra | Antonymaug | sustituto | Sustituir la palabra de significado opuesto según Wordnet Antonym |
| Textual | ContextualwordEmbsaug | insertar, sustituir | Modelo de lenguaje de Feeding Surrounding a Bert, Distilbert, Roberta o XLNet para descubrir la palabra más adecuada para el aumento | |
| Textual | Reanagala | intercambiar, cultivar, eliminar | Aplicar el aumento al azar | |
| Textual | Ortografía | sustituto | Palabra sustituta de acuerdo con el Diccionario de error de ortografía | |
| Textual | División | dividir | Dividir una palabra a dos palabras al azar | |
| Textual | Sinonymaug | sustituto | Sustituya una palabra similar de acuerdo con WordNet/ PPDB sinónimo | |
| Textual | Tfidfaug | insertar, sustituir | Use TF-IDF para averiguar cómo se debe aumentar la palabra | |
| Textual | WordembsAug | insertar, sustituir | Aproveche Word2Vec, Glove o FastText Incrustes para aplicar el aumento | |
| Textual | Backtradatación | sustituto | Aprovechar dos modelos de traducción para el aumento | |
| Textual | Reservado | sustituto | Reemplazar palabras reservadas | |
| Textual | Oración | ContextualwordEmbsforsentenceaug | insertar | Insertar oración de acuerdo con la predicción XLNet, GPT2 o DistilPpt2 |
| Textual | Abstsummaug | sustituto | Resumir el artículo por método de resumen abstracto | |
| Textual | Lambadaaug | sustituto | Uso del modelo de idioma para generar texto y luego usar el modelo de clasificación para retener resultados de alta calidad | |
| Señal | Audio | Cultivo | borrar | Eliminar el segmento de audio |
| Señal | Volumen | sustituto | Ajustar el volumen de audio | |
| Señal | Máscara | sustituto | Enmascarar el segmento de audio | |
| Señal | Noiseaug | sustituto | Inyectar ruido | |
| Señal | Pitchal | sustituto | Ajustar el tono de audio | |
| Señal | Choque | sustituto | Dimensión de tiempo de cambio hacia adelante/ hacia atrás | |
| Señal | Velog | sustituto | Ajustar la velocidad de audio | |
| Señal | Vtlpaug | sustituto | Cambiar el tracto vocal | |
| Señal | Normalizeaug | sustituto | Normalizar audio | |
| Señal | PolarityInverseaug | sustituto | Intercambio positivo y negativo por audio | |
| Señal | Espectrograma | Frecuencia masterkingaug | sustituto | Establecer bloque de valores a cero según la dimensión de frecuencia |
| Señal | Timemaskingaug | sustituto | Establecer bloque de valores a cero según la dimensión de tiempo | |
| Señal | Volumen | sustituto | Volumen de ajuste |
| Aumentador | Aumentador | Descripción |
|---|---|---|
| Tubería | Secuencial | Aplicar la lista de funciones de aumento secuencialmente |
| Tubería | A veces | Aplicar algunas funciones de aumento al azar |
La biblioteca admite Python 3.5+ en la plataforma Linux y Window.
Para instalar la biblioteca:
pip install numpy requests nlpaugo instale la última versión (incluya funciones beta) desde GitHub directamente
pip install numpy git+https://github.com/makcedward/nlpaug.gito instalar sobre conda
conda install -c makcedward nlpaugSi usa backtranslationAug, contextualwordEmbsaug, contextualwordembsforsentenceaug y abstsummaug, instalando las siguientes dependencias también
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceSi usa lambadaaug, instalar las siguientes dependencias también
pip install simpletransformers > =0.61.10Si usa AntonyMaug, SynonyMaug, instalando las siguientes dependencias también
pip install nltk > =3.4.5Si usa WordEmbsaug (Word2Vec, Glove o FastText), descargue primero el modelo previamente capacitado e instalando las siguientes dependencias también
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Si usa SynonyMaug (PPDB), descargue el archivo de la siguiente URI. Es posible que no pueda ejecutar el Aumenter si obtiene el archivo PPDB de otro sitio web
http://paraphrase.org/ # /downloadSi usa PitchAug, SpeedAug y VTLPAUG, instalando las siguientes dependencias también
pip install librosa > =0.9.1 matplotlibVea ChangeLog para más detalles.
Esta biblioteca utiliza datos (por ejemplo, capturación de Internet), investigación (por ejemplo, después de la idea de aumento), el modelo (por ejemplo, utilizando el modelo previamente capacitado) Consulte la fuente de datos para obtener más detalles.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Este paquete es citado por muchos libros, talleres y trabajos de investigación académica (más de 70). Estos son algunos de los ejemplos y puede visitar aquí para obtener la lista completa.
Sakares Saengkaew | Binoy Dalal | Emrecan çelik |