
Эта библиотека Python помогает вам в увеличении NLP для ваших проектов машинного обучения. Посетите это введение, чтобы понять увеличение данных в НЛП. Augmenter является основным элементом увеличения, в то время как Flow является трубопроводом для Orchestra Multi Augmenter вместе.


| Раздел | Описание |
|---|---|
| Быстрая демонстрация | Как использовать эту библиотеку |
| Aegmenter | Представьте все доступные методы увеличения |
| Установка | Как установить эту библиотеку |
| Недавние изменения | Последнее улучшение |
| Чтение расширения | Больше реальных примеров или исследований |
| Ссылка | Ссылка на внешние ресурсы, такие как данные или модель |
| Aegmenter | Цель | Aegmenter | Действие | Описание |
|---|---|---|---|---|
| Текстовый | Характер | Клавишник | заменять | Смодели по ошибке расстояния клавиатуры |
| Текстовый | Окрауг | заменять | Имитировать ошибку двигателя OCR | |
| Текстовый | Рандомауг | вставить, заменить, обмениваться, удалить | Применить увеличение случайным образом | |
| Текстовый | Слово | Антонимауг | заменять | Заменить противоположное значение слова в соответствии с Antonym Wordnet |
| Текстовый | Контекстуальные слова | вставить, заменить | Модель питания в обстановке слова для Берта, Дистильберта, Роберты или XLnet Language, чтобы узнать наиболее подходящее слово для увеличения | |
| Текстовый | Случайный слов | Смена, урожай, удалить | Применить увеличение случайным образом | |
| Текстовый | Переписка | заменять | Заменить слово в соответствии с словарями орфографической ошибки | |
| Текстовый | Сплит | расколоть | Разделите одно слово на два слова случайным образом | |
| Текстовый | Synonymaug | заменять | Заменить аналогичное слово в соответствии с синонимом Wordnet/ PPDB | |
| Текстовый | Tfidfaug | вставить, заменить | Используйте TF-IDF, чтобы выяснить, как слово должно быть дополнено | |
| Текстовый | Wordembsaug | вставить, заменить | Использование Word2VEC, перчатки или быстрого текста для применения увеличения | |
| Текстовый | Backtranslationaug | заменять | Используйте две модели перевода для увеличения | |
| Текстовый | Зарезервированный | заменять | Заменить зарезервированные слова | |
| Текстовый | Предложение | Контекстуальные слова | вставлять | Вставьте предложение в соответствии с прогнозом XLnet, GPT2 или Distilgpt2 |
| Текстовый | Abstsummaug | заменять | Суммируйте статью методом абстрактной суммирования | |
| Текстовый | Ламбадаауг | заменять | Использование языковой модели для генерации текста, а затем использования классификационной модели для сохранения высококачественных результатов | |
| Сигнал | Аудио | Cropaug | удалить | Удалить сегмент аудио |
| Сигнал | Громкость | заменять | Настроить громкость Audio | |
| Сигнал | Маскауг | заменять | Маска аудио сегмент | |
| Сигнал | Noiseaug | заменять | Впрыскивать шум | |
| Сигнал | Pitchaug | заменять | Отрегулируйте шаг Audio | |
| Сигнал | Shiftauug | заменять | Размер времени сдвига вперед/ назад | |
| Сигнал | Speedaug | заменять | Отрегулируйте скорость аудио | |
| Сигнал | Vtlpaug | заменять | Изменить вокальный тракт | |
| Сигнал | Normalizeaug | заменять | Нормализовать аудио | |
| Сигнал | PolarityInverseaug | заменять | Обмениваться положительным и отрицательным на аудио | |
| Сигнал | Спектрограмма | Частота мамашинга | заменять | Установите блок значений на ноль в соответствии с частотным измерением |
| Сигнал | Timemaskingaug | заменять | Установите блок значений на ноль в соответствии с измерением времени | |
| Сигнал | Громкость | заменять | Отрегулировать громкость |
| Aegmenter | Aegmenter | Описание |
|---|---|---|
| Трубопровод | Последовательный | Применить список функций увеличения последовательно |
| Трубопровод | Иногда | Примените некоторые функции увеличения случайным образом |
Библиотека поддерживает Python 3.5+ в Linux и Window Platform.
Чтобы установить библиотеку:
pip install numpy requests nlpaugили установите последнюю версию (включайте бета -функции) от GitHub напрямую
pip install numpy git+https://github.com/makcedward/nlpaug.gitили установить через Conda
conda install -c makcedward nlpaugЕсли вы используете BackTranslationAug, Contextual Wordsembsaug, ContextularwordEmbsForsEntEnceaug и Abstsummaug, также установив следующие зависимости
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceЕсли вы используете Lambadaaug, также установите следующие зависимости
pip install simpletransformers > =0.61.10Если вы используете AntonyMaug, Synonymany, установка и следующие зависимости
pip install nltk > =3.4.5Если вы используете WordEmbsAug (Word2VEC, перчаток или быстрый текст), сначала загрузка предварительно обученной модели, а также установить следующие зависимости
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Если вы используете Synonymaug (PPDB), загрузка файла из следующего URI. Возможно, вы не сможете запустить Augmenter, если вы получите файл PPDB с другого веб -сайта
http://paraphrase.org/ # /downloadЕсли вы используете Pitchaug, Speedaug и Vtlpaug, установите и следующие зависимости
pip install librosa > =0.9.1 matplotlibСм. Уэмментог для более подробной информации.
В этой библиотеке используются данные (например, захват из Интернета), исследования (например, следуя идее Augmenter), модель (например, с использованием предварительно обученной модели) см. Источник данных для получения более подробной информации.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Этот пакет цитируется многими книгами, семинаром и академическими исследовательскими статьями (70+). Вот некоторые из примеров, и вы можете посетить здесь, чтобы получить полный список.
Сакарес Саенгкав | Биной Далал | Эмрекан Челик |