Скачать textaugment - Скачать исходный код textaugment

textaugment

Другой исходный код

2.0.0 16-11-2023

Скачать

Textaugment: улучшение классификации коротких текстовых технологий с помощью глобальных методов увеличения

Вы только что нашли текстовое настроение.

Textaugment - это библиотека Python 3 для дополнения текста для приложений обработки естественного языка. Textaugment стоит на гигантских плечах NLTK, Gensim v3.x и TextBlob и хорошо играет с ними.

Благодарности

Пригласите эту статью при использовании этой библиотеки. Версия Arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Функции
Цитата бумага
- Требования
- Установка
- Как использовать
  - Увеличение на основе Word2VEC
  - Увеличение на основе Wordnet
  - Увеличение на основе RTT
Легкое увеличение данных (EDA)
Более простое увеличение данных (AEDA)
Увеличение смешивания
- Выполнение
Благодарности

Функции

Генерировать синтетические данные для повышения производительности модели без ручных усилий
Простая, легкая, простая в использовании библиотеку.
Подключите и играйте к любым фреймворкам машинного обучения (например, Pytorch, Tensorflow, Scikit-learn)
Поддержите текстовые данные

Цитата бумага

Улучшение короткой текстовой классификации с помощью глобальных методов увеличения .

Требования

Питон 3

Следующие программные пакеты являются зависимостями и будут установлены автоматически.

$ pip install numpy nltk gensim==3.8.3 textblob googletrans

Следующий код загружает NLTK Corpus для Wordnet.

 nltk . download ( 'wordnet' )

Следующий код скачивает NLTK Tokenizer. Этот токенизатор делит текст в список предложений, используя неконтролируемый алгоритм для создания модели для сокращения слов, колокатов и слов, которые начинают предложения.

 nltk . download ( 'punkt' )

Следующая загрузка кода по умолчанию модель теггера чар-речи. Часть речи тегат обрабатывает последовательность слов и прикрепляет часть речевой теги к каждому слову.

 nltk . download ( 'averaged_perceptron_tagger' )

Используйте gensim для загрузки предварительно обученной модели Word2VEC. Как Google News от Google Drive.

 import gensim
model = gensim . models . KeyedVectors . load_word2vec_format ( './GoogleNews-vectors-negative300.bin' , binary = True )

Вы также можете использовать Gensim для загрузки быстрого текста Facebook и многоязычных моделей

 import gensim
model = gensim.models.fasttext.load_facebook_model('./cc.en.300.bin.gz')

Или обучение одного с нуля, используя ваши данные или следующего открытого набора данных:

Текст8 Вики
Набор данных из «Определенного эталона моделирования языка слов на один миллиард»

Установка

Установите из PIP [Рекомендуется]

$ pip install textaugment
or install latest release
$ pip install [email protected]:dsfsi/textaugment.git

Установите из источника

$ git clone [email protected]:dsfsi/textaugment.git
$ cd textaugment
$ python setup.py install

Как использовать

Есть три типа увеличения, которые можно использовать:

Word2VEC

 from textaugment import Word2vec

Фасттекст

 from textaugment import Fasttext

Wordnet

 from textaugment import Wordnet

Перевести (это потребует доступа к Интернету)

 from textaugment import Translate

Увеличение FASTTEXT/WORD2VEC

Смотрите этот записной книжку для примера

Основной пример

 > >> from textaugment import Word2vec , Fasttext
> >> t = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good
> >> t = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good

Расширенный пример

 > >> runs = 1 # By default.
> >> v = False # verbose mode to replace all the words. If enabled runs is not effective. Used in this paper (https://www.cs.cmu.edu/~diyiy/docs/emnlp_wang_2015.pdf)
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> word = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> word . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent
> >> fast = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> fast . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent

Увеличение на основе Wordnet

Основной пример

 > >> import nltk
> >> nltk . download ( 'punkt' )
> >> nltk . download ( 'wordnet' )
> >> from textaugment import Wordnet
> >> t = Wordnet ()
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon , John is walking to town

Расширенный пример

 > >> v = True # enable verbs augmentation. By default is True.
> >> n = False # enable nouns augmentation. By default is False.
> >> runs = 1 # number of times to augment a sentence. By default is 1.
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> t = Wordnet ( v = False , n = True , p = 0.5 )
> >> t . augment ( 'In the afternoon, John is going to town' , top_n = 10 )
In the afternoon , Joseph is going to town .

Увеличение на основе RTT

Пример

 > >> src = "en" # source language of the sentence
> >> to = "fr" # target language
> >> from textaugment import Translate
> >> t = Translate ( src = "en" , to = "fr" )
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon John goes to town

EDA: простые методы увеличения данных для повышения производительности в задачах классификации текста

Это реализация EDA Джейсона Вэй и Кай Зоу.

https://www.aclweb.org/anthology/d19-1670.pdf

Смотрите этот записной книжку для примера

Синоним замена

Случайно выбирайте n слов из предложения, которые не останавливают слова. Замените каждое из этих слов одним из его синонимов, выбранных случайным образом.

Основной пример

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . synonym_replacement ( "John is going to town" , top_n = 10 )
John is give out to town

Случайное удаление

Случайно удалить каждое слово в предложении с вероятностью с .

Основной пример

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_deletion ( "John is going to town" , p = 0.2 )
is going to town

Случайный обмен

Случайно выбирайте два слова в предложении и поменяйте их позиции. Сделай это в время.

Основной пример

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_swap ( "John is going to town" )
John town going to is

Случайная вставка

Найдите случайный синоним случайного слова в предложении, которое не является остановским словом. Вставьте этот синоним в случайную позицию в предложении. Сделай это в время

Основной пример

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_insertion ( "John is going to town" )
John is going to make up town

AEDA: более простой метод увеличения данных для классификации текста

Это реализация AEDA Карими и др., Вариант EDA. Он основан на случайной вставке знаков пунктуации.

https://aclanthology.org/2021.findings-emnlp.234.pdf

Выполнение

Смотрите этот записной книжку для примера

Случайная вставка знаков препинания

Основной пример

 > >> from textaugment import AEDA
> >> t = AEDA ()
> >> t . punct_insertion ( "John is going to town" )
! John is going to town

Увеличение смешивания

Это реализация увеличения смешивания Хонги Чжан, Мустафа Сиссе, Янна Дофина, Дэвида Лопеса-Паза, адаптированного к НЛП.

Используется при дополнении данных с помощью смешивания для классификации предложений: эмпирическое исследование.

Mixup - это общий и простой принцип увеличения данных. По сути, смешивание обучает нейронную сеть на выпуклые комбинации пар примеров и их ярлыков. Таким образом, Mixup регулирует нейронную сеть, чтобы поддержать простое линейное поведение между примерами обучения.

Выполнение

Смотрите этот записной книжку для примера

Построен с

Питон

Авторы

Джозеф Сефара (http://www.speechtech.co.za)
Vukosi Marivate (http://www.vima.co.za)

Благодарности

Пригласите эту статью при использовании этой библиотеки. Версия Arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Лицензия

MIT лицензирован. Смотрите в комплекте лицензии в комплекте.

Расширять

Дополнительная информация

Версия 2.0.0 16-11-2023
Тип Другой исходный код
Время обновления 2025-04-15
размер 119.78KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

textaugment

Textaugment: улучшение классификации коротких текстовых технологий с помощью глобальных методов увеличения

Вы только что нашли текстовое настроение.

Благодарности

Оглавление

Функции

Цитата бумага

Требования

Установка

Как использовать

Увеличение FASTTEXT/WORD2VEC

Увеличение на основе Wordnet

Увеличение на основе RTT

EDA: простые методы увеличения данных для повышения производительности в задачах классификации текста

Это реализация EDA Джейсона Вэй и Кай Зоу.

Синоним замена

Случайное удаление

Случайный обмен

Случайная вставка

AEDA: более простой метод увеличения данных для классификации текста

Выполнение

Случайная вставка знаков препинания

Увеличение смешивания

Выполнение

Построен с

Авторы

Благодарности

Лицензия