Téléchargement textaugment - Téléchargement du code source textaugment

textaugment

Autre code source

2.0.0 16-11-2023

Télécharger

Texte: amélioration de la classification de texte courte grâce à des méthodes d'augmentation globales

Vous venez de trouver du texte.

TextAugment est une bibliothèque Python 3 pour augmenter le texte pour les applications de traitement du langage naturel. TextAugment se dresse sur les épaules géantes de NLTK, Gensim V3.x et TextBlob et joue bien avec eux.

Remerciements

Citez cet article lorsque vous utilisez cette bibliothèque. Version arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Table des matières

Caractéristiques
Document de citation
- Exigences
- Installation
- Comment utiliser
  - Augmentation basée sur Word2Vec
  - Augmentation basée sur WordNet
  - Augmentation basée sur RTT
Augmentation facile des données (EDA)
Une augmentation des données plus facile (AEDA)
Augmentation de mélange
- Mise en œuvre
Remerciements

Caractéristiques

Générer des données synthétiques pour améliorer les performances du modèle sans effort manuel
Bibliothèque simple, légère et facile à utiliser.
Branchez-vous sur tous les cadres d'apprentissage automatique (par exemple Pytorch, TensorFlow, Scikit-Learn)
Prendre en charge les données textuelles

Document de citation

Amélioration de la classification de texte courte grâce à des méthodes d'augmentation globales .

Exigences

Python 3

Les packages logiciels suivants sont des dépendances et seront installés automatiquement.

$ pip install numpy nltk gensim==3.8.3 textblob googletrans

Le code suivant télécharge NLTK Corpus pour WordNet.

 nltk . download ( 'wordnet' )

Le code suivant télécharge NLTK Tokenizer. Ce tokenizer divise un texte en une liste de phrases en utilisant un algorithme non supervisé pour construire un modèle pour les mots d'abréviation, les collocations et les mots qui commencent les phrases.

 nltk . download ( 'punkt' )

Le code suivant télécharge le modèle de tagger par défaut par défaut NLTK. Une partie du tagger de discours traite une séquence de mots et attache une partie de la balise de la parole à chaque mot.

 nltk . download ( 'averaged_perceptron_tagger' )

Utilisez Gensim pour charger un modèle Word2Vec pré-formé. Comme Google News de Google Drive.

 import gensim
model = gensim . models . KeyedVectors . load_word2vec_format ( './GoogleNews-vectors-negative300.bin' , binary = True )

Vous pouvez également utiliser Gensim pour charger les modèles anglais et multilingues de Facebook

 import gensim
model = gensim.models.fasttext.load_facebook_model('./cc.en.300.bin.gz')

Ou la formation à partir de zéro à l'aide de vos données ou de l'ensemble de données publique suivant:

Wiki text8
Ensemble de données à partir de "Billion Word Language Modeling Benchmark"

Installation

Installer à partir de PIP [recommandé]

$ pip install textaugment
or install latest release
$ pip install [email protected]:dsfsi/textaugment.git

Installer à partir de la source

$ git clone [email protected]:dsfsi/textaugment.git
$ cd textaugment
$ python setup.py install

Comment utiliser

Il existe trois types d'augmentations qui peuvent être utilisées:

word2vec

 from textaugment import Word2vec

texte rapide

 from textaugment import Fasttext

WordNet

 from textaugment import Wordnet

traduire (cela nécessitera un accès Internet)

 from textaugment import Translate

Augmentation basée sur le texte rapide / word2vec

Voir ce cahier pour un exemple

Exemple de base

 > >> from textaugment import Word2vec , Fasttext
> >> t = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good
> >> t = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good

Exemple avancé

 > >> runs = 1 # By default.
> >> v = False # verbose mode to replace all the words. If enabled runs is not effective. Used in this paper (https://www.cs.cmu.edu/~diyiy/docs/emnlp_wang_2015.pdf)
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> word = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> word . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent
> >> fast = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> fast . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent

Augmentation basée sur WordNet

Exemple de base

 > >> import nltk
> >> nltk . download ( 'punkt' )
> >> nltk . download ( 'wordnet' )
> >> from textaugment import Wordnet
> >> t = Wordnet ()
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon , John is walking to town

Exemple avancé

 > >> v = True # enable verbs augmentation. By default is True.
> >> n = False # enable nouns augmentation. By default is False.
> >> runs = 1 # number of times to augment a sentence. By default is 1.
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> t = Wordnet ( v = False , n = True , p = 0.5 )
> >> t . augment ( 'In the afternoon, John is going to town' , top_n = 10 )
In the afternoon , Joseph is going to town .

Augmentation basée sur RTT

Exemple

 > >> src = "en" # source language of the sentence
> >> to = "fr" # target language
> >> from textaugment import Translate
> >> t = Translate ( src = "en" , to = "fr" )
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon John goes to town

EDA: Techniques d'augmentation des données faciles pour augmenter les performances des tâches de classification de texte

Ceci est la mise en œuvre de EDA par Jason Wei et Kai Zou.

https://www.aclweb.org/anthology/d19-1670.pdf

Voir ce cahier pour un exemple

Remplacement du synonyme

Choisissez au hasard n mots dans la phrase qui ne sont pas des mots d'arrêt. Remplacez chacun de ces mots par l'un de ses synonymes choisis au hasard.

Exemple de base

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . synonym_replacement ( "John is going to town" , top_n = 10 )
John is give out to town

Suppression aléatoire

Supprimez au hasard chaque mot de la phrase avec probabilité p .

Exemple de base

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_deletion ( "John is going to town" , p = 0.2 )
is going to town

Échange aléatoire

Choisissez au hasard deux mots dans la phrase et échangez leurs positions. Faites cela n fois.

Exemple de base

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_swap ( "John is going to town" )
John town going to is

Insertion aléatoire

Trouvez un synonyme aléatoire d'un mot aléatoire dans la phrase qui n'est pas un mot d'arrêt. Insérez ce synonyme en position aléatoire dans la phrase. Faites ça n fois

Exemple de base

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_insertion ( "John is going to town" )
John is going to make up town

AEDA: une technique d'augmentation des données plus facile pour la classification du texte

Il s'agit de la mise en œuvre d'AEDA par Karimi et al, une variante d'EDA. Il est basé sur l'insertion aléatoire des marques de ponctuation.

https://aclanthology.org/2021.findings-emllp.234.pdf

Mise en œuvre

Voir ce cahier pour un exemple

Insertion aléatoire des marques de ponctuation

Exemple de base

 > >> from textaugment import AEDA
> >> t = AEDA ()
> >> t . punct_insertion ( "John is going to town" )
! John is going to town

Augmentation de mélange

Il s'agit de la mise en œuvre de l'augmentation de la mélange par Hongyi Zhang, Moustapha Cisse, Yann Dauphin, David Lopez-Paz adapté à la PNL.

Utilisé dans l'augmentation des données avec une mélange pour la classification des phrases: une étude empirique.

Le mélange est un principe générique et simple d'augmentation des données. Essentiellement, Mixup forme un réseau neuronal sur les combinaisons convexes de paires d'exemples et leurs étiquettes. Ce faisant, le mélange régulise le réseau neuronal pour favoriser un comportement linéaire simple entre les exemples de formation.

Mise en œuvre

Voir ce cahier pour un exemple

Construit avec ❤ sur

Python

Auteurs

Joseph Sefara (http://www.speechtech.co.za)
Vukosi Marivate (http://www.vima.co.za)

Remerciements

Citez cet article lorsque vous utilisez cette bibliothèque. Version arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Licence

MIT sous licence. Voir le fichier de licence groupé pour plus de détails.

Développer

Informations supplémentaires

Version 2.0.0 16-11-2023
Type Autre code source
Date de mise à jour 2025-04-15
taille 119.78KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout