Unduh textaugment - Unduh Kode Sumber textaugment

textaugment

Kode sumber lainnya

2.0.0 16-11-2023

Unduh

Textaugment: Meningkatkan klasifikasi teks pendek melalui metode augmentasi global

Anda baru saja menemukan Textaugment.

Textaugment adalah perpustakaan Python 3 untuk menambah teks untuk aplikasi pemrosesan bahasa alami. Textaugment berdiri di bahu raksasa NLTK, Gensim V3.x, dan TextBlob dan bermain dengan baik dengan mereka.

Ucapan Terima Kasih

Kutip makalah ini saat menggunakan perpustakaan ini. Versi arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Daftar isi

Fitur
Kertas kutipan
- Persyaratan
- Instalasi
- Cara menggunakan
  - Augmentasi berbasis Word2Vec
  - Augmentasi berbasis WordNet
  - Augmentasi berbasis RTT
Easy Data Augmentasi (EDA)
Augmentasi data yang lebih mudah (AEDA)
Augmentasi mixup
- Pelaksanaan
Ucapan Terima Kasih

Fitur

Menghasilkan data sintetis untuk meningkatkan kinerja model tanpa upaya manual
Perpustakaan yang sederhana, ringan, dan mudah digunakan.
Plug and Play to Machine Learning Frameworks (misalnya Pytorch, TensorFlow, Scikit-Learn)
Mendukung data tekstual

Kertas kutipan

Meningkatkan klasifikasi teks pendek melalui metode augmentasi global .

Persyaratan

Python 3

Paket perangkat lunak berikut adalah dependensi dan akan diinstal secara otomatis.

$ pip install numpy nltk gensim==3.8.3 textblob googletrans

Kode berikut mengunduh nltk corpus untuk WordNet.

 nltk . download ( 'wordnet' )

Kode berikut mengunduh NLTK Tokenizer. Tokenizer ini membagi teks menjadi daftar kalimat dengan menggunakan algoritma yang tidak diawasi untuk membangun model untuk kata -kata singkatan, kolokasi, dan kata -kata yang memulai kalimat.

 nltk . download ( 'punkt' )

Kode berikut mengunduh model tagger bagian nltk nltk. Tagger bagian-of-speech memproses urutan kata, dan melampirkan bagian tag ucapan untuk setiap kata.

 nltk . download ( 'averaged_perceptron_tagger' )

Gunakan Gensim untuk memuat model Word2VEC pra-terlatih. Seperti Google News dari Google Drive.

 import gensim
model = gensim . models . KeyedVectors . load_word2vec_format ( './GoogleNews-vectors-negative300.bin' , binary = True )

Anda juga dapat menggunakan Gensim untuk memuat model FastText English dan multibahasa Facebook

 import gensim
model = gensim.models.fasttext.load_facebook_model('./cc.en.300.bin.gz')

Atau melatih satu dari awal menggunakan data Anda atau dataset publik berikut:

Text8 Wiki
Dataset dari "satu miliar tolok ukur pemodelan bahasa kata"

Instalasi

Instal dari PIP [Direkomendasikan]

$ pip install textaugment
or install latest release
$ pip install [email protected]:dsfsi/textaugment.git

Instal dari sumber

$ git clone [email protected]:dsfsi/textaugment.git
$ cd textaugment
$ python setup.py install

Cara menggunakan

Ada tiga jenis augmentasi yang dapat digunakan:

word2vec

 from textaugment import Word2vec

FastText

 from textaugment import Fasttext

WordNet

 from textaugment import Wordnet

Terjemahkan (ini akan membutuhkan akses internet)

 from textaugment import Translate

Augmentasi berbasis FastText/Word2Vec

Lihat contoh noten ini

Contoh Dasar

 > >> from textaugment import Word2vec , Fasttext
> >> t = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good
> >> t = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' )
> >> t . augment ( 'The stories are good' )
The films are good

Contoh lanjutan

 > >> runs = 1 # By default.
> >> v = False # verbose mode to replace all the words. If enabled runs is not effective. Used in this paper (https://www.cs.cmu.edu/~diyiy/docs/emnlp_wang_2015.pdf)
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> word = Word2vec ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> word . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent
> >> fast = Fasttext ( model = 'path/to/gensim/model' or 'gensim model itself' , runs = 5 , v = False , p = 0.5 )
> >> fast . augment ( 'The stories are good' , top_n = 10 )
The movies are excellent

Augmentasi berbasis WordNet

Contoh Dasar

 > >> import nltk
> >> nltk . download ( 'punkt' )
> >> nltk . download ( 'wordnet' )
> >> from textaugment import Wordnet
> >> t = Wordnet ()
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon , John is walking to town

Contoh lanjutan

 > >> v = True # enable verbs augmentation. By default is True.
> >> n = False # enable nouns augmentation. By default is False.
> >> runs = 1 # number of times to augment a sentence. By default is 1.
> >> p = 0.5 # The probability of success of an individual trial. (0.1<p<1.0), default is 0.5. Used by Geometric distribution to selects words from a sentence.

> >> t = Wordnet ( v = False , n = True , p = 0.5 )
> >> t . augment ( 'In the afternoon, John is going to town' , top_n = 10 )
In the afternoon , Joseph is going to town .

Augmentasi berbasis RTT

Contoh

 > >> src = "en" # source language of the sentence
> >> to = "fr" # target language
> >> from textaugment import Translate
> >> t = Translate ( src = "en" , to = "fr" )
> >> t . augment ( 'In the afternoon, John is going to town' )
In the afternoon John goes to town

EDA: Teknik augmentasi data mudah untuk meningkatkan kinerja pada tugas klasifikasi teks

Ini adalah implementasi EDA oleh Jason Wei dan Kai Zou.

https://www.aclweb.org/anthology/d19-1670.pdf

Lihat contoh noten ini

Penggantian sinonim

Pilih secara acak N kata -kata dari kalimat yang tidak menghentikan kata -kata. Ganti masing -masing kata ini dengan salah satu sinonimnya yang dipilih secara acak.

Contoh Dasar

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . synonym_replacement ( "John is going to town" , top_n = 10 )
John is give out to town

Penghapusan acak

Hapus setiap kata secara acak dalam kalimat dengan probabilitas p .

Contoh Dasar

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_deletion ( "John is going to town" , p = 0.2 )
is going to town

Pertukaran acak

Pilih dua kata secara acak dalam kalimat dan bertukar posisi mereka. Lakukan ini N kali.

Contoh Dasar

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_swap ( "John is going to town" )
John town going to is

Penyisipan acak

Temukan sinonim acak dari kata acak dalam kalimat yang bukan kata berhenti. Masukkan sinonim ke posisi acak dalam kalimat. Lakukan ini N kali

Contoh Dasar

 > >> from textaugment import EDA
> >> t = EDA ()
> >> t . random_insertion ( "John is going to town" )
John is going to make up town

Aeda: Teknik augmentasi data yang lebih mudah untuk klasifikasi teks

Ini adalah implementasi Aeda oleh Karimi et al, varian EDA. Ini didasarkan pada penyisipan acak tanda baca.

https://aclanthology.org/2021.findings-nemnlp.234.pdf

Pelaksanaan

Lihat contoh noten ini

Penyisipan tanda baca acak

Contoh Dasar

 > >> from textaugment import AEDA
> >> t = AEDA ()
> >> t . punct_insertion ( "John is going to town" )
! John is going to town

Augmentasi mixup

Ini adalah implementasi augmentasi mixup oleh Hongyi Zhang, Moustapha Cisse, Yann Dauphin, David Lopez-Paz yang diadaptasi dengan NLP.

Digunakan dalam menambah data dengan mixup untuk klasifikasi kalimat: studi empiris.

MixUp adalah prinsip augmentasi data generik dan mudah. Intinya, MixUp melatih jaringan saraf tentang kombinasi cembung dari pasangan contoh dan labelnya. Dengan melakukan itu, MixUp mengatur jaringan saraf untuk mendukung perilaku linier sederhana di antara contoh-contoh pelatihan.

Pelaksanaan

Lihat contoh noten ini

Dibangun dengan ❤ on

Python

Penulis

Joseph Sefara (http://www.speechtech.co.za)
Vukosi Marivate (http://www.vima.co.za)

Ucapan Terima Kasih

Kutip makalah ini saat menggunakan perpustakaan ini. Versi arxiv

 @inproceedings{marivate2020improving,
  title={Improving short text classification through global augmentation methods},
  author={Marivate, Vukosi and Sefara, Tshephisho},
  booktitle={International Cross-Domain Conference for Machine Learning and Knowledge Extraction},
  pages={385--399},
  year={2020},
  organization={Springer}
}

Lisensi

MIT berlisensi. Lihat file lisensi yang dibundel untuk lebih jelasnya.

Memperluas

Informasi Tambahan

Versi 2.0.0 16-11-2023
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-15
ukuran 119.78KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua