
Perpustakaan Python ini membantu Anda menambah NLP untuk proyek pembelajaran mesin Anda. Kunjungi pengantar ini untuk memahami tentang augmentasi data di NLP. Augmenter adalah elemen dasar augmentasi sementara Flow adalah pipa ke orkestra multi augmenter bersama -sama.


| Bagian | Keterangan |
|---|---|
| Demo cepat | Cara menggunakan perpustakaan ini |
| Augmenter | Memperkenalkan semua metode augmentasi yang tersedia |
| Instalasi | Cara menginstal perpustakaan ini |
| Perubahan terbaru | Peningkatan terbaru |
| Bacaan ekstensi | Lebih banyak contoh kehidupan nyata atau penelitian |
| Referensi | Referensi sumber daya eksternal seperti data atau model |
| Augmenter | Target | Augmenter | Tindakan | Keterangan |
|---|---|---|---|---|
| Tekstual | Karakter | Keyboardaug | pengganti | Mensimulasikan kesalahan jarak keyboard |
| Tekstual | Ocraug | pengganti | Mensimulasikan kesalahan mesin OCR | |
| Tekstual | Acak | masukkan, ganti, swap, hapus | Terapkan augmentasi secara acak | |
| Tekstual | Kata | Antonimaug | pengganti | Mengganti makna kata yang berlawanan menurut WordNet Antonim |
| Tekstual | Contextual Wordembsaug | masukkan, ganti | Memberi makan kata lingkungan untuk Bert, Distilbert, Roberta atau Xlnet Bahasa Model Untuk mencari tahu kata yang paling cocok untuk augmentasi | |
| Tekstual | Randomwordaug | Tukar, panen, hapus | Terapkan augmentasi secara acak | |
| Tekstual | Ejaan | pengganti | Kata pengganti menurut Kamus Kesalahan Ejaan | |
| Tekstual | Splitaug | membelah | Pisahkan satu kata menjadi dua kata secara acak | |
| Tekstual | Synonymaug | pengganti | Ganti kata serupa menurut Sinonim WordNet/ PPDB | |
| Tekstual | Tfidfaug | masukkan, ganti | Gunakan TF-IDF untuk mengetahui bagaimana Word harus ditambah | |
| Tekstual | Wordembsaug | masukkan, ganti | Leverage word2vec, sarung tangan atau embeddings fasttext untuk menerapkan augmentasi | |
| Tekstual | Backtranslationaug | pengganti | Leverage dua model terjemahan untuk augmentasi | |
| Tekstual | Cadangan | pengganti | Ganti kata yang dipesan | |
| Tekstual | Kalimat | ContextualWordEMBSForSentenceAug | menyisipkan | Masukkan kalimat menurut prediksi XLNET, GPT2 atau Distilgpt2 |
| Tekstual | Abstsummaug | pengganti | Merangkum artikel dengan metode peringkasan abstraktif | |
| Tekstual | Lambadaaug | pengganti | Menggunakan model bahasa untuk menghasilkan teks dan kemudian menggunakan model klasifikasi untuk mempertahankan hasil berkualitas tinggi | |
| Sinyal | Audio | CHOPAUG | menghapus | Hapus segmen audio |
| Sinyal | Loudnessaug | pengganti | Sesuaikan volume audio | |
| Sinyal | Maskaug | pengganti | Segmen Audio Topeng | |
| Sinyal | Noiseaug | pengganti | Suntikan kebisingan | |
| Sinyal | Pitchaug | pengganti | Sesuaikan pitch audio | |
| Sinyal | Shiftaug | pengganti | Memindahkan dimensi waktu ke depan/ ke belakang | |
| Sinyal | Speedaug | pengganti | Sesuaikan kecepatan audio | |
| Sinyal | Vtlpaug | pengganti | Ubah saluran vokal | |
| Sinyal | NormalizeAug | pengganti | Normalisasi audio | |
| Sinyal | PolarityInverseAug | pengganti | Tukar positif dan negatif untuk audio | |
| Sinyal | Spektrogram | Frekuensimaskingaug | pengganti | Setel blok nilai ke nol sesuai dengan dimensi frekuensi |
| Sinyal | Timemaskingaug | pengganti | Atur blok nilai ke nol sesuai dengan dimensi waktu | |
| Sinyal | Loudnessaug | pengganti | Sesuaikan volume |
| Augmenter | Augmenter | Keterangan |
|---|---|---|
| Pipa | Berurutan | Terapkan daftar fungsi augmentasi secara berurutan |
| Pipa | Kadang-kadang | Terapkan beberapa fungsi augmentasi secara acak |
Perpustakaan mendukung Python 3.5+ di Linux dan Window Platform.
Untuk menginstal perpustakaan:
pip install numpy requests nlpaugAtau instal versi terbaru (termasuk fitur beta) dari GitHub secara langsung
pip install numpy git+https://github.com/makcedward/nlpaug.gitAtau instal melalui conda
conda install -c makcedward nlpaugJika Anda menggunakan backtranslationaug, ContextualWordEMBBSAUG, ContextualsempsForSentenceAug dan Abstsummaug, menginstal dependensi berikut juga
pip install torch > =1.6.0 transformers > =4.11.3 sentencepieceJika Anda menggunakan Lambadaaug, memasang dependensi berikut juga
pip install simpletransformers > =0.61.10Jika Anda menggunakan antononyg, Synonymaug, menginstal dependensi berikut juga
pip install nltk > =3.4.5Jika Anda menggunakan Wordembsaug (Word2Vec, Glove atau FastText), mengunduh model terlatih terlatih terlebih dahulu dan menginstal dependensi berikut juga
from nlpaug.util.file.download import DownloadUtil
DownloadUtil.download_word2vec(dest_dir= ' . ' ) # Download word2vec model
DownloadUtil.download_glove(model_name= ' glove.6B ' , dest_dir= ' . ' ) # Download GloVe model
DownloadUtil.download_fasttext(model_name= ' wiki-news-300d-1M ' , dest_dir= ' . ' ) # Download fasttext model
pip install gensim > =4.1.2Jika Anda menggunakan SynononyAug (PPDB), mengunduh file dari URI berikut. Anda mungkin tidak dapat menjalankan augmenter jika Anda mendapatkan file ppdb dari situs web lain
http://paraphrase.org/ # /downloadJika Anda menggunakan Pitchaug, Speedaug, dan VTLPAUG, memasang dependensi berikut juga
pip install librosa > =0.9.1 matplotlibLihat Changelog untuk detail lebih lanjut.
Perpustakaan ini menggunakan data (misalnya menangkap dari internet), penelitian (misalnya ide augmenter berikut), model (misalnya menggunakan model pra-terlatih) Lihat sumber data untuk lebih jelasnya.
@misc{ma2019nlpaug,
title={NLP Augmentation},
author={Edward Ma},
howpublished={https://github.com/makcedward/nlpaug},
year={2019}
}Paket ini dikutip oleh banyak buku, lokakarya dan makalah penelitian akademik (70+). Berikut adalah beberapa contoh dan Anda dapat mengunjungi di sini untuk mendapatkan daftar lengkap.
Sakares Saengkaew | Binoy Dalal | Emrecan Çelik |