Unduh GenAug - Download Kode Sumber GenAug

GenAug

Kode Sumber AI

1.0.0

Unduh

Genaug: Augmentasi Data untuk Generator Teks Finetuning

Kode untuk Genaug, disajikan dalam Genaug: Augmentasi data untuk generator teks yang diterbitkan di EMNLP 2020 Deelio Workshop. Anda dapat mengutipnya sebagai berikut:

 @inproceedings{feng-etal-2020-genaug,
    title = "{G}en{A}ug: Data Augmentation for Finetuning Text Generators",
    author = "Feng, Steven Y. and Gangal, Varun and Kang, Dongyeop and Mitamura, Teruko and Hovy, Eduard",
    booktitle = "Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures",
    month = nov, year = "2020", address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.deelio-1.4",
    doi = "10.18653/v1/2020.deelio-1.4", pages = "29--42",
}

Penulis: Steven Y. Feng, Varun Gangal, Dongyeop Kang, Teruko Mitamura, Eduard Hovy

Bicara dapat ditemukan di sini . Slide dan sumber daya lainnya dapat ditemukan di sini .

Catatan: Pertanyaan harus diarahkan ke [email protected] atau dengan membuka masalah di sini.

menggambar

Sumber daya yang diperlukan

Stanford Pos Tagger: https://nlp.stanford.edu/software/stanford-postagger-2018-10-16.zip
Stanford Corenlp: http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip

Model pretrained/finetuned (di Yelp):

Bert Sentimen Regressor (finetuned pada ulasan YLR dengan peringkat bintang): https://drive.google.com/drive/folders/1jt07zpxmmo9my5hh3mvjf8vmalzuuugf?usp=sharing
GPT-2 (Finetuned pada 2 juta ulasan Yelp-untuk evaluasi kebingungan dan slor): https://drive.google.com/drive/folders/1j3jcw-qtdwxcyzv7lonljkvjzpxifs2h ?usp=haring
Smerti-transformer (dilatih pada subset ylr): https://drive.google.com/drive/folders/1a-jynp5so4lmv3ztgkmwq7be8coftf_b?usp=sharing

Data

"stopwords.txt" berisi daftar stopword yang digunakan.
"yelp_train.txt", "yelp_val.txt", dan "yelp_test.txt" berisi seluruh pelatihan, validasi, dan contoh pengujian untuk YLR (baik porsi prompt dan kelanjutan).
"yelp_train_0.5.txt" dan "yelp_test_0.5.txt" berisi versi babak pertama dari contoh pelatihan dan pengujian YLR (hanya bagian cepat).
"Smerti_chosen_res.txt" berisi 150 kata benda yang dipilih sebagai entitas pengganti untuk inferensi smerti.
"Smerti_train.csv" dan "smerti_val.csv" masing-masing berisi pemisahan pelatihan dan validasi untuk Smerti-transformer.

Kode

Folder "augmentation_methods" berisi kode untuk berbagai metode augmentasi Genaug (tidak termasuk smerti).
Folder "Evaluasi" berisi kode untuk evaluasi. Secara khusus, "get_unigram_distribution.py" digunakan untuk metrik rare_words (rwords), dan "evaluate_combined.py" berisi kode untuk Sbleu, UTR, TTR, dan RWORDS. Sub-folder "sentimen" berisi kode untuk evaluasi konsistensi sentimen [lebih detail nanti].
Folder "finetuning_and_generation" berisi skrip dan kode untuk finetuning model GPT-2 dan menghasilkan output dari model GPT-2. Jalankan dua skrip .sh untuk finetune dan hasilkan.
Folder "processing_and_setup" berisi kode untuk memproses dan mengatur data yang diperlukan untuk percobaan. "Continuate_PostProcessor.py" membersihkan output GPT-2 (misalnya penelusuran tanda seru trailing), "Genaug_finetuning_setup.ipynb" berisi kode untuk mengatur data augmentasi akhir untuk finetuning GPT-2, "Genaug_smerti_processing. "Genaug_yelp_dataset_processing.ipynb" berisi kode untuk memproses dan mengatur data ulasan YELP untuk YLR dan 2 juta ulasan subset untuk evaluasi ppl dan slor.

Kode metode augmentasi smerti

Kode untuk metode augmentasi smerti dapat ditemukan di folder "Genaug Smerti-Transformer" di repo ini . Ini adalah repo resmi untuk "Smerti for Semantic Text Exchange" yang disajikan di Keep Calm and Reaktif! Melestarikan sentimen dan kelancaran dalam pertukaran teks semantik yang diterbitkan di EMNLP-IJCNLP 2019.

Catatan: Perintah lebih lanjut dan contoh untuk semua kode akan ditambahkan di kemudian hari.

Memperluas

Informasi Tambahan