Genaug:Finetuningテキストジェネレーターのデータ増強
Genaugで発表されたGenaugのコード:EMNLP 2020 Deelioワークショップで公開されたFinetuningテキストジェネレーターのデータ増強。次のように引用できます。
@inproceedings{feng-etal-2020-genaug,
title = "{G}en{A}ug: Data Augmentation for Finetuning Text Generators",
author = "Feng, Steven Y. and Gangal, Varun and Kang, Dongyeop and Mitamura, Teruko and Hovy, Eduard",
booktitle = "Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures",
month = nov, year = "2020", address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.deelio-1.4",
doi = "10.18653/v1/2020.deelio-1.4", pages = "29--42",
}
著者:スティーブン・Y・フェン、ヴァルン・ガンガル、ドンサイ・カン、ティルコ・ミタムラ、エドゥアルド・ホビー
ここで話すことができます。スライドやその他のリソースはここにあります。
注:お問い合わせは、 [email protected]に送信するか、ここで問題を開始する必要があります。

必要なリソース
- スタンフォードPOSタガー:https://nlp.stanford.edu/software/stanford-postagger-2018-10-16.zip
- Stanford Corenlp:http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip
前処理された/凝集したモデル(YELPで):
- Bert Sentiment Regressor(星評価を伴うYLRレビューでFinetuned):https://drive.google.com/drive/folders/1jt07zpxmo9my5hhh3mvjf8vmalzuuugf?usp = sharing
- GPT-2(200万匹のYELPレビューで微調整されました - 困惑とスロー評価のため):https://drive.google.com/drive/folders/1j3jcw-qtdwxcyzv7lonljkvjzpxifs2h?usp = sharing
- smerti-transformer(ylrのサブセットで訓練された):https://drive.google.com/drive/folders/1a-jynp5so4lmv3ztgkmwq7be8coftf_b?usp = sharing
データ
- 「stopwords.txt」には、使用されるstopwordsのリストが含まれています。
- 「Yelp_train.txt」、「yelp_val.txt」、および「yelp_test.txt」には、YLRのトレーニング、検証、およびテストの例が含まれています(プロンプトおよび継続部分の両方)。
- 「Yelp_train_0.5.txt」と「Yelp_test_0.5.txt」には、YLRのトレーニングとテストの例の前半バージョン(プロンプト部分のみ)が含まれています。
- 「SMERTI_CHOSEN_RES.TXT」には、SMERTI推論の交換エンティティとして選択された150名の名詞が含まれています。
- 「smerti_train.csv」と「smerti_val.csv」には、それぞれSmerti-Transformerのトレーニングと検証の分割が含まれています。
コード
- 「Augmentation_Methods」フォルダーには、さまざまなGenaugの増強方法(SMERTIを除く)のコードが含まれています。
- 「評価」フォルダーには、評価用のコードが含まれています。具体的には、「get_unigram_distribution.py」はrear_words(rwords)メトリックに使用され、「evaluate_combined.py」にはSBLEU、UTR、TTR、およびRWordsのコードが含まれています。 「センチメント」サブフォルダーには、感情の一貫性評価のためのコードが含まれています[詳細については後で]。
- 「Finetuning_and_generation」フォルダーには、GPT-2モデルのFinetuningのスクリプトとコードが含まれ、GPT-2モデルから出力を生成します。 2つの.shスクリプトを実行して、Finetuneと生成します。
- 「Processing_and_setup」フォルダーには、実験に必要なデータを処理およびセットアップするコードが含まれています。 「Continuation_PostProcessor.py」は、GPT-2出力(例えば、後続の感嘆符の削除)、「genaug_finetuning_setup.ipynb」をクリーニングします。 「genaug_yelp_dataset_processing.ipynb」には、YLRのレビューデータを処理およびセットアップするためのコードと、pplおよびslor評価のための200万のレビューサブセットが含まれています。
SMERTI拡張法コード
SMERTI増強法のコードは、このレポの「Genaug Smerti-Transformer」フォルダーにあります。これは、Keep CalmとSwitch Onで提示された「Smerti for Semantic Text Exchange」の公式リポジトリです! EMNLP-IJCNLP 2019で公開されたセマンティックテキスト交換における感情と流encyさの保存。
注:すべてのコードの詳細と例コマンドは、後日追加されます。