GenAugダウンロード - GenAugソースコードのダウンロード

GenAug

AI ソースコード

1.0.0

ダウンロード

Genaug：Finetuningテキストジェネレーターのデータ増強

Genaugで発表されたGenaugのコード：EMNLP 2020 Deelioワークショップで公開されたFinetuningテキストジェネレーターのデータ増強。次のように引用できます。

 @inproceedings{feng-etal-2020-genaug,
    title = "{G}en{A}ug: Data Augmentation for Finetuning Text Generators",
    author = "Feng, Steven Y. and Gangal, Varun and Kang, Dongyeop and Mitamura, Teruko and Hovy, Eduard",
    booktitle = "Proceedings of Deep Learning Inside Out (DeeLIO): The First Workshop on Knowledge Extraction and Integration for Deep Learning Architectures",
    month = nov, year = "2020", address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.deelio-1.4",
    doi = "10.18653/v1/2020.deelio-1.4", pages = "29--42",
}

著者：スティーブン・Y・フェン、ヴァルン・ガンガル、ドンサイ・カン、ティルコ・ミタムラ、エドゥアルド・ホビー

ここで話すことができます。スライドやその他のリソースはここにあります。

注：お問い合わせは、 [email protected]に送信するか、ここで問題を開始する必要があります。

必要なリソース

スタンフォードPOSタガー：https：//nlp.stanford.edu/software/stanford-postagger-2018-10-16.zip
Stanford Corenlp：http：//nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip

前処理された/凝集したモデル（YELPで）：

Bert Sentiment Regressor（星評価を伴うYLRレビューでFinetuned）：https：//drive.google.com/drive/folders/1jt07zpxmo9my5hhh3mvjf8vmalzuuugf？usp = sharing
GPT-2（200万匹のYELPレビューで微調整されました - 困惑とスロー評価のため）：https：//drive.google.com/drive/folders/1j3jcw-qtdwxcyzv7lonljkvjzpxifs2h？usp = sharing
smerti-transformer（ylrのサブセットで訓練された）：https：//drive.google.com/drive/folders/1a-jynp5so4lmv3ztgkmwq7be8coftf_b？usp = sharing

データ

「stopwords.txt」には、使用されるstopwordsのリストが含まれています。
「Yelp_train.txt」、「yelp_val.txt」、および「yelp_test.txt」には、YLRのトレーニング、検証、およびテストの例が含まれています（プロンプトおよび継続部分の両方）。
「Yelp_train_0.5.txt」と「Yelp_test_0.5.txt」には、YLRのトレーニングとテストの例の前半バージョン（プロンプト部分のみ）が含まれています。
「SMERTI_CHOSEN_RES.TXT」には、SMERTI推論の交換エンティティとして選択された150名の名詞が含まれています。
「smerti_train.csv」と「smerti_val.csv」には、それぞれSmerti-Transformerのトレーニングと検証の分割が含まれています。

コード

「Augmentation_Methods」フォルダーには、さまざまなGenaugの増強方法（SMERTIを除く）のコードが含まれています。
「評価」フォルダーには、評価用のコードが含まれています。具体的には、「get_unigram_distribution.py」はrear_words（rwords）メトリックに使用され、「evaluate_combined.py」にはSBLEU、UTR、TTR、およびRWordsのコードが含まれています。「センチメント」サブフォルダーには、感情の一貫性評価のためのコードが含まれています[詳細については後で]。
「Finetuning_and_generation」フォルダーには、GPT-2モデルのFinetuningのスクリプトとコードが含まれ、GPT-2モデルから出力を生成します。 2つの.shスクリプトを実行して、Finetuneと生成します。
「Processing_and_setup」フォルダーには、実験に必要なデータを処理およびセットアップするコードが含まれています。「Continuation_PostProcessor.py」は、GPT-2出力（例えば、後続の感嘆符の削除）、「genaug_finetuning_setup.ipynb」をクリーニングします。「genaug_yelp_dataset_processing.ipynb」には、YLRのレビューデータを処理およびセットアップするためのコードと、pplおよびslor評価のための200万のレビューサブセットが含まれています。

SMERTI拡張法コード

SMERTI増強法のコードは、このレポの「Genaug Smerti-Transformer」フォルダーにあります。これは、Keep CalmとSwitch Onで提示された「Smerti for Semantic Text Exchange」の公式リポジトリです！ EMNLP-IJCNLP 2019で公開されたセマンティックテキスト交換における感情と流encyさの保存。

注：すべてのコードの詳細と例コマンドは、後日追加されます。

拡大する

追加情報