このリポジトリには、EMNLP 2020調査結果のソースコードが含まれています。
この作業では、事前に守られた言語モデル(LMS)の微調整プロセスのための新しいタイプの正規者を提案します。微調整中の一般的なドメイン表現が壊滅的な忘却の一形態としての一般的なドメイン表現の喪失を特定します。敵対的な用語は、壊滅的な忘却を防ぎ、壊滅的な忘却を防ぎ、LMによって捕捉された知識のほとんどを保存する正規者として機能します。
それに対処するために、敵対的な目的で、前処理されたLMSの標準的な微調整プロセスを拡張します。この追加の損失項は、ドメイン内と領域外のテキスト表現を区別する敵対的な分類器に関連しています。
ドメイン内:タスク(メイン)のラベル付きデータセット(メイン)
ドメイン外:別のドメインからの非標識データ(補助)
タスク固有の損失を最小限に抑え、同時に勾配反転層を使用してドメイン分類器の損失を最大化します。
提案する損失関数は次のとおりです。
l after = l main -λlドメイン
ここで、Lメインはタスク固有の損失であり、Lドメインは異なるドメインにわたってテキスト表現の不変性を強制する敵対的な損失です。 λは調整可能なハイパーパラメーターです。

4つの接着剤データセット(COLA、MRPC、SST-2、およびRTE)での実験は、2つの異なる前提条件のLMS(BERTおよびXLNET)を示しています。私たちは、敵対的な用語が、事前トレーニング中にLMによって捉えられた知識のほとんどを保存する正規者として作用し、壊滅的な忘却を防ぐことを経験的に示します。
環境の作成(オプション):理想的には、プロジェクトの環境を作成する必要があります。
conda create -n after_env python=3.6
conda activate after_env
GPUを使用する場合は、目的のCUDAバージョンでPytorch 1.1.0をインストールします。
conda install pytorch==1.1.0 torchvision -c pytorch
プロジェクトのクローン:
git clone https://github.com/GeorgeVern/AFTERV1.0.git
cd AFTERV1.0
次に、残りの要件をインストールします。
pip install -r requirements.txt
メインデータセットをダウンロードするには、ここからdownload_glue_data.pyスクリプトを使用します。次のコマンドを実行して、ペーパーで使用されるデータセットを選択できます。
python download_glue_data.py --data_dir './Datasets' --tasks 'CoLA,SST,RTE,MRPC
データセットのデフォルトパスはAfterV1.0/DataSetsですが、他のパスを使用できます( sys_configスクリプトで指定されているDATA_DIRパスに同意する必要があります)
補助データとして、さまざまなドメインのコーパスを使用します。私たちは、実験で使用されているコーパをダウンロードして前処理するためのスクリプトを提供しますが、他のコーパスも同様に使用できます。
BERTを使用して実行するには、次のコマンドが必要です。
python after_fine-tune.py -i afterBert_finetune_cola_europarl --lambd 0.1
lambdとは、使用する関節損失関数の重量であるLambdaを指します。
configs/では、実験に使用したyamlファイルのリストを表示でき、ハイパーパラメーターを変更することもできます。
このリポジトリを調査で使用する場合は、論文を引用してください。
@inproceedings{vernikos-etal-2020-domain,
title = "{D}omain {A}dversarial {F}ine-{T}uning as an {E}ffective {R}egularizer",
author = "Vernikos, Giorgos and
Margatina, Katerina and
Chronopoulou, Alexandra and
Androutsopoulos, Ion",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
year = "2020",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.278",
doi = "10.18653/v1/2020.findings-emnlp.278",
pages = "3103--3112",
}