RLSeq2SeqダウンロードRLSeq2Seqソースコードのダウンロード

rlseq2seq

注：このコードは積極的に維持されなくなりました。

このリポジトリには、次の論文のためにTensorflowで開発されたコードが含まれています。

シーケンスモデルのシーケンスのための深い強化学習、

By：Yaser Keneshloo、Tian Shi、Naren Ramakrishnan、およびChandan K. Reddy

このコードを使用した場合は、次の論文を引用してください。

@article{keneshloo2018deep,
 title={Deep Reinforcement Learning For Sequence to Sequence Models},
 author={Keneshloo, Yaser and Shi, Tian and Ramakrishnan, Naren and Reddy, Chandan K.},
 journal={arXiv preprint arXiv:1805.09461},
 year={2018}
}

モチベーション
要件
- Python
- Tensorflow
- GPU
データセット
- CNN/Daily Mailデータセット
- ニュースルームデータセット
実験の実行
- スケジュールされたサンプリング、ソフトスケジュールサンプリング、およびEnd2EndbackProp
  - ハードアルグマックスと貪欲な選択を使用したスケジュールされたサンプリング（Bengio et al。）：
  - Soft-Argmaxおよびサンプリング選択を使用したスケジュールされたサンプリング（Goyal et al。）：
  - End2EndbackProp（Ranzato et al。）：
- ポリシー勾配w。自己批判的な学習と時間的注意とデコーダー内の注意
  - イントラデコーダーの注意と時間的注意を伴うMLE損失のみを使用した事前トレーニング
  - 検証データに関する事前に訓練されたモデルを評価します
  - MLE+RLトレーニングのアクティブ化
  - 検証データに関するMLE+RLトレーニングの評価
  - 訓練されたモデルのデコードを開始します
- DDQNおよびDueling Networkを介したアクタークリティックモデル
  - MLE損失のみを使用して俳優を事前に訓練します
  - 現在のモデルに批評家モデルを追加します
  - 固定俳優と一緒にトレーニング前の批評家を始めましょう
  - True Q-estimatesを使用して俳優/批評家のトレーニングを開始します
  - Q-estimatesを使用して俳優/批評家のトレーニングを開始します
  - 俳優と批評家の推定に基づくデコード
開発中
- YAML構成のサポート
- Actor-CriticモデルのディスクにReplayBufferを保存します
知識

モチベーション

近年、シーケンスからシーケンス（Seq2Seq）モデルは、機械翻訳、見出しの生成、テキストの要約、テキストへのスピーチ、画像キャプション生成まで、さまざまなタスクで使用されています。これらすべてのモデルの基礎となるフレームワークは、通常、エンコーダーとデコーダーを含む深いニューラルネットワークです。エンコーダは入力データを処理し、デコーダーはエンコーダの出力を受信し、最終出力を生成します。エンコーダー/デコーダーモデルを使用するだけで、ほとんどの場合、上記のタスクで従来の方法よりも良い結果が得られますが、研究者は、入力、ポインター生成モデル、および自己科学モデルを使用するなど、これらのシーケンスに対するシーケンスモデルに対する追加の改善を提案しました。ただし、これらのすべてのSEQ2SEQモデルは、2つの一般的な問題に悩まされています。1）暴露バイアスと2）列車/テスト測定間の矛盾。最近、補強学習（RL）の方法を使用することにより、SEQ2SEQモデルでこれら2つの問題を解決する際に、完全に新鮮な視点が現れました。これらの新しい研究では、RLの観点からのseq2seqの問題を調べようとします。また、意思決定におけるRLメソッドの力を組み合わせて、長い記憶を思い出す際にモデルをシーケンスする定式化を考え出そうとします。この論文では、RLの世界から深いニューラルネットワーク領域までの概念を組み合わせた最新のフレームワークのいくつかを要約し、複雑なSEQ2SEQタスクを解く際にこれら2つの領域が互いにどのように利益を得るかを説明します。最終的に、現在の既存のモデルの問題のいくつかと、より良いRLモデルでそれらを改善する方法についての洞察を提供します。また、抽象的なテキスト要約の複雑なタスクについてこのペーパーで説明するほとんどのモデルを実装するためのソースコードを提供します。

要件

Python

Python 2.7を使用します

Python要件は次のようにインストールできます。

pip install -r python_requirements.txt

Tensorflow

Tensorflow 1.10.1

GPU

CUDA 9
Cudnn 7.1

データセット

CNN/Daily Mailデータセット

https://github.com/abisee/cnn-dailymail

ニュースルームデータセット

https://summari.es/

CNN-Dailymailデータセットをダウンロードし、このデータセットとニュースルームデータセットを前処理するヘルパーコードを提供しました。アクセスするには、このリンクを参照してください。

これらのデータセットの処理版を要約結果に使用することにより、ルージュの尺度が大幅に改善されたため、すべてのトレーニングにこれらの前処理ファイルを使用することを強くお勧めします。

実験の実行

このコードは、次の機能をサポートするさまざまなモードの一般的なフレームワークです。

スケジュールされたサンプリング、ソフトスケジュールサンプリング、およびEnd2EndbackProp。
ポリシー勾配w。自己批判的な学習と時間的注意とデコーダー内の注意：
1. 抽象的な要約のための深い強化モデルに従います
これらの論文に基づいて、DDQNおよびDueling Networkを介したアクタークライティックモデル：
1. ダブルクレアニングによる深い補強学習
2. 深い強化学習のための決闘ネットワークアーキテクチャ
3. シーケンス予測のためのActorcriticアルゴリズム

スケジュールされたサンプリング、ソフトスケジュールサンプリング、およびEnd2EndbackProp

Bengio et al。露出バイアスの問題を回避するためのスケジュールされたサンプリングのアイデアを提案しました。最近、Goyal et al。このモデルに存在するバックプロパゲーションエラーを解決するソフトアルグマックスを使用することにより、この方法の微分可能な関係を提案しました。また、Ranzato et al。露出バイアスの問題を回避するために、End2EndbackPropという別の簡単なモデルを提案しました。これらの各論文に基づいてモデルをトレーニングするには、次のように異なるフラグを提供します。

パラメーターデフォルト説明
Scheduled_Sampling 間違いスケジュールされたサンプリングを行うかどうか
sampling_probability 0 グラウンドトゥルースまたはモデル出力を選択するためのepsilon値
sixt_sampling_probability 間違い固定サンプリング確率を使用するか、適応型を使用するか
hard_argmax 真実ソフトArgmaxまたはhard argmaxを使用するかどうか
greedy_scheduled_sampling 間違い貪欲なものを使用するか、出力にサンプルを使用するか、真の意味
e2ebackprop 間違い e2ebackpropアルゴリズムを使用して暴露バイアスを解決するかどうか
アルファ 1 ソフトヨットの引数

パラメーター	デフォルト	説明
Scheduled_Sampling	間違い	スケジュールされたサンプリングを行うかどうか
sampling_probability	0	グラウンドトゥルースまたはモデル出力を選択するためのepsilon値
sixt_sampling_probability	間違い	固定サンプリング確率を使用するか、適応型を使用するか
hard_argmax	真実	ソフトArgmaxまたはhard argmaxを使用するかどうか
greedy_scheduled_sampling	間違い	貪欲なものを使用するか、出力にサンプルを使用するか、真の意味
e2ebackprop	間違い	e2ebackpropアルゴリズムを使用して暴露バイアスを解決するかどうか
アルファ	1	ソフトヨットの引数

ハードアルグマックスと貪欲な選択を使用したスケジュールされたサンプリング（Bengio et al。）：

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=scheduled-sampling-hardargmax-greedy --batch_size=80 --max_iter=40000 --scheduled_sampling=True --sampling_probability=2.5E-05 --hard_argmax=True --greedy_scheduled_sampling=True

Soft-Argmaxおよびサンプリング選択を使用したスケジュールされたサンプリング（Goyal et al。）：

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=scheduled-sampling-softargmax-sampling --batch_size=80 --max_iter=40000 --scheduled_sampling=True --sampling_probability=2.5E-05 --hard_argmax=False --greedy_scheduled_sampling=False --alpha=10

End2EndbackProp（Ranzato et al。）：

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=scheduled-sampling-end2endbackprop --batch_size=80 --max_iter=40000 --scheduled_sampling=True --sampling_probability=2.5E-05 --hard_argmax=True --E2EBackProp=True --k=4

ポリシー勾配w。自己批判的な学習と時間的注意とデコーダー内の注意

パラメーターデフォルト説明
rl_training 間違いポリシー勾配トレーニングを開始します
convert_to_reinforce_model 間違いポインターモデルを強化モデルに変換します。これをオンにして、列車モードで実行します。現在のトレーニングモデルは、カバレッジトレーニング段階のカバレッジフラグをオンにして実行する準備ができている新しいバージョン（_COV_INIT Appleddedと同じ名前）にコピーされます。
イントラアデコーダー間違いイントラアデコーダーの注意を使用するかどうか
use_temporal_attention 真実一時的な注意を使うかどうか
matrix_attention 間違いマトリックスの注意を使用してください、eq。 2 https://arxiv.org/pdf/1705.04304.pdf
ETA 0 RL/MLEスケーリング係数、1はRL損失を使用することを意味し、0はMLE損失を使用することを意味します
sixed_eta 間違いグローバルステップに基づいてETAまたはAdaptiveに固定値を使用する
ガンマ 0.99 RL報酬割引率
reward_function rouge_l/f_score ブルーまたはルージュメジャーのいずれか（rouge_1/f_score、rouge_2/f_score、rouge_l/f_score）

パラメーター	デフォルト	説明
rl_training	間違い	ポリシー勾配トレーニングを開始します
convert_to_reinforce_model	間違い	ポインターモデルを強化モデルに変換します。これをオンにして、列車モードで実行します。現在のトレーニングモデルは、カバレッジトレーニング段階のカバレッジフラグをオンにして実行する準備ができている新しいバージョン（_COV_INIT Appleddedと同じ名前）にコピーされます。
イントラアデコーダー	間違い	イントラアデコーダーの注意を使用するかどうか
use_temporal_attention	真実	一時的な注意を使うかどうか
matrix_attention	間違い	マトリックスの注意を使用してください、eq。 2 https://arxiv.org/pdf/1705.04304.pdf
ETA	0	RL/MLEスケーリング係数、1はRL損失を使用することを意味し、0はMLE損失を使用することを意味します
sixed_eta	間違い	グローバルステップに基づいてETAまたはAdaptiveに固定値を使用する
ガンマ	0.99	RL報酬割引率
reward_function	rouge_l/f_score	ブルーまたはルージュメジャーのいずれか（rouge_1/f_score、rouge_2/f_score、rouge_l/f_score）

パウルス等。抽象的なテキスト要約のための自己批判的な政策勾配モデルを提案しました。次の図は、この方法がどのように機能し、この方法を実装したかを表しています。

実験を再現するには、次のプロセスセットを使用できます。

イントラデコーダーの注意と時間的注意を伴うMLE損失のみを使用した事前トレーニング

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --batch_size=80 --max_iter=20000 --use_temporal_attention=True --intradecoder=True --rl_training=False

検証データに関する事前に訓練されたモデルを評価します

ここでは、評価には別のGPUを使用しますが、バッチの数を減らすと同じGPUを使用できます。実装では、評価には8のバッチサイズ8を使用しますが、評価ステップごとに、検証データセットを100回反復します。これは、800のバッチサイズで評価エラーを見つけることに似ています。これは、評価プロセスに必要なメモリを減らし、1つのGPUでトレーニングと評価の両方を実行するためのオプションを提供するのに役立ちます。

CUDA_VISIBLE_DEVICES=1 python src/run_summarization.py --mode=eval --data_path= $HOME /data/cnn_dm/finished_files/chunked/val_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --batch_size=8 --use_temporal_attention=True --intradecoder=True --rl_training=False

MLE+RLトレーニングのアクティブ化

Paulus et alが示唆しているように、エントロピーの喪失からRL損失への線形遷移を使用して、最終的にRL損失に完全に依存してモデルを訓練します。パラメーターETAはこの遷移を制御します。 ETAをETA = 1/（最大RL反復）に設定します。

まず、必要なトレーニングパラメーターをモデルに追加します。

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --batch_size=80 --max_iter=40000 --intradecoder=True --use_temporal_attention=True --eta=2.5E-05 --rl_training=True --convert_to_reinforce_model=True

次に、MLE+RLトレーニング損失でモデルの実行を開始します。

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --batch_size=80 --max_iter=40000 --intradecoder=True --use_temporal_attention=True --eta=2.5E-05 --rl_training=True

検証データに関するMLE+RLトレーニングの評価

CUDA_VISIBLE_DEVICES=1 python src/run_summarization.py --mode=eval --data_path= $HOME /data/cnn_dm/finished_files/chunked/val_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --batch_size=8 --use_temporal_attention=True --intradecoder=True --rl_training=True

訓練されたモデルのデコードを開始します

Rougeを評価メトリックとして使用します。

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=decode --data_path= $HOME /data/cnn_dm/finished_files/chunked/test_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=intradecoder-temporalattention-withpretraining --rl_training=True --intradecoder=True --use_temporal_attention=True --single_pass=1 --beam_size=4 --decode_after=0

DDQNおよびDueling Networkを介したアクタークリティックモデル

パラメーターデフォルト説明
ac_training 間違い DDQNによるアクタークライティック学習を使用します。
DQN_SCHEDULED_SAMPLING 間違いスケジュールされたサンプリングを使用してDDQNモデルの推定値を使用するかどうか、実際のq-estimates値を使用する
dqn_layers 512,256,128 ddqn密な隠れ層サイズ。 512、256、および128サイズの3つの密な層が作成されます
DQN_REPLAY_BUFFER_SIZE 100000 リプレイバッファのサイズ
dqn_batch_size 100 DDQNモデルをトレーニングするためのバッチサイズ
dqn_target_update 10000 10000ステップごとにターゲットQネットワークを更新します
dqn_sleep_time 2 2秒ごとにDDQNモデルを訓練します
DQN_GPU_NUM 1 DDQNをトレーニングするGPU番号
dueling_net 真実デュエルネットワークを使用してモデルをトレーニングするかどうかhttps://arxiv.org/pdf/1511.06581.pdf
dqn_polyak_averaging 真実 PolyAK平均化を使用してターゲットQネットワークパラメーターを更新するかどうか：psi^{prime} =（tau * psi^{prime}）+（1-tau） * psi
calculate_true_q 間違い真のQ値を使用してDDQNをトレーニングするか、DDQNの推定値を使用してトレーニングするかどうか
DQN_PRETRAIN 間違い固定されたアクターモデルを使用してDDQNネットワークを前処理します
DQN_PRETRAIN_STEPS 10000 DDQNを事前に訓練するためのステップ数

パラメーター	デフォルト	説明
ac_training	間違い	DDQNによるアクタークライティック学習を使用します。
DQN_SCHEDULED_SAMPLING	間違い	スケジュールされたサンプリングを使用してDDQNモデルの推定値を使用するかどうか、実際のq-estimates値を使用する
dqn_layers	512,256,128	ddqn密な隠れ層サイズ。 512、256、および128サイズの3つの密な層が作成されます
DQN_REPLAY_BUFFER_SIZE	100000	リプレイバッファのサイズ
dqn_batch_size	100	DDQNモデルをトレーニングするためのバッチサイズ
dqn_target_update	10000	10000ステップごとにターゲットQネットワークを更新します
dqn_sleep_time	2	2秒ごとにDDQNモデルを訓練します
DQN_GPU_NUM	1	DDQNをトレーニングするGPU番号
dueling_net	真実	デュエルネットワークを使用してモデルをトレーニングするかどうかhttps://arxiv.org/pdf/1511.06581.pdf
dqn_polyak_averaging	真実	PolyAK平均化を使用してターゲットQネットワークパラメーターを更新するかどうか：psi^{prime} =（tau * psi^{prime}）+（1-tau） * psi
calculate_true_q	間違い	真のQ値を使用してDDQNをトレーニングするか、DDQNの推定値を使用してトレーニングするかどうか
DQN_PRETRAIN	間違い	固定されたアクターモデルを使用してDDQNネットワークを前処理します
DQN_PRETRAIN_STEPS	10000	DDQNを事前に訓練するためのステップ数

俳優criticモデルの一般的なフレームワークは次のとおりです。

実装では、アクターはポインタージェネレーターモデルであり、批評家は、ダブルディープQネットワーク（DDQN）を使用したQ値推定を最小限に抑える回帰モデルです。このコードは、DDQNトレーニングがメインスレッドとは異なるスレッド上にあるように実装されており、このネットワークのエクスペリエンスをアクターモデルから非同期に収集します。したがって、各バッチについて、DDQNトレーニングのために（batch_size * max_dec_steps）状態を収集します。優先順位のあるリプレイバッファーを実装しました。また、DDQNトレーニング中に、グラウンドトゥルースの要約に従って最良の部分的な報酬を持つ経験が含まれるように、常にミニバッチを選択します。真のQ推定に基づいてDDQNをトレーニングするオプションを追加し、このネットワークをトレーニングするためのスケジュールされたサンプリングプロセスを提供しました。真のQ推定を使用してDDQNをトレーニングすると、真のQ値の収集により、トレーニングの速度が大幅に低下することに注意してください。したがって、いくつかの反復に対してのみこれをアクティブにすることをお勧めします。 Bahdanauらによって示唆されているように。また、固定された事前に訓練された俳優を使用して、批評家モデルを最初に事前訓練し、次に同時に両方のモデルのトレーニングを開始することも良いことです。たとえば、次のコードセットを使用して、Bahdanau et al。と同様の実験を実行できます。

MLE損失のみを使用して俳優を事前に訓練します

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --batch_size=80 --max_iter=20000

現在のモデルに批評家モデルを追加します

dueling_netフラグをアクティブにすることにより、Dueling Networkを使用してDDQNをトレーニングできます。さらに、 dqn_polyak_averagingフラグによる平均化を使用して、ターゲットネットワークを更新することを選択できます。

CUDA_VISIBLE_DEVICES=0,1 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --batch_size=80 --max_iter=21000 --ac_training=True --dueling_net=True --dqn_polyak_averaging=True --convert_to_reinforce_model=True --dqn_gpu_num=1

固定俳優と一緒にトレーニング前の批評家を始めましょう

dqn_pretrain_stepsフラグを使用して、批評家を事前に訓練する反復額を設定します。

CUDA_VISIBLE_DEVICES=0,1 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --batch_size=80 --ac_training=True --dqn_pretrain=True --dueling_net=True --dqn_polyak_averaging=True --dqn_gpu_num=1

True Q-estimatesを使用して俳優/批評家のトレーニングを開始します

dqn_gpu_numオプションを使用して批評家に別のGPU番号を使用するだけで、あるGPUで俳優と別のGPUの批評家を実行できます。また、前述のように、真のQ推定を長く使用することを避ける必要があります。したがって、真の推定を使用して、1000回の反復でDDQNを訓練する必要があります。

CUDA_VISIBLE_DEVICES=0,1 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --batch_size=80 --max_iter=22000 --ac_training=True --dueling_net=True --dqn_polyak_averaging=True --calculate_true_q=True --dqn_gpu_num=1

Q-estimatesを使用して俳優/批評家のトレーニングを開始します

calculate_true_qフラグはもう使用していないことに注意してください。

CUDA_VISIBLE_DEVICES=0,1 python src/run_summarization.py --mode=train --data_path= $HOME /data/cnn_dm/finished_files/chunked/train_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --batch_size=80 --max_iter=40000 --ac_training=True --dueling_net=True --dqn_polyak_averaging=True --dqn_gpu_num=1

俳優と批評家の推定に基づくデコード

CUDA_VISIBLE_DEVICES=0 python src/run_summarization.py --mode=decode --data_path= $HOME /data/cnn_dm/finished_files/chunked/test_ * --vocab_path= $HOME /data/cnn_dm/finished_files/vocab --log_root= $HOME /working_dir/cnn_dm/RLSeq2Seq/ --exp_name=actor-critic-ddqn --ac_training=True --dueling_net=True --dqn_polyak_averaging=True --dqn_gpu_num=1 --single_pass=1 --beam_size=4

Actor-Criticモデルでは、 intradecoder 、 temporal_attention 、 E2EBackProp 、 scheduled_samplingなどのオプションも使用できることに注意してください。これらのオプションを使用すると、パフォーマンスを向上させる俳優モデルが得られます。

開発中

YAML構成のサポート

Actor-CriticモデルのディスクにReplayBufferを保存します

知識

@astorfiがこのドキュメントを準備するのを助けてくれてありがとう。

拡大する

RLSeq2Seq