TextGAN PyTorchダウンロードTextGAN PyTorchソースコードのダウンロード

TextGAN PyTorch

その他のソースコード

1.0.0

ダウンロード

Textgan-Pytorch

Textganは、一般的なテキスト生成モデルやカテゴリテキスト生成モデルを含む、生成敵対的ネットワーク（GAN）ベースのテキスト生成モデルのPytorchフレームワークです。 TextGanは、GANベースのテキスト生成モデルの研究をサポートするベンチマークプラットフォームとして機能します。ほとんどのGANベースのテキスト生成モデルはTensorflowによって実装されているため、TextganはPytorchに慣れている人がテキスト生成フィールドをより速く入力するのに役立ちます。

私の実装で間違いがある場合は、私に知らせてください！また、他のモデルを追加したい場合は、このリポジトリにお気軽に貢献してください。

要件

pytorch> = 1.1.0
Python 3.6
Numpy 1.14.5
CUDA 7.5+（GPU用）
NLTK 3.4
TQDM 4.32.1
Kenlm（https://github.com/kpu/kenlm）

インストールするには、 pip install -r requirements.txtを実行します。Txt。 CUDAの問題の場合は、公式のPytorch Get Guide Guideに相談してください。

Kenlmインストール

Stable Release and Unzip：http：//kheafield.com/code/kenlm.tar.gzをダウンロードしてください
ブースト> = 1.42.0とBJAMが必要です
- ubuntu： sudo apt-get install libboost-all-dev
- Mac： brew install boost; brew install bjam
Kenlmディレクトリ内で実行します。
```
mkdir -p build
cd build
cmake ..
make -j 4
```
pip install https://github.com/kpu/kenlm/archive/master.zip
Kenlmの詳細については、https：//github.com/kpu/kenlmおよびhttp://kheafield.com/code/kenlm/を参照してください。

実装されたモデルとオリジナルペーパー

一般的なテキスト生成

seqgan -seqgan：ポリシー勾配を備えたシーケンス生成敵対網
Leakgan-漏れた情報を使用した敵対的なトレーニングによる長いテキスト生成
MALIGAN-最大尤度では、個別の生成官能ネットワークが増強されました
JSDGAN-判別器として明示的なニューラルネットワークのない敵対的な離散シーケンス生成
Relgan -relgan：テキスト生成のためのリレーショナル生成敵対ネットワーク
DPGAN -DP-GAN：有益で多様化したテキストを生成するための多様性促進生成官能ネットワーク
DGSAN -DGSAN：離散生成自己副産物ネットワーク
COT -COT：離散データの生成モデリングのための協力トレーニング

カテゴリテキスト生成

Sentigan -Sentigan：混合物を介して感傷的なテキストを生成する敵対的ネットワーク
キャットガン（私たち） - キャットガン：カテゴリテキスト生成のための階層的進化学習を備えたカテゴリに対応する生成官能ネットワーク

始めましょう

始めましょう

git clone https://github.com/williamSYSU/TextGAN-PyTorch.git
cd TextGAN-PyTorch

実際のデータ実験では、すべてのデータセット（ Image COCO 、 EMNLP NEWs 、 Movie Review 、 Amazon Review ）をこちらからダウンロードできます。
特定のモデルで実行します

 cd run
python3 run_[model_name].py 0 0	# The first 0 is job_id, the second 0 is gpu_id

# For example
python3 run_seqgan.py 0 0

特徴

インストラクター
各モデルについて、ラーンプロセス全体がinstructor/oracle_data/seqgan_instructor.pyで定義されます。（たとえば、合成データ実験でseqganを取ります）。 init_model()やoptimize()などの基本的な関数は、 instructor.pyのベースクラスBasicInstructorで定義されています。新しいGANベースのテキスト生成モデルを追加する場合は、 instructor/oracle_dataの下に新しいインストラクターを作成し、モデルのトレーニングプロセスを定義してください。
視覚化
utils/visualization.pyを使用して、モデルの損失やメトリックスコアを含むログファイルを視覚化します。 log_file_listでログファイルをカスタマイズしますlen(color_list)ログファイル名は.txtを除外する必要があります。
ロギング
TextGan-Pytorchは、Pythonのloggingモジュールを使用して、発電機の損失やメートルスコアなどの実行プロセスを記録します。視覚化の便利さのために、 log/log_****_****.txtとsave/**/log.txt 。さらに、コードは、モデルの状態のdictと、 ./save/**/models **/modelsおよび./save/**/samples in log stepのバッチサイズのジェネレーターのサンプルを自動的に保存します。ここで、 **ハイパーパラメーターに依存します。
ランニング信号
辞書ファイルrun_signal.txtに基づいて、クラスSignal （ utils/helpers.pyを参照してください）でトレーニングプロセスを簡単に制御できます。
Signalを使用するには、ローカルファイルrun_signal.txtを編集し、 pre_sig Fasleに設定するだけで、プログラムはトレーニング前のプロセスを停止し、次のトレーニングフェーズに足を踏み入れます。現在のトレーニングで十分だと思われる場合は、トレーニングを早期に停止するのが便利です。
GPUを自動的に選択します
config.pyでは、プログラムは、 nvidia-smiでGPU-Utilが最小のGPUデバイスを自動的に選択します。この機能はデフォルトで有効になっています。 GPUデバイスを手動で選択する場合は、 run_[run_model].pyの--device argsを除外して、コマンド付きのGPUデバイスを指定してください。