transformer pointer generatorダウンロード - transformer pointer generatorソースコードのダウンロード

transformer pointer generator

その他のソースコード

1.0.0

ダウンロード

トランスとポインタージェネレーターを使用した抽象的な要約実装

Neural Networkで要約を取得したかったとき、抽象的な概要を生成するために多くの方法を試しましたが、結果は良くありませんでした。 2018年のバイトカップを聞いたとき、私はそれに関するいくつかの情報を見つけました、そして、チャンピオンのソリューションが私を惹きつけましたが、Github Gitlabのようないくつかのウェブサイトを見つけました、私は公式コードを見つけなかったので、私はそれを実装することにしました。

要件

python == 3.x（Python 2を使用している場合はPython 3に進みましょう）
Tensorflow == 1.12.0
TQDM> = 4.28.1
Jieba> = 0.3x
sumeval> = 0.2.0

モデル構造

ベース

私のモデルは注意に基づいています。

変化

Pointer-generatorモデルには、コピーメカニズムとカバレッジメカニズムである2つのメカニズムがあります。いくつかの材料を見つけました。カバレッジメカニズムが短い要約に合わないことを示しているため、このメカニズムを使用せず、最初のメカニズムを使用します。
ポインタージェネレーターモデルには不十分なものがあり、損失がナンを手に入れることができますが、私は何度か試してみて、それを修正したいと思っていましたが、その理由は、最終ロジストを計算すると、ボカブの長さをOOVと音声長の長さまで拡張し、より多くのゼロになります。そのため、最終的なロジストを拡張するメカニズムを削除し、記事とvocabからのデコードのメカニズムを使用します。それについての詳細があります。このモデルでは、私はVocabよりも単語を使用しています。このアイデアはBertからです。

構造

トレーニング

ステップ1。データセットをダウンロードし、PWDはAYN6、データセットは事前処理されているため、各行にLCSTを持つデータセット構造が非常に異なるデータセット構造が表示されます。各行は抽象的であり、記事は「」で分割されます。
ステップ2。次のコマンドを実行します。

 python train.py

hparams.pyを確認して、どのパラメーターが可能かを確認してください。例えば、

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

私のコードもマルチGPUを改善してこのモデルをトレーニングします。複数のGPUがある場合は、このように実行するだけです

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

名前	タイプ	詳細
vocab_size	int	音声サイズ
電車	str	トレーニングデータセットdir
評価します	str	評価データセットdir
テスト	str	ルージュスコアを計算するためのデータ
語彙	str	語彙ファイルパス
batch_size	int	トレーニングバッチサイズ
eval_batch_size	int	バッチサイズを評価します
LR	フロート	学習率
warmup_steps	int	学習率によるウォームアップステップ
logdir	str	ログディレクトリ
num_epochs	int	列車の時代の数
evaldir	str	評価監督
d_model	int	エンコーダー/デコーダーの隠された寸法
d_ff	int	フィードフォワードレイヤーの隠された寸法
num_blocks	int	エンコーダー/デコーダーブロックの数
num_heads	int	注意ヘッドの数
maxlen1	int	ソースシーケンスの最大長
maxlen2	int	ターゲットシーケンスの最大長
dropout_rate	フロート	ドロップアウト率
beam_size	int	デコード用のビームサイズ
gpu_nums	int	GPUの量、このモデルをトレーニングできるGPUの数、デフォルト1