tying wv and wc

tying wv and wc

AI ソースコード

1.0.0

ダウンロード

単語ベクトルと単語分類器を結ぶ：言語モデリングのための損失フレームワーク

「単語ベクトルと単語分類器を結ぶための実装：言語モデリングのための損失フレームワーク」

この論文は、深いニューラルネットワークを訓練するために、単語の意味の多様性を利用しようとします。

紙の概要

モチベーション

言語モデリング（単語シーケンスの予測）では、単語の意味の多様性を表現したいと考えています。
たとえば、「バナナはおいしい___」の隣の単語を予測する場合、答えは「フルーツ」ですが、「お菓子」、「食べ物」も問題ありません。しかし、通常の1ホットのベクター教育は、それを達成するのに適していません。同様の単語は無視されたが、正確な回答語。

1ホットではなく「分布」を使用できれば、この多様性を教えることができます。

方法

したがって、モデルを教えるために「単語の分布」を使用します。この分布は、回答語から取得し、ルックアップマトリックスを埋め込みました。

この分布タイプの損失を使用すると、入力埋め込みと出力投影マトリックスの等価性を証明できます。

分布タイプの損失と入力埋め込みおよび出力投影等価制限を使用すると、モデルの困惑が向上します。

実験

実装

ケラス：モデルを実装する
Chazutsu：データセットをダウンロードします

結果

Penn TreeBankデータセットで15エポックを実行します。
- perplexityスコアは大きく、その実装に自信が持てませんでした。プルリクエストを待っています！
augmentedmodelベースライン（ onehotmodel ）よりもうまく機能し、 augmentedmodel_tyingベースラインよりも優れています！
この実験はpython train.pyで実行できます

Stateful LSTMバージョンを実装しました。その結果は次のとおりです。

困惑が改善され（ただしZaggy）、タイインメソッドはその効果を少し失います。
KerasでStateful LSTMを使用するには、特に検証セットのreset_states ）が難しすぎるため、制限が含まれている可能性があります。

追加の検証

トレーニングの開始時に、「教師の分布」を生成するためにマトリックスを埋め込むことはまだ訓練されていません。したがって、提案された方法には最初は少しハンディキャップがあります。
- しかし、トレーニングの遅延は観察されませんでした
温度（アルファ）を上げると、トレーニング速度が向上する可能性があります。
事前に訓練されたワードベクトルを使用するか、ある程度の間隔で埋め込みマトリックス重量を修正するには（補強学習での固定ターゲット技術（深い補強学習を参照してください））、トレーニングにも効果があります。

ちなみに、Pytorchの例はすでにタイプ方法を使用しています！それを使うことを恐れないでください！

拡大する

追加情報