language_model_tfダウンロードlanguage_model_tfソースコードダウンロード

language_model_tf

AI ソースコード

1.0.0

ダウンロード

言語モデル

言語モデリングは、単語またはさまざまな言語単位のシーケンス（char、subword、centeなど）のシーケンスに確率を割り当てるタスクです。言語モデリングは、現代の自然言語処理（NLP）で最も重要な問題の1つであり、多くのNLPアプリケーション（たとえば、音声認識、機械翻訳、テキストの要約、呪文修正、自動完了など）で使用されています。過去数年間で、ニューラルアプローチは、多くの言語モデルベンチマークで従来の統計的アプローチよりも優れた結果を達成してきました。さらに、最近の研究では、言語モデルの事前トレーニングが、機能ベースの戦略（ELMOなど）や微調整戦略（Openai GPT、BERTなど）、またはゼロショット設定（OpenAI GPT-2など）など、さまざまな方法で多くのNLPタスクを改善できることが示されています。

図1：言語モデリングを搭載した自動完了の例

設定

Python 3.6.6
Tensorflow 1.12
Numpy 1.15.4
NLTK 3.3

データセット

ウィキペディアコーパスには、2014年のウィキペディアのダンプ（約440万ページ）から約20億語のテキストが含まれています。私たちが知る限り、ウィキペディアのフルテキストデータは、ウィキペディアの最近のコピーから入手できる唯一のバージョンです。
bookscorpus：本は、きめの細かい情報、キャラクター、オブジェクト、シーンがどのように見えるか、高レベルのセマンティクス、誰かが考えていること、感じていること、そしてこれらの状態が物語を通してどのように進化するかの両方の豊富なソースです。この作品は、本のリリースに本を並べることを目的としており、現在のデータセットで利用可能なキャプションをはるかに超えて、意味的には視覚的なコンテンツに豊富な説明的な説明を提供することです。
10億語のベンチマークは、言語モデリング実験の標準的なトレーニングとテストのセットアップを利用できるようにすることを目的としています。このベンチマークには、約10億語のトレーニングデータが含まれており、研究者が新規の言語モデリング手法を迅速に評価し、他の高度な技術と組み合わせると貢献を簡単に比較することを目指しています。
Gloveは、単語のベクトル表現を取得するための監視されていない学習アルゴリズムです。トレーニングは、コーパスからの集計されたグローバルワードワード共起統計で実行され、結果の表現は単語ベクトル空間の興味深い線形下部構造を示しています。

使用法

プリプロースデータ

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

実験を実行します

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

テキストをエンコードします

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

ハイパーパラメーターを検索します

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

概要を視覚化します

 # visualize summary via tensorboard
tensorboard --logdir=output

モデル

双方向言語モデル（ビルム）

シーケンスが与えられた場合、双方向言語モデルは、シーケンスの前方の確率を計算します。

次に、シーケンスの確率を計算するために、逆順にシーケンスを越えます。

シーケンスは最初に共有埋め込み層を通過し、次にマルチレイヤーRNN（LSTM、GRUなど）によって両方向にモデル化され、最終的にソフトマックス正規化が適用され、確率が得られます。

図2：双方向言語モデルアーキテクチャ（出典：一般化言語モデル）

このモデルは、前方方向と後方方向の負のログの可能性を共同で最小限に抑えることによってトレーニングされます。

参照

マシュー・E・ピーターズ、マーク・ノイマン、モヒト・イイヤー、マシュー・ガードナー、クリストファー・T・クラーク、ケントン・リー、ルーク・S・ゼトルモイヤー。深い文脈化された単語表現[2018]
アレック・ラドフォード、カルティック・ナラシムハン、ティム・サリマンズ、イリヤ・サツケバー。生成前のトレーニングによる言語理解の向上[2018]
ジェイコブ・デヴリン、ミン・ウェイ・チャン、ケントン・リー、クリスティーナ・タウタノバ。バート：言語理解のための深い双方向変圧器の事前訓練[2018]
アレック・ラドフォード、ジェフリー・ウー、レウォン・チャイルド、デビッド・ルアン、ダリオ・アモデイ、イリヤ・サツケバー。言語モデルは監視されていないマルチタスク学習者です[2019]

拡大する

追加情報