language_model_tf下載language_model

language_model_tf

Ai源碼

1.0.0

下載

語言模型

語言建模是一項任務，將概率分配給單詞或各種語言單元的序列（例如字符，子字，句子等）。語言建模是現代自然語言處理（NLP）中最重要的問題之一，它用於許多NLP應用程序（例如語音識別，機器翻譯，文本摘要，咒語校正，自動完成等）。在過去的幾年中，與許多語言模型基準的傳統統計方法相比，神經方法取得了更好的結果。此外，最近的工作表明，語言模型預訓練可以以不同的方式改善許多NLP任務，包括基於功能的策略（例如Elmo等）和微調策略（例如OpenAI GPT，BERT等），甚至在零攝像設置（例如OpenAI GPT-2等）中。

圖1：由語言建模提供動力的自動完成的示例

環境

Python 3.6.6
TensorFlow 1.12
numpy 1.15.4
NLTK 3.3

數據集

Wikipedia語料庫包含2014年Wikipedia垃圾場（約440萬頁）中約有20億個文字。據我們所知，我們的Wikipedia全文數據是Wikipedia最近副本中唯一可用的版本。
BooksCorpus：書籍是細粒度，角色，對像或場景的豐富來源，以及高級語義，某人的想法，感覺以及這些狀態如何通過故事發展。這項工作旨在使書籍與他們的電影發行相結合，以便為視覺內容提供豐富的描述性解釋，這些說明在語義上遠遠超出了當前數據集中可用的字幕。
十億個單詞基準是針對語言建模實驗的標準培訓和測試設置的目標。該基準有近十億個培訓數據，旨在幫助研究人員快速評估其語言建模技術的新穎性，並在與其他高級技術結合使用時輕鬆比較貢獻。
手套是一種無監督的學習算法，用於獲得單詞的向量表示。培訓是對來自語料庫的匯總全球單詞共同出現統計信息進行的，結果表示介紹了vector Space一詞的有趣線性子結構。

用法

預處理數據

 # convert raw data
python preprocess/convert_data.py --dataset wikipedia --input_dir data/wikipedia/raw --output_dir data/wikipedia/processed --min_seq_len 0 --max_seq_len 512
# prepare vocab & embed files
python prepare_resource.py 
--input_dir data/wikipedia/processed --max_word_size 512 --max_char_size 16 
--full_embedding_file data/glove/glove.840B.300d.txt --word_embedding_file data/wikipedia/resource/lm.word.embed --word_embed_dim 300 
--word_vocab_file data/wikipedia/resource/lm.word.vocab --word_vocab_size 100000 
--char_vocab_file data/wikipedia/resource/lm.char.vocab --char_vocab_size 1000

運行實驗

 # run experiment in train + eval mode
python language_model_run.py --mode train_eval --config config/config_lm_template.xxx.json
# run experiment in train only mode
python language_model_run.py --mode train --config config/config_lm_template.xxx.json
# run experiment in eval only mode
python language_model_run.py --mode eval --config config/config_lm_template.xxx.json

編碼文本

 # encode text as ELMo vector
python language_model_run.py --mode encode --config config/config_lm_template.xxx.json

搜索超參數

 # random search hyper-parameters
python hparam_search.py --base-config config/config_lm_template.xxx.json --search-config config/config_search_template.xxx.json --num-group 10 --random-seed 100 --output-dir config/search

可視化摘要

 # visualize summary via tensorboard
tensorboard --logdir=output

模型

雙向語言模型（BILM）

給定序列，雙向語言模型計算序列前進的概率，

然後，它以相反順序在序列上運行，以計算序列的概率，

序列首先通過共享的嵌入層，然後在兩個方向上以多層RNN（例如LSTM，GRU等）進行建模，最後應用SoftMax歸一化以獲得概率，

圖2：雙向語言模型體系結構（來源：廣義語言模型）

該模型是通過共同最大程度地減少向前和向後方向的負模可能性來訓練的，

參考

Matthew E. Peters，Mark Neumann，Mohit Iyyer，Matthew Gardner，Christopher T Clark，Kenton Lee和Luke S. S.深層上下文化的單詞表示[2018]
Alec Radford，Karthik Narasimhan，Tim Salimans和Ilya Sutskever。通過生成預訓練來提高語言理解[2018]
Jacob Devlin，Ming-Wei Chang，Kenton Lee和Kristina Toutanova。 BERT：深層雙向變壓器的培訓以進行語言理解[2018]
Alec Radford，Jeffrey Wu，Rewon Child，David Luan，Dario Amodei和Ilya Sutskever。語言模型是無監督的多任務學習者[2019]

展開

附加信息

版本 1.0.0
類型 Ai源碼
更新時間 2025-09-10
大小 512.94KB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
狗_狐狸_兔子

2022-08-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部