PyTorch_GBW_LM
1.0.0
在1億個單詞(LM1B) /(GBW)數據集的大規模pytorch語言模型
| 類型 | LM內存大小 | GPU |
|---|---|---|
| 帶有綁定重量 | 〜9 GB | NVIDIA 1080 TI,NVIDIA TITAN X |
| 帶綁重的權重[6] | 〜7 GB | NVIDIA 1070或更高 |
| 範圍 | 價值 |
|---|---|
| #時代 | 5 |
| 培訓批量大小 | 128 |
| 評估批量大小 | 1 |
| BPTT | 20 |
| 嵌入尺寸 | 256 |
| 隱藏尺寸 | 2048 |
| 投影大小 | 256 |
| 綁紮 + softmax | 錯誤的 |
| #層 | 1 |
| 優化器 | Adagrad |
| 學習率 | 0.10 |
| 梯度剪裁 | 1.00 |
| 輟學 | 0.01 |
| 體重 - 紀念日(L2罰款) | 1E-6 |
我利用用於火炬框架的GBW數據預處理。 (請參閱Torch GBW)每個數據張量包含數據分區中的所有單詞。 “ train_data.sid”文件標記了每個獨立句子的開始和結束位置。預處理步驟和“ train_data.sid”文件加快了大量培訓數據。
火炬數據格式一次加載整個數據集,因此它至少需要32 GB的內存。原始格式將數據集劃分為較小的塊,但運行速度較慢。