PyTorch_GBW_LM
1.0.0
在1亿个单词(LM1B) /(GBW)数据集的大规模pytorch语言模型
| 类型 | LM内存大小 | GPU |
|---|---|---|
| 带有绑定重量 | 〜9 GB | NVIDIA 1080 TI,NVIDIA TITAN X |
| 带绑重的权重[6] | 〜7 GB | NVIDIA 1070或更高 |
| 范围 | 价值 |
|---|---|
| #时代 | 5 |
| 培训批量大小 | 128 |
| 评估批量大小 | 1 |
| BPTT | 20 |
| 嵌入尺寸 | 256 |
| 隐藏尺寸 | 2048 |
| 投影大小 | 256 |
| 绑扎 + softmax | 错误的 |
| #层 | 1 |
| 优化器 | Adagrad |
| 学习率 | 0.10 |
| 梯度剪裁 | 1.00 |
| 辍学 | 0.01 |
| 体重 - 纪念日(L2罚款) | 1E-6 |
我利用用于火炬框架的GBW数据预处理。 (请参阅Torch GBW)每个数据张量包含数据分区中的所有单词。 “ train_data.sid”文件标记了每个独立句子的开始和结束位置。预处理步骤和“ train_data.sid”文件加快了大量培训数据。
火炬数据格式一次加载整个数据集,因此它至少需要32 GB的内存。原始格式将数据集划分为较小的块,但运行速度较慢。