tying wv and wc下载tying wv and wc源代码下载

tying wv and wc

Ai源码

1.0.0

下载

绑定单词向量和单词分类器：语言建模的损失框架

“绑定单词向量和单词分类器：语言建模的损失框架”的实现

本文试图利用单词的多样性来训练深层神经网络。

纸质摘要

动机

在语言建模（单词序列的预测）中，我们想表达单词含义的多样性。
例如，当预测“香蕉是美味的___”旁边的单词时，答案是“水果”，但“ sweets”，“食物”也可以。但是，普通的一旋向量教学不适合实现它。因为任何类似的词都被忽略了，但是确切的答案词。

如果我们不能使用一局，而是“分发”，我们可以教这个品种。

方法

因此，我们使用“单词的分布”来教授模型。此分布是从答案单词获得的，并嵌入了查找矩阵。

架构.png

如果我们使用此分布类型损失，那么我们可以证明输入嵌入和输出投影矩阵之间的等效性。

使用分布类型损失和输入嵌入和输出投影等价限制可改善模型的困惑。

实验

执行

凯拉斯：实施模型
chazutsu：下载数据集

结果

在Penn Treebank数据集上运行15个时代。
- perplexity得分很高，我对其实施不信心。我在等拉请求！
augmentedmodel比基线（ onehotmodel ）更好，并且augmentedmodel_tying表现优于基线！
您可以通过python train.py进行此实验

我实施了状态LSTM版本。其结果如下。

复杂性得到改善（但Zaggy），而绑定的方法略有失去其效果。
在keras中使用状态的LSTM太难了（尤其是验证集中的reset_states ），因此可能包含一定的限制。

附加验证

在培训开始时，嵌入矩阵以产生“教师分布”尚未接受培训。因此，提出的方法起初有一点障碍。
- 但是没有观察到训练的延迟
逐渐提高温度（α）可能会提高训练速度。
要使用预训练的单词矢量或修复某个间隔的嵌入矩阵重量（固定目标技术（请参阅深度强化学习））也将对培训产生影响。

顺便说一句，Pytorch示例已经使用了绑定方法！不要害怕使用它！

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-09-07
大小 445.03KB
来自于 Github

tying wv and wc

绑定单词向量和单词分类器：语言建模的损失框架

纸质摘要

动机

方法

实验

执行

结果

附加验证

洞和吉

勇气与荣耀

将军和统治者

航行与牺牲

心与斩

电力和再保险

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express