该回购包含10,000个最常见的英语单词的列表,按频率顺序排列,通过Google的数万亿个单词语料库的n-gram频率分析确定。
根据Google Machine Translation团队:
在Google Research,我们一直在使用Word N-Gram模型用于各种研发项目,例如统计机器翻译,语音识别,拼写校正,实体检测,信息提取等。尽管通常从包含数十亿个单词的培训语料库中估算了此类模型,但我们一直在利用Google的数据中心和分布式处理基础架构来处理越来越大的培训语料库。我们发现,没有更多数据之类的数据,并以一个数量级的顺序扩展了我们的数据大小,然后再扩大了一个数据的规模,然后再扩大了一个数据 - 从公共网页上产生了一个数万亿个单词的培训语料库。
我们认为,整个研究界可以从获取大量数据的访问中受益。它将推进最新技术,它将将研究集中在大规模,数据驱动的方法的有希望的方向上,并且无论其计算资源多大或小的计算资源都可以一起播放。这就是为什么我们决定与所有人共享这个庞大的数据集的原因。我们处理了1,024,908,267,229个单词,并正在发布所有1,176,470,663个五字序列的计数,这些序列至少出现了40次。在丢弃了少于200次的单词之后,有13,588,391个独特的单词。
该仓库来自彼得·诺维格(Peter Norvig)对1/30万最常见的英语单词的汇编。我将此文件限于10,000个最常见的单词,然后通过在我的文本编辑器中运行此SED命令来删除附加频率计数:
sed 's/[0-9]*//g'
特别感谢Koseki删除了列表。
还有两个其他列表与原始的10,000个单词列表相同,但删除了发誓单词。根据这些列表,删除了发誓单词:
其中三个列表(全部基于美国英语列表)基于单词长度:
每个列表都保留原始列表排序(按频率,预期)。
该仓库可作为输入培训计划的语料库。根据对牛津英语语料库的分析,7,000个最常见的英语诱饵约占使用的90%,因此10,000个单词培训语料库足以用于实用培训应用。
要将此列表用作阳光型中的培训语料库,请将内容粘贴到以下设置的“课程生成器”选项卡中:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
在“来源”选项卡中,您应该看到可用于培训的Google-10000英语。将WPM设置为比当前平均水平的10个,将精度设置为98%,您将进行训练。
享受!