該回購包含10,000個最常見的英語單詞的列表,按頻率順序排列,通過Google的數万億個單詞語料庫的n-gram頻率分析確定。
根據Google Machine Translation團隊:
在Google Research,我們一直在使用Word N-Gram模型用於各種研發項目,例如統計機器翻譯,語音識別,拼寫校正,實體檢測,信息提取等。儘管通常從包含數十億個單詞的培訓語料庫中估算了此類模型,但我們一直在利用Google的數據中心和分佈式處理基礎架構來處理越來越大的培訓語料庫。我們發現,沒有更多數據之類的數據,並以一個數量級的順序擴展了我們的數據大小,然後再擴大了一個數據的規模,然後再擴大了一個數據- 從公共網頁上產生了一個數万億個單詞的培訓語料庫。
我們認為,整個研究界可以從獲取大量數據的訪問中受益。它將推進最新技術,它將將研究集中在大規模,數據驅動的方法的有希望的方向上,並且無論其計算資源多大或小的計算資源都可以一起播放。這就是為什麼我們決定與所有人共享這個龐大的數據集的原因。我們處理了1,024,908,267,229個單詞,並正在發布所有1,176,470,663個五字序列的計數,這些序列至少出現了40次。在丟棄了少於200次的單詞之後,有13,588,391個獨特的單詞。
該倉庫來自彼得·諾維格(Peter Norvig)對1/30萬最常見的英語單詞的彙編。我將此文件限於10,000個最常見的單詞,然後通過在我的文本編輯器中運行此SED命令來刪除附加頻率計數:
sed 's/[0-9]*//g'
特別感謝Koseki刪除了列表。
還有兩個其他列表與原始的10,000個單詞列表相同,但刪除了發誓單詞。根據這些列表,刪除了發誓單詞:
其中三個列表(全部基於美國英語列表)基於單詞長度:
每個列表都保留原始列表排序(按頻率,預期)。
該倉庫可作為輸入培訓計劃的語料庫。根據對牛津英語語料庫的分析,7,000個最常見的英語誘餌約佔使用的90%,因此10,000個單詞培訓語料庫足以用於實用培訓應用。
要將此列表用作陽光型中的培訓語料庫,請將內容粘貼到以下設置的“課程生成器”選項卡中:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
在“來源”選項卡中,您應該看到可用於培訓的Google-10000英語。將WPM設置為比當前平均水平的10個,將精度設置為98%,您將進行訓練。
享受!