このリポジトリには、Googleの1兆語のコーパスのn-gram周波数分析によって決定される、周波数の順に、最も一般的な10,000の英語の単語のリストが含まれています。
Google Machine Translationチームによると:
ここでは、Google Researchでは、統計機械翻訳、音声認識、スペル修正、エンティティ検出、情報抽出など、さまざまなR&DプロジェクトにWord N-Gramモデルを使用しています。このようなモデルは通常、最大数十億語を含むトレーニングコーパスから推定されていますが、Googleのデータセンターと分散処理インフラストラクチャの広大なパワーを活用して、より大きなトレーニングコーパスを処理しています。より多くのデータのようなデータはないことがわかり、データのサイズを1桁、もう1つ、さらにもう1つはパブリックWebページから1兆語のトレーニングコーパスを作成しました。
私たちは、研究コミュニティ全体がこのような膨大な量のデータへのアクセスから利益を得ることができると考えています。最先端を前進させ、大規模でデータ駆動型のアプローチの有望な方向に研究に焦点を当て、コンピューティングリソースがどれほど大きくても、すべての研究グループが一緒にプレイできるようにします。そのため、この巨大なデータセットをすべての人と共有することにしました。実行中のテキストの1,024,908,267,229語を処理し、少なくとも40回表示する1,176,470,663の5ワードシーケンスすべてのカウントを公開しています。 200倍未満の単語を破棄した後、13,588,391のユニークな単語があります。
このレポは、ピーター・ノーヴィヒの最も頻繁な英語の単語の編集から派生しています。このファイルを10,000の最も一般的な単語に限定し、テキストエディターでこのSEDコマンドを実行することにより、追加された頻度カウントを削除しました。
sed 's/[0-9]*//g'
リストを非複製してくれたKosekiに感謝します。
元の10,000ワードリストと同一の2つの追加リストがありますが、誓いの単語は削除されています。誓いの言葉は、これらのリストに基づいて削除されました。
リストの3つ(すべて米国の英語リストに基づいて)は、単語の長さに基づいています。
各リストは、元のリストのソートを保持します(頻度、減少)。
このレポは、トレーニングプログラムを入力するためのコーパスとして役立ちます。 Oxford English Corpusの分析によると、7,000の最も一般的な英語補題は使用量の約90%を占めているため、10,000語のトレーニングコーパスは実用的なトレーニングアプリケーションに十分すぎるほどです。
このリストをアンフェタイプのトレーニングコーパスとして使用するには、次の設定でコンテンツを「レッスンジェネレーター」タブに貼り付けます。
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
[ソース]タブでは、 Google-10000-Englishがトレーニングに利用できるようになります。現在の平均より10個高いWPMを設定し、精度を98%に設定すると、トレーニングを行う予定です。
楽しむ!