Ce dépôt contient une liste des 10 000 mots anglais les plus courants par ordre de fréquence, tel que déterminé par l'analyse de fréquence N-gramme du Corpus Word Tillion de Google.
Selon l'équipe de traduction de Google Machine:
Chez Google Research, nous utilisons des modèles Word N-gram pour une variété de projets de R&D, tels que la traduction automatique statistique, la reconnaissance de la parole, la correction de l'orthographe, la détection des entités, l'extraction d'informations et autres. Bien que de tels modèles aient généralement été estimés à partir des corpus de formation contenant au plus quelques milliards de mots, nous avons exploité la vaste puissance des centres de données de Google et des infrastructures de traitement distribuées pour traiter les corpus de formation de plus en plus grands. Nous avons constaté qu'il n'y avait pas de données comme plus de données, et avons augmenté la taille de nos données par un ordre de grandeur, puis une autre, puis une autre - résultant en un corpus de formation d'un billion de mots à partir de pages Web publiques.
Nous pensons que toute la communauté de recherche peut bénéficier d'un accès à de telles quantités massives de données. Il fera progresser l'état de l'art, il concentrera la recherche dans la direction prometteuse des approches à grande échelle et axées sur les données, et elle permettra à tous les groupes de recherche, peu importe la grande ou la taille de leurs ressources informatiques, de jouer ensemble. C'est pourquoi nous avons décidé de partager cet énorme ensemble de données avec tout le monde. Nous avons traité 1 024 908 267 229 mots de texte en cours d'exécution et publient les dénombrements pour toutes les séquences de 1 176 470 663 mots qui apparaissent au moins 40 fois. Il y a 13 588 391 mots uniques, après avoir jeté des mots qui apparaissent moins de 200 fois.
Ce repo est dérivé de la compilation par Peter Norvig des 1/3 millions de mots anglais les plus fréquents. J'ai limité ce fichier aux 10 000 mots les plus courants, puis j'ai supprimé le nombre de fréquences annexées en exécutant cette commande SED dans mon éditeur de texte:
sed 's/[0-9]*//g'
Un merci spécial à Koseki d'avoir désépliqué la liste.
Il existe deux listes supplémentaires qui sont identiques à la liste d'origine des 10 000 mots, mais avec des mots de juron supprimés. Les mots de jure ont été supprimés en fonction de ces listes:
Trois des listes (toutes basées sur la liste des États-Unis en anglais) sont basées sur la longueur des mots:
Chaque liste conserve le tri de liste original (par fréquence, décennie).
Ce repo est utile comme corpus pour taper des programmes de formation. Selon l'analyse de l'Oxford English Corpus, les 7 000 lemmes anglais les plus courants représentent environ 90% de l'utilisation, donc un corpus de formation de 10 000 mots est plus que suffisant pour des applications de formation pratiques.
Pour utiliser cette liste comme corpus de formation en amphétype, collez le contenu dans l'onglet "Générateur de leçon" avec les paramètres suivants:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
Dans l'onglet "Sources", vous devriez voir Google-10000-anglais disponible pour la formation. Réglez WPM à 10 de plus que votre moyenne actuelle, définissez la précision à 98% et vous êtes prêt à vous entraîner.
Apprécier!