Téléchargement google 10000 english - Téléchargement du code source google 10000 english

google 10000 english

Autre code source

1.0.0

Télécharger

À propos de ce repo

Ce dépôt contient une liste des 10 000 mots anglais les plus courants par ordre de fréquence, tel que déterminé par l'analyse de fréquence N-gramme du Corpus Word Tillion de Google.

Selon l'équipe de traduction de Google Machine:

Chez Google Research, nous utilisons des modèles Word N-gram pour une variété de projets de R&D, tels que la traduction automatique statistique, la reconnaissance de la parole, la correction de l'orthographe, la détection des entités, l'extraction d'informations et autres. Bien que de tels modèles aient généralement été estimés à partir des corpus de formation contenant au plus quelques milliards de mots, nous avons exploité la vaste puissance des centres de données de Google et des infrastructures de traitement distribuées pour traiter les corpus de formation de plus en plus grands. Nous avons constaté qu'il n'y avait pas de données comme plus de données, et avons augmenté la taille de nos données par un ordre de grandeur, puis une autre, puis une autre - résultant en un corpus de formation d'un billion de mots à partir de pages Web publiques.
Nous pensons que toute la communauté de recherche peut bénéficier d'un accès à de telles quantités massives de données. Il fera progresser l'état de l'art, il concentrera la recherche dans la direction prometteuse des approches à grande échelle et axées sur les données, et elle permettra à tous les groupes de recherche, peu importe la grande ou la taille de leurs ressources informatiques, de jouer ensemble. C'est pourquoi nous avons décidé de partager cet énorme ensemble de données avec tout le monde. Nous avons traité 1 024 908 267 229 mots de texte en cours d'exécution et publient les dénombrements pour toutes les séquences de 1 176 470 663 mots qui apparaissent au moins 40 fois. Il y a 13 588 391 mots uniques, après avoir jeté des mots qui apparaissent moins de 200 fois.

Ce repo est dérivé de la compilation par Peter Norvig des 1/3 millions de mots anglais les plus fréquents. J'ai limité ce fichier aux 10 000 mots les plus courants, puis j'ai supprimé le nombre de fréquences annexées en exécutant cette commande SED dans mon éditeur de texte:

 sed 's/[0-9]*//g'

Un merci spécial à Koseki d'avoir désépliqué la liste.

Jurer listes

Il existe deux listes supplémentaires qui sont identiques à la liste d'origine des 10 000 mots, mais avec des mots de juron supprimés. Les mots de jure ont été supprimés en fonction de ces listes:

Reimertz / Curse-Words
MauriceButler / Badwords
Ldnoobw / lister-of-naughty-obscene et autre-bad-mot

Listes de longueurs de mot

Trois des listes (toutes basées sur la liste des États-Unis en anglais) sont basées sur la longueur des mots:

Court : 1 à 4 caractères
Medium : 5-8 caractères
Long : 9+ caractères

Chaque liste conserve le tri de liste original (par fréquence, décennie).

Usage

Ce repo est utile comme corpus pour taper des programmes de formation. Selon l'analyse de l'Oxford English Corpus, les 7 000 lemmes anglais les plus courants représentent environ 90% de l'utilisation, donc un corpus de formation de 10 000 mots est plus que suffisant pour des applications de formation pratiques.

Pour utiliser cette liste comme corpus de formation en amphétype, collez le contenu dans l'onglet "Générateur de leçon" avec les paramètres suivants:

 Make **3** copies of the list

Divide into sublists of size **3**

Add to sources as **google-10000-english**

Dans l'onglet "Sources", vous devriez voir Google-10000-anglais disponible pour la formation. Réglez WPM à 10 de plus que votre moyenne actuelle, définissez la précision à 98% et vous êtes prêt à vous entraîner.

Apprécier!

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-22
taille 247.42KB
Provenant de Github

Applications connexes

google noto emoji scraper

2024-11-14
google art downloader

2024-11-05
carte Google

2023-08-09
logiciel Google Play

2023-04-21
google google jouer

2023-04-21
Générateur de plan de site Google

2009-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout