Dieses Repo enthält eine Liste der 10.000 häufigsten englischen Wörter in der Reihenfolge der Häufigkeit, wie durch N-Gram-Frequenzanalyse des Google Billion Word Corpus bestimmt.
Laut dem Google Machine -Übersetzungsteam:
Hier bei Google Research haben wir Word-Gramm-Modelle für eine Vielzahl von F & E-Projekten verwendet, wie z. B. statistische maschinelle Übersetzung, Spracherkennung, Rechtschreibkorrektur, Entitätserkennung, Informationsextraktion und andere. Während solche Modelle in der Regel aus Schulungskorpora geschätzt wurden, die höchstens einige Milliarden Wörter enthalten, haben wir die enorme Leistung der Rechenzentren von Google und die verteilte Verarbeitungsinfrastruktur genutzt, um größere und größere Schulungskorpora zu verarbeiten. Wir fanden heraus, dass es keine Daten wie mehr Daten gibt und die Größe unserer Daten um eine Größenordnung und dann eine andere und dann eine weitere auf den Markt gebracht hat - was zu einem Trainingskorpus von einem Billion Wörtern von öffentlichen Webseiten führte.
Wir glauben, dass die gesamte Forschungsgemeinschaft vom Zugang zu solchen massiven Datenmengen profitieren kann. Es wird den Stand der Technik vorantreiben, die Forschung in der vielversprechenden Richtung groß angelegter, datengesteuerter Ansätze konzentrieren und es allen Forschungsgruppen, egal wie groß oder klein ihre Rechenressourcen, zusammen spielen können. Deshalb haben wir beschlossen, diesen enormen Datensatz mit allen zu teilen. Wir haben 1.024.908.267.229 Wörter ausführlicher Text verarbeitet und veröffentlichen die Zählungen für alle 1.176.470.663 Fünf-Wörter-Sequenzen, die mindestens 40 Mal erscheinen. Es gibt 13.588.391 einzigartige Wörter, nachdem sie Wörter verworfen haben, die weniger als 200 Mal erscheinen.
Dieses Repo leitet sich aus Peter Norvigs Zusammenstellung der häufigsten englischen Wörter von 1/3 Millionen ab. Ich habe diese Datei auf die 10.000 häufigsten Wörter beschränkt und dann die angehängten Frequenzzahlen entfernt, indem ich diesen SED -Befehl in meinem Texteditor ausführte:
sed 's/[0-9]*//g'
Besonderer Dank geht an Koseki für die Entlassung der Liste.
Es gibt zwei zusätzliche Listen, die mit der ursprünglichen 10.000 -Wörter -Liste identisch sind, jedoch mit entferntem Schimpfwörtern. Die Schimpfwörter wurden basierend auf diesen Listen entfernt:
Drei der Listen (alle basierend auf der US -englischen Liste) basieren auf der Wortlänge:
Jede Liste behält die ursprüngliche List -Sortierung (nach Frequenz, Deckung) bei.
Dieses Repo ist als Korpus für das Schreiben von Trainingsprogrammen nützlich. Nach Analyse des Oxford English Corpus machen die 7.000 häufigsten englischen Lemmas ungefähr 90% der Nutzung aus, so
Um diese Liste als Trainingskorpus im Amphetyp zu verwenden, fügen Sie den Inhalt mit den folgenden Einstellungen in die Registerkarte "Lektiongenerator" ein:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
Auf der Registerkarte "Quellen" sollten Sie Google-10000-englisch zum Training erhältlich sehen. Setzen Sie WPM auf 10 mehr als Ihren aktuellen Durchschnitt, setzen Sie die Genauigkeit auf 98%und Sie sind auf dem Training eingestellt.
Genießen!