Este repositorio contiene una lista de las 10,000 palabras en inglés más comunes en orden de frecuencia, según lo determinado por el análisis de frecuencia N-gram del trillón de palabras de Google.
Según el equipo de traducción automática de Google:
Aquí en Google Research hemos estado utilizando modelos de Word N-Gram para una variedad de proyectos de I + D, como traducción automática estadística, reconocimiento de voz, corrección de ortografía, detección de entidades, extracción de información y otros. Si bien estos modelos generalmente se han estimado a partir de la capacitación de corpus que contienen como máximo unos mil millones de palabras, hemos estado aprovechando el vasto poder de los centros de datos de Google y la infraestructura de procesamiento distribuido para procesar corpus de capacitación cada vez más grande. Descubrimos que no hay datos como más datos, y ampliamos el tamaño de nuestros datos mediante un orden de magnitud, y luego otro, y luego uno más, lo que resulta en un corpus de capacitación de un billón de palabras de las páginas web públicas.
Creemos que toda la comunidad de investigación puede beneficiarse del acceso a tales cantidades masivas de datos. Avanzará el estado del arte, centrará la investigación en la dirección prometedora de los enfoques a gran escala y basados en datos, y permitirá que todos los grupos de investigación, sin importar cuán grandes o pequeños sean sus recursos informáticos, jueguen juntos. Es por eso que decidimos compartir este enorme conjunto de datos con todos. Procesamos 1,024,908,267,229 palabras de texto en ejecución y estamos publicando los recuentos para todas las 1,176,470,663 secuencias de cinco palabras que aparecen al menos 40 veces. Hay 13,588,391 palabras únicas, después de descartar palabras que aparecen menos de 200 veces.
Este repositorio se deriva de la compilación de Peter Norvig de las 1/3 millones de palabras en inglés más frecuentes. Limité este archivo a las 10,000 palabras más comunes, luego eliminé los recuentos de frecuencia agregado ejecutando este comando SED en mi editor de texto:
sed 's/[0-9]*//g'
Un agradecimiento especial a Koseki por desduplar la lista.
Hay dos listas adicionales que son idénticas a la lista original de 10,000 palabras, pero con palabras de juramento eliminadas. Se eliminaron las palabras sobre estas listas:
Tres de las listas (todas basadas en la lista de inglés de los Estados Unidos) se basan en la longitud de la palabra:
Cada lista conserva la clasificación de la lista original (por frecuencia, Decendiendo).
Este repositorio es útil como un corpus para escribir programas de capacitación. Según el análisis del Corpus de Oxford English, los 7,000 lemas ingleses más comunes representan aproximadamente el 90% del uso, por lo que un corpus de capacitación de 10,000 palabras es más que suficiente para aplicaciones de capacitación práctica.
Para usar esta lista como un corpus de entrenamiento en anfetipo, pegue el contenido en la pestaña "Generador de lecciones" con la siguiente configuración:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
En la pestaña "Fuentes", debe ver el inglés Google-10000 disponible para capacitación. Establezca WPM en 10 más que su promedio actual, establezca una precisión en 98%y estará listo para entrenar.
¡Disfrutar!