Descargar google 10000 english - Descargar el código fuente google 10000 english

google 10000 english

Otro código fuente

1.0.0

Descargar

Sobre este repositorio

Este repositorio contiene una lista de las 10,000 palabras en inglés más comunes en orden de frecuencia, según lo determinado por el análisis de frecuencia N-gram del trillón de palabras de Google.

Según el equipo de traducción automática de Google:

Aquí en Google Research hemos estado utilizando modelos de Word N-Gram para una variedad de proyectos de I + D, como traducción automática estadística, reconocimiento de voz, corrección de ortografía, detección de entidades, extracción de información y otros. Si bien estos modelos generalmente se han estimado a partir de la capacitación de corpus que contienen como máximo unos mil millones de palabras, hemos estado aprovechando el vasto poder de los centros de datos de Google y la infraestructura de procesamiento distribuido para procesar corpus de capacitación cada vez más grande. Descubrimos que no hay datos como más datos, y ampliamos el tamaño de nuestros datos mediante un orden de magnitud, y luego otro, y luego uno más, lo que resulta en un corpus de capacitación de un billón de palabras de las páginas web públicas.
Creemos que toda la comunidad de investigación puede beneficiarse del acceso a tales cantidades masivas de datos. Avanzará el estado del arte, centrará la investigación en la dirección prometedora de los enfoques a gran escala y basados en datos, y permitirá que todos los grupos de investigación, sin importar cuán grandes o pequeños sean sus recursos informáticos, jueguen juntos. Es por eso que decidimos compartir este enorme conjunto de datos con todos. Procesamos 1,024,908,267,229 palabras de texto en ejecución y estamos publicando los recuentos para todas las 1,176,470,663 secuencias de cinco palabras que aparecen al menos 40 veces. Hay 13,588,391 palabras únicas, después de descartar palabras que aparecen menos de 200 veces.

Este repositorio se deriva de la compilación de Peter Norvig de las 1/3 millones de palabras en inglés más frecuentes. Limité este archivo a las 10,000 palabras más comunes, luego eliminé los recuentos de frecuencia agregado ejecutando este comando SED en mi editor de texto:

 sed 's/[0-9]*//g'

Un agradecimiento especial a Koseki por desduplar la lista.

Listas sin jarras

Hay dos listas adicionales que son idénticas a la lista original de 10,000 palabras, pero con palabras de juramento eliminadas. Se eliminaron las palabras sobre estas listas:

Reimertz/palabras de maldición
Mauricebutler/palabras malas
Ldnoobw/Lista de drey-naughty-obscene y oterwis-bad-words

Listas de longitud de palabras

Tres de las listas (todas basadas en la lista de inglés de los Estados Unidos) se basan en la longitud de la palabra:

Corto : 1-4 caracteres
Medio : 5-8 caracteres
Largo : más de 9 caracteres

Cada lista conserva la clasificación de la lista original (por frecuencia, Decendiendo).

Uso

Este repositorio es útil como un corpus para escribir programas de capacitación. Según el análisis del Corpus de Oxford English, los 7,000 lemas ingleses más comunes representan aproximadamente el 90% del uso, por lo que un corpus de capacitación de 10,000 palabras es más que suficiente para aplicaciones de capacitación práctica.

Para usar esta lista como un corpus de entrenamiento en anfetipo, pegue el contenido en la pestaña "Generador de lecciones" con la siguiente configuración:

 Make **3** copies of the list

Divide into sublists of size **3**

Add to sources as **google-10000-english**

En la pestaña "Fuentes", debe ver el inglés Google-10000 disponible para capacitación. Establezca WPM en 10 más que su promedio actual, establezca una precisión en 98%y estará listo para entrenar.

¡Disfrutar!

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-02-22
tamaño 247.42KB
Proviene de Github

Aplicaciones relacionadas

google noto emoji scraper

2024-11-14
google art downloader

2024-11-05
mapa de google

2023-08-09
software de google play

2023-04-21
google google play

2023-04-21
Generador de mapas de sitio de Google

2009-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo