Este repositório contém uma lista das 10.000 palavras em inglês mais comuns em ordem de frequência, conforme determinado pela análise de frequência N-gramas do corpus de trilhões de palavras do Google.
De acordo com a equipe de tradução do Google Machine:
Aqui no Google Research, usamos modelos de Word n-Gram para uma variedade de projetos de P&D, como tradução de máquinas estatísticas, reconhecimento de fala, correção de ortografia, detecção de entidades, extração de informações e outros. Embora esses modelos geralmente tenham sido estimados a partir de corpora de treinamento contendo no máximo alguns bilhões de palavras, aproveitamos o vasto poder dos datacenters do Google e a infraestrutura de processamento distribuída para processar corpora de treinamento cada vez maiores. Descobrimos que não há dados como mais dados e ampliamos o tamanho de nossos dados em uma ordem de magnitude e depois outro e depois mais um - resultando em um corpus de treinamento de um trilhão de palavras de páginas públicas da Web.
Acreditamos que toda a comunidade de pesquisa pode se beneficiar do acesso a quantidades enormes de dados. Avançará o estado da arte, concentrará pesquisas na direção promissora de abordagens em larga escala e orientadas a dados, e permitirá que todos os grupos de pesquisa, independentemente do tamanho ou pequeno de seus recursos de computação. Por isso, decidimos compartilhar esse enorme conjunto de dados com todos. Processamos 1.024.908.267.229 palavras de texto em execução e estamos publicando as contagens para todas as 1.176.470.663 sequências de cinco palavras que aparecem pelo menos 40 vezes. Existem 13.588.391 palavras únicas, depois de descartar palavras que aparecem menos de 200 vezes.
Este repo é derivado da compilação de Peter Norvig das palavras em inglês mais frequentes de 1/3 milhões. Limitei esse arquivo às 10.000 palavras mais comuns e removi a contagem de frequência anexada executando este comando sed em meu editor de texto:
sed 's/[0-9]*//g'
Agradecimentos especiais a Koseki por desduplicar a lista.
Existem duas listas adicionais idênticas à lista original de 10.000 palavras, mas com palavras de juramento removidas. Palavras de juramento foram removidas com base nessas listas:
Três das listas (todas baseadas na lista de inglês dos EUA) são baseadas no comprimento das palavras:
Cada lista mantém a classificação da lista original (por frequência, decepcionando).
Este repositório é útil como um corpus para digitar programas de treinamento. De acordo com a análise do Corpus Oxford English, os 7.000 lemas em inglês mais comuns representam aproximadamente 90% do uso, portanto, um corpus de treinamento de 10.000 palavras é mais do que suficiente para aplicações de treinamento prático.
Para usar esta lista como um corpus de treinamento no anfetipo, cole o conteúdo na guia "Gerador de aula" com as seguintes configurações:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
Na guia "Fontes", você deve ver o Google-10000-inglês disponível para treinamento. Defina o WPM com 10 a mais que a média atual, defina a precisão para 98%e você está pronto para treinar.
Aproveitar!