Download google 10000 english - google 10000 english

google 10000 english

Outro código-fonte

1.0.0

Baixar

Sobre este repo

Este repositório contém uma lista das 10.000 palavras em inglês mais comuns em ordem de frequência, conforme determinado pela análise de frequência N-gramas do corpus de trilhões de palavras do Google.

De acordo com a equipe de tradução do Google Machine:

Aqui no Google Research, usamos modelos de Word n-Gram para uma variedade de projetos de P&D, como tradução de máquinas estatísticas, reconhecimento de fala, correção de ortografia, detecção de entidades, extração de informações e outros. Embora esses modelos geralmente tenham sido estimados a partir de corpora de treinamento contendo no máximo alguns bilhões de palavras, aproveitamos o vasto poder dos datacenters do Google e a infraestrutura de processamento distribuída para processar corpora de treinamento cada vez maiores. Descobrimos que não há dados como mais dados e ampliamos o tamanho de nossos dados em uma ordem de magnitude e depois outro e depois mais um - resultando em um corpus de treinamento de um trilhão de palavras de páginas públicas da Web.
Acreditamos que toda a comunidade de pesquisa pode se beneficiar do acesso a quantidades enormes de dados. Avançará o estado da arte, concentrará pesquisas na direção promissora de abordagens em larga escala e orientadas a dados, e permitirá que todos os grupos de pesquisa, independentemente do tamanho ou pequeno de seus recursos de computação. Por isso, decidimos compartilhar esse enorme conjunto de dados com todos. Processamos 1.024.908.267.229 palavras de texto em execução e estamos publicando as contagens para todas as 1.176.470.663 sequências de cinco palavras que aparecem pelo menos 40 vezes. Existem 13.588.391 palavras únicas, depois de descartar palavras que aparecem menos de 200 vezes.

Este repo é derivado da compilação de Peter Norvig das palavras em inglês mais frequentes de 1/3 milhões. Limitei esse arquivo às 10.000 palavras mais comuns e removi a contagem de frequência anexada executando este comando sed em meu editor de texto:

 sed 's/[0-9]*//g'

Agradecimentos especiais a Koseki por desduplicar a lista.

Listas sem palavrões

Existem duas listas adicionais idênticas à lista original de 10.000 palavras, mas com palavras de juramento removidas. Palavras de juramento foram removidas com base nessas listas:

Reimertz/maldição
MauriceButler/Badwords
Ldnoobw/Lista-da-Dirta-Naughty-Obscene-e Otherwwond-Bad-Words

Listas de comprimento das palavras

Três das listas (todas baseadas na lista de inglês dos EUA) são baseadas no comprimento das palavras:

Curto : 1-4 caracteres
Médio : 5-8 caracteres
Longo : 9+ caracteres

Cada lista mantém a classificação da lista original (por frequência, decepcionando).

Uso

Este repositório é útil como um corpus para digitar programas de treinamento. De acordo com a análise do Corpus Oxford English, os 7.000 lemas em inglês mais comuns representam aproximadamente 90% do uso, portanto, um corpus de treinamento de 10.000 palavras é mais do que suficiente para aplicações de treinamento prático.

Para usar esta lista como um corpus de treinamento no anfetipo, cole o conteúdo na guia "Gerador de aula" com as seguintes configurações:

 Make **3** copies of the list

Divide into sublists of size **3**

Add to sources as **google-10000-english**

Na guia "Fontes", você deve ver o Google-10000-inglês disponível para treinamento. Defina o WPM com 10 a mais que a média atual, defina a precisão para 98%e você está pronto para treinar.

Aproveitar!

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-22
tamanho 247.42KB
Vindo de Github

Aplicativos Relacionados

google noto emoji scraper

2024-11-14
google art downloader

2024-11-05
mapa do Google

2023-08-09
software google play

2023-04-21
Google Play

2023-04-21
Gerador de Sitemap do Google

2009-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos