Этот репо содержит список из 10 000 наиболее распространенных английских слов в порядке частоты, как определено анализом N-грамм частотного корпуса Google Trillion Word.
По данным команды по переводу Google Machine:
Здесь, в Google Research, мы использовали модели Word N-GRAM для различных проектов НИОКР, таких как статистический машинный перевод, распознавание речи, коррекция орфографии, обнаружение сущности, извлечение информации и другие. В то время как такие модели обычно оценивались по учебным корпусам, содержащим не более нескольких миллиардов слов, мы использовали обширную силу обработки данных Google и распределенную инфраструктуру обработки для обработки более крупных и более крупных учебных корпораций. Мы обнаружили, что нет никаких данных, таких как больше данных, и увеличили размер наших данных на один порядок, а затем и другой, а затем еще один - что привело к учебному корпусу из одного триллиона слов с общедоступных веб -страниц.
Мы считаем, что все исследовательское сообщество может извлечь выгоду из доступа к таким огромным объемам данных. Он продвинет современное состояние, он будет сосредоточен на исследованиях в многообещающем направлении крупномасштабных подходов, управляемых данными, и позволит всем исследовательским группам, независимо от того, насколько велики или мало их вычислительные ресурсы, играть вместе. Вот почему мы решили поделиться этим огромным набором данных со всеми. Мы обработали 1 024 908 267 229 слов бега по тексту и публикуем подсчет всех 1 176 470 663 последовательностей из пяти слов, которые появляются не менее 40 раз. Существует 13 588 391 уникальных слов, после того, как отбрасывая слова, которые появляются менее 200 раз.
Этот репо получен из сборника Питера Норвига из 1/3 миллиона наиболее частых английских слов. Я ограничил этот файл 10 000 наиболее распространенных слов, а затем удалил подсчет добавленных частот, запустив эту команду SED в моем текстовом редакторе:
sed 's/[0-9]*//g'
Особая благодарность Косеки за то, что он размышлял о списке.
Есть два дополнительных списка, которые идентичны исходному списку 10 000 слов, но с удаленными ругательствами. Руководитель были удалены на основе этих списков:
Три из списков (все на основе списка английского языка США) основаны на длине слова:
Каждый список сохраняет исходную сортировку списка (по частоте, по делу).
Этот репо полезен в качестве корпуса для печати программ обучения. Согласно анализу Оксфордского английского корпуса, 7000 наиболее распространенных английских лемм составляют приблизительно 90% использования, поэтому корпус обучения в 10 000 слов более чем достаточно для практических применений в обучении.
Чтобы использовать этот список в качестве учебного корпуса в Amphetype, вставьте содержимое в вкладку «Генератор уроков» со следующими настройками:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
На вкладке «Источники» вы должны увидеть Google-10000-Anglish, доступный для обучения. Установите WPM на 10 больше, чем ваш текущий средний, установите точность до 98%, и вы готовы тренироваться.
Наслаждаться!