이 repo에는 Google의 10 조 단어 코퍼스의 N-Gram 주파수 분석에 의해 결정된 바와 같이 주파수 순서대로 10,000 개의 가장 일반적인 영어 단어 목록이 포함되어 있습니다.
Google 기계 번역 팀에 따르면 :
Google Research에서는 통계 기계 번역, 음성 인식, 철자 수정, 엔티티 감지, 정보 추출 및 기타와 같은 다양한 R & D 프로젝트에 Word N-Gram 모델을 사용하고 있습니다. 이러한 모델은 일반적으로 최대 10 억 단어의 단어를 포함하는 훈련 코포 라에서 추정되었지만, 우리는 Google 데이터 센터의 방대한 힘과 분산 처리 인프라를 활용하여 더 크고 더 큰 훈련 코포라를 처리하고 있습니다. 우리는 더 많은 데이터와 같은 데이터가 없으며 데이터의 크기를 한 순서로, 다른 하나를 더한 다음 하나 더 확장하여 공개 웹 페이지에서 하나의 1 조 단어의 훈련 코퍼스를 만들었습니다.
우리는 전체 연구 커뮤니티가 그러한 대량의 데이터에 대한 액세스로부터 혜택을받을 수 있다고 생각합니다. 그것은 최신 기술을 발전시킬 것이며, 대규모 데이터 중심 접근 방식의 유망한 방향으로 연구에 중점을 둘 것이며, 모든 연구 그룹은 컴퓨팅 자원이 아무리 크든 작든 상관없이 함께 플레이 할 수있게 해줄 것입니다. 그렇기 때문에 우리는이 거대한 데이터 세트를 모든 사람과 공유하기로 결정했습니다. 우리는 1,024,908,267,229 단어를 실행중인 텍스트를 처리했으며 40 회 이상 나타나는 1,176,470,663 개의 5 단어 시퀀스에 대한 수를 게시하고 있습니다. 200 번 미만의 단어를 버린 후 13,588,391 개의 독특한 단어가 있습니다.
이 저장소는 Peter Norvig의 가장 빈번한 영어 단어에 대한 Peter Norvig의 편집에서 파생되었습니다. 이 파일을 10,000 개의 가장 일반적인 단어로 제한 한 다음 내 텍스트 편집기 에서이 SED 명령을 실행하여 추가 된 빈도 카운트를 제거했습니다.
sed 's/[0-9]*//g'
목록을 복제 해준 Koseki에게 특별한 감사를드립니다.
원래 10,000 단어 목록과 동일한 두 개의 추가 목록이 있지만 욕설이 제거되었습니다. 맹세 단어는 다음과 같은 목록에 따라 제거되었습니다.
목록 중 3 개 (미국 영어 목록을 기준으로)는 단어 길이를 기준으로합니다.
각 목록은 원래 목록 정렬을 유지합니다 (주파수별로, 그 결과).
이 repo는 교육 프로그램을 입력하는 코퍼스로 유용합니다. 옥스포드 영어 코퍼스의 분석에 따르면, 7,000 개의 가장 일반적인 영어 Lemmas는 사용량의 약 90%를 차지하므로 10,000 개의 단어 훈련 코퍼스가 실제 교육 응용 프로그램에 충분합니다.
이 목록을 앰프 타입에서 훈련 코퍼스로 사용하려면 다음 설정으로 내용을 "레슨 생성기"탭에 붙여 넣습니다.
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
"소스"탭에는 Google-100000-English가 교육을받을 수 있습니다. WPM을 현재 평균보다 10으로 설정하고 정확도를 98%로 설정하면 훈련을 시작하십시오.
즐기다!