Download google 10000 english - google 10000 english

google 10000 english

Kode sumber lainnya

1.0.0

Unduh

Tentang repo ini

Repo ini berisi daftar 10.000 kata bahasa Inggris yang paling umum dalam urutan frekuensi, sebagaimana ditentukan oleh analisis frekuensi N-gram dari corpus triliun kata Google.

Menurut tim terjemahan mesin Google:

Di sini, di Google Research, kami telah menggunakan model Word N-Gram untuk berbagai proyek R&D, seperti terjemahan mesin statistik, pengenalan suara, koreksi ejaan, deteksi entitas, ekstraksi informasi, dan lainnya. Sementara model -model seperti itu biasanya diperkirakan dari pelatihan korpora yang mengandung paling banyak beberapa miliar kata, kami telah memanfaatkan kekuatan luas dari pusat data Google dan infrastruktur pemrosesan yang didistribusikan untuk memproses korpora pelatihan yang lebih besar dan lebih besar. Kami menemukan bahwa tidak ada data seperti lebih banyak data, dan meningkatkan ukuran data kami dengan satu urutan besarnya, dan kemudian yang lain, dan kemudian satu lagi - menghasilkan korpus pelatihan satu triliun kata dari halaman web publik.
Kami percaya bahwa seluruh komunitas riset dapat mengambil manfaat dari akses ke sejumlah besar data. Ini akan memajukan keadaan seni, itu akan memfokuskan penelitian dalam arah yang menjanjikan dari pendekatan skala besar, yang didorong oleh data, dan itu akan memungkinkan semua kelompok penelitian, tidak peduli seberapa besar atau kecil sumber daya komputasi mereka, untuk bermain bersama. Itu sebabnya kami memutuskan untuk membagikan dataset besar ini dengan semua orang. Kami memproses 1.024.908.267.229 kata-kata menjalankan teks dan menerbitkan jumlah untuk semua 1.176.470.663 urutan lima kata yang muncul setidaknya 40 kali. Ada 13.588.391 kata -kata unik, setelah membuang kata -kata yang muncul kurang dari 200 kali.

Repo ini berasal dari kompilasi Peter Norvig dari 1/3 juta kata bahasa Inggris yang paling sering. Saya membatasi file ini ke 10.000 kata yang paling umum, kemudian menghapus jumlah frekuensi yang ditambahkan dengan menjalankan perintah SED ini di editor teks saya:

 sed 's/[0-9]*//g'

Terima kasih khusus kepada Koseki karena telah menduplikasi daftar.

Daftar bebas sumpah

Ada dua daftar tambahan yang identik dengan daftar 10.000 kata asli, tetapi dengan kata -kata bersumpah dihapus. Kata -kata bersumpah telah dihapus berdasarkan daftar ini:

kata-kata reimertz/kutukan
MauriceButler/Badwords
Ldnoobw/daftar-dirti-nakal-obscene-dan-estewise-bad-words

Daftar Panjang Kata

Tiga dari daftar (semua berdasarkan daftar bahasa Inggris AS) didasarkan pada panjang kata:

Singkat : 1-4 karakter
Sedang : 5-8 karakter
Panjang : 9+ karakter

Setiap daftar mempertahankan penyortiran daftar asli (berdasarkan frekuensi, penurunan).

Penggunaan

Repo ini berguna sebagai korpus untuk mengetik program pelatihan. Menurut analisis Corpus Bahasa Inggris Oxford, 7.000 Lemmas Bahasa Inggris yang paling umum menyumbang sekitar 90% dari penggunaan, sehingga korpus pelatihan 10.000 kata lebih dari cukup untuk aplikasi pelatihan praktis.

Untuk menggunakan daftar ini sebagai corpus pelatihan di Amphetype, tempel konten ke tab "Generator Pelajaran" dengan pengaturan berikut:

 Make **3** copies of the list

Divide into sublists of size **3**

Add to sources as **google-10000-english**

Di tab "Sumber", Anda akan melihat Google-10000-Inggris tersedia untuk pelatihan. Atur WPM pada 10 lebih dari rata -rata Anda saat ini, atur akurasi menjadi 98%, dan Anda akan berlatih.

Menikmati!

Memperluas

Informasi Tambahan