يحتوي هذا الريبو على قائمة بالكلمات الإنجليزية الأكثر شيوعًا بترتيب التكرار ، على النحو الذي يحدده تحليل تردد N-Gram لجسم Trillion Word من Google.
وفقًا لفريق ترجمة Google Machine:
هنا في Google Research ، كنا نستخدم نماذج Word n-gram لمجموعة متنوعة من مشاريع البحث والتطوير ، مثل الترجمة الآلية الإحصائية ، والتعرف على الكلام ، وتصحيح الإملاء ، واكتشاف الكيانات ، واستخراج المعلومات ، وغيرها. في حين أن هذه النماذج عادة ما يتم تقديرها من شركة التدريب التي تحتوي على بضعة مليارات الكلمات ، فقد تم تسخير القوة الهائلة لمركز بيانات Google والبنية التحتية المعالجة الموزعة لمعالجة شركة تدريب أكبر وأكبر. لقد وجدنا أنه لا توجد بيانات مثل المزيد من البيانات ، وقم بزيادة حجم بياناتنا بترتيب من حيث الحجم ، ثم آخر ، ثم واحد - مما يؤدي إلى مجموعة تدريب بقيمة تريليون كلمة من صفحات الويب العامة.
نعتقد أن مجتمع البحث بأكمله يمكن أن يستفيد من الوصول إلى هذه الكميات الهائلة من البيانات. سيؤدي ذلك إلى تعزيز الحالة الفنية ، وسوف يركز الأبحاث في الاتجاه الواعد للنهج على نطاق واسع ، والتي تعتمد على البيانات ، وسوف تسمح لجميع مجموعات البحث ، بغض النظر عن حجم موارد الحوسبة الكبيرة أو الصغيرة ، للعب معًا. لهذا السبب قررنا مشاركة مجموعة البيانات الهائلة مع الجميع. قمنا بمعالجة 1،024،908،267،229 كلمة من النص النصي وننشر التهمات لجميع تسلسلات خمسة كلمات تبلغ 1،176،470،663 والتي تظهر على الأقل 40 مرة. هناك 13،588،391 كلمة فريدة ، بعد التخلص من الكلمات التي تظهر أقل من 200 مرة.
هذا الريبو مشتق من تجميع بيتر نورفيج للكلمات الإنجليزية الأكثر شيوعا 1/3 مليون. لقد حصرت هذا الملف إلى أكثر 10،000 كلمة شائعة ، ثم أزلت تعداد التردد الملحوظ عن طريق تشغيل أمر SED هذا في محرر النصوص الخاص بي:
sed 's/[0-9]*//g'
شكر خاص لكوسيكي لإلغاء القائمة.
هناك قائمتان إضافيتان مماثلة لقائمة الكلمات الأصلية البالغ عددها 10،000 ، ولكن مع إزالة الكلمات التي أقسم. تمت إزالة الكلمات القسم بناءً على هذه القوائم:
تعتمد ثلاث من القوائم (جميعها بناءً على قائمة اللغة الإنجليزية الأمريكية) على طول الكلمة:
تحتفظ كل قائمة بفرز القائمة الأصلية (حسب التردد ، والدخول).
هذا الريبو مفيد باعتباره مجموعة لكتابة برامج التدريب. وفقًا لتحليل مجموعة أوكسفورد الإنجليزية ، فإن أكثر 7000 من الليمون الإنجليزي الشائع تمثل حوالي 90 ٪ من الاستخدام ، وبالتالي فإن مجموعة تدريبات من الكلمات 10000 أكثر من كافية لتطبيقات التدريب العملية.
لاستخدام هذه القائمة كحساب تدريب في Amphetype ، قم بصق المحتويات في علامة التبويب "مولد الدرس" مع الإعدادات التالية:
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
في علامة التبويب "المصادر" ، يجب أن ترى Google-10000-English متاحة للتدريب. قم بتعيين WPM في 10 أكثر من المتوسط الحالي ، وضبط دقة على 98 ٪ ، وستتدرب على التدريب.
يتمتع!