repo นี้มีรายการคำภาษาอังกฤษที่พบบ่อยที่สุด 10,000 คำตามลำดับความถี่ตามที่กำหนดโดยการวิเคราะห์ความถี่ N-Gram ของคลังข้อมูลคำศัพท์ล้านล้านของ Google
ตามทีมการแปลของ Google Machine:
ที่นี่ที่ Google Research เราใช้โมเดล Word N-Gram สำหรับโครงการ R&D ที่หลากหลายเช่นการแปลเครื่องสถิติการรู้จำเสียงการแก้ไขการสะกดคำการตรวจจับเอนทิตีการสกัดข้อมูลและอื่น ๆ ในขณะที่แบบจำลองดังกล่าวมักจะถูกประเมินจากการฝึกอบรม Corpora ที่มีคำไม่กี่พันล้านคำ แต่เราได้ควบคุมพลังอันกว้างใหญ่ของดาต้าเซ็นเตอร์ของ Google และโครงสร้างพื้นฐานการประมวลผลแบบกระจายเพื่อประมวลผล Corpora การฝึกอบรมขนาดใหญ่และใหญ่ เราพบว่าไม่มีข้อมูลเช่นข้อมูลเพิ่มเติมและปรับขนาดข้อมูลของเราตามลำดับขนาดหนึ่งและจากนั้นอีกหนึ่งและอีกหนึ่ง - อีกหนึ่ง - ส่งผลให้คลังการฝึกอบรมหนึ่งล้านล้านคำจากหน้าเว็บสาธารณะ
เราเชื่อว่าชุมชนการวิจัยทั้งหมดจะได้รับประโยชน์จากการเข้าถึงข้อมูลจำนวนมากดังกล่าว มันจะพัฒนาสถานะของศิลปะมันจะมุ่งเน้นการวิจัยในทิศทางที่มีแนวโน้มของวิธีการขนาดใหญ่ที่ขับเคลื่อนด้วยข้อมูลและจะช่วยให้กลุ่มวิจัยทั้งหมดไม่ว่าทรัพยากรคอมพิวเตอร์ของพวกเขาจะมีขนาดใหญ่หรือเล็ก นั่นเป็นเหตุผลที่เราตัดสินใจแบ่งปันชุดข้อมูลขนาดใหญ่นี้กับทุกคน เราประมวลผล 1,024,908,267,229 คำของการเรียกใช้ข้อความและกำลังเผยแพร่จำนวนสำหรับ 1,176,470,663 ลำดับห้าคำที่ปรากฏอย่างน้อย 40 ครั้ง มีคำที่ไม่ซ้ำกัน 13,588,391 คำหลังจากทิ้งคำที่ปรากฏน้อยกว่า 200 ครั้ง
repo นี้มาจากการรวบรวมคำภาษาอังกฤษที่พบบ่อยที่สุด 1/3 ล้านคำ ฉัน จำกัด ไฟล์นี้ไว้ที่ 10,000 คำที่พบบ่อยที่สุดจากนั้นลบจำนวนความถี่ต่อท้ายโดยเรียกใช้คำสั่ง SED นี้ในตัวแก้ไขข้อความของฉัน:
sed 's/[0-9]*//g'
ขอขอบคุณ Koseki เป็นพิเศษสำหรับการยกเลิกรายการ
มีสองรายการเพิ่มเติมซึ่งเหมือนกับรายการคำ 10,000 รายการดั้งเดิม แต่มีการลบคำสาบาน คำสาบานถูกลบออกจากรายการเหล่านี้:
สามรายการ (ทั้งหมดขึ้นอยู่กับรายการภาษาอังกฤษของสหรัฐอเมริกา) ขึ้นอยู่กับความยาวของคำ:
แต่ละรายการยังคงมีการเรียงลำดับรายการต้นฉบับ (ตามความถี่การเสื่อมสภาพ)
repo นี้มีประโยชน์เป็นคลังข้อมูลสำหรับการพิมพ์โปรแกรมการฝึกอบรม จากการวิเคราะห์ของ Oxford English Corpus พบว่าบทแทรกภาษาอังกฤษที่พบบ่อยที่สุด 7,000 บัญชีมีการใช้งานประมาณ 90% ของการใช้งานดังนั้นคลังการฝึกอบรม 10,000 คำจึงเพียงพอสำหรับการฝึกอบรมภาคปฏิบัติ
หากต้องการใช้รายการนี้เป็นคลังการฝึกอบรมในแอมเฟตี้
Make **3** copies of the list
Divide into sublists of size **3**
Add to sources as **google-10000-english**
ในแท็บ "แหล่งที่มา" คุณควรเห็น Google -10000-English พร้อมสำหรับการฝึกอบรม ตั้งค่า WPM ที่ 10 มากกว่าค่าเฉลี่ยปัจจุบันของคุณตั้งค่าความแม่นยำเป็น 98%และคุณพร้อมที่จะฝึกอบรม
สนุก!