PDF การประมวลผลภาษาธรรมชาติที่แข็งแกร่งและไม่เอนเอียง
วิธีการ
ทั่วไป
การแทรกแบบสุ่มการลบคำพูดการสับเปลี่ยนประโยค
แทนที่คำด้วยคำพ้องความหมาย
แทนที่คำจาก dicitionary ของฉลากเดียวกัน
คนโง่
การก่อกวน (ระดับตัวอักษรคำหรือประโยค)
เสียงดัง
รูปแบบภาษา
การเสริมบริบท
การแปลกลับ
เครื่องจักร traslation
การแปลไปกลับ
การถอดความ
คลังข้อมูลขนานที่มีทรัพยากรต่ำ
中文文本纠错任务
ใช้ประโยชน์จากข้อมูลภายนอก
การใช้ข้อมูลภายนอกที่ได้มาจาก Wikipedia การเชื่อมโยงบทความ Wikipedia กับข้อความอินพุตโดยพลการ แนวคิดคือถ้าข้อความอินพุตอยู่ในวิกิพีเดียมันจะมีลิงค์ไปยังบทความวิกิพีเดียอื่น ๆ (ที่เกี่ยวข้องกับความหมายและให้ข้อมูลเพิ่มเติม)
แบ่งข้อความอินพุตเป็น n-grams
ตรวจสอบว่าแต่ละ N-Gram มีอยู่ในบทความ Wikipedia เพื่อสร้างชุดของ 'ลิงก์ผู้สมัคร'