ชุดข้อมูล ถูกจัดเรียงเป็นผู้เขียน -> [en, ur, hi] -> ghazals/บทกวี
[en, ur, hi] หมายถึงการแปลภาษาอังกฤษและภาษาอูรดูข้อความภาษาฮินดี
ทำไมสิ่งนี้ถึงน่าสนใจ? ภาษาอูรดูเป็นภาษาทรัพยากรต่ำใน NLP เมื่อเทียบกับภาษาอังกฤษซึ่งอาจมีบทความหลายแสนบทความที่ลอยอยู่บนอินเทอร์เน็ตมีเนื้อหาไม่มากนักสำหรับภาษาอูรดูในการฝึกอบรมแบบจำลองภาษา ML
Ghazal เป็นรูปแบบหนึ่งของบทกวีที่ได้รับความนิยมในเอเชียใต้
ในแง่ของ NLP มันให้ความเป็นไปได้ที่น่าสนใจสำหรับการทดสอบแบบจำลองภาษาในอนาคต
ที่มา: https://en.wikipedia.org/wiki/ghazal
ฉันต้องการเน้นจุดสำคัญใน momement นี้ ข้อมูลข้อความ 4MB ไม่มีอะไรเทียบได้กับสิ่งที่โมเดลที่ใช้หม้อแปลงต้องการ
ชุดข้อมูลการรวบรวมข้อมูลทั่วไปเป็นที่เก็บข้อมูลขนาดยักษ์ของข้อมูลข้อความฟรีในมากกว่า 40 ภาษา หากคุณต้องการฝึกอบรมโมเดลหม้อแปลงตั้งแต่เริ่มต้นคุณจะต้องมีข้อมูลตามลำดับไฟล์ข้อความนับล้าน และเพื่อที่จะเริ่มต้นด้วยหนึ่งในเครื่องมือข้อมูลขนาดใหญ่เหล่านี้
-
เครดิตข้อมูลทั้งหมดเป็นของงานที่ยอดเยี่ยมที่ทำโดย มูลนิธิ Rekhta ลิงค์: https://www.rekhta.org/
ข้อมูลได้รับการแยกวิเคราะห์เป็นภาษาอูรดูภาษาฮินดีและภาษาอังกฤษด้วยหน้าเว็บที่ยอดเยี่ยมของพวกเขา พิจารณาสนับสนุนพวกเขาสำหรับการทำงานที่ยอดเยี่ยมของพวกเขาในการผลักดันภาษาอูรดู
เครดิตให้กับผู้เขียนเหล่านี้สำหรับการสร้างสรรค์ต้นฉบับที่ยอดเยี่ยมของพวกเขา:
'Mirza-Ghalib', 'Allama-iqbal', 'Faiz-Ahmad-Faiz', 'Sahir-Ludhianvi', 'Meer-Taqi-Meer', 'Dagh-Dehlvi', 'Kaifi-Azmi', 'Gulzar' 'Jaan-Nisar-Akhtar', 'Javed-Akhtar', 'Jigar-Moradabadi', 'Jaun-eliya', 'Ahmad-Faraz', 'Meer-anees', 'Mohsin-naqvi', 'Firaq-Gorakhpuri' 'Waseem-Barelvi', 'Akbar-Allahabadi', 'Altaf-Hussain-Hali', 'Ameer-Khusrau', 'Naji-Shakir', 'Naseer-Turabi', 'Nazm-Tabatabai', 'Nida-Fazli'
-
หากคุณต้องการขยายขนาดของชุดข้อมูลนี้ให้ทำส้อมของที่เก็บนี้ มีขอบเขตของการปรับปรุงเพราะขณะนี้การแยกวิเคราะห์อย่างง่ายนี้ดูที่รายการผู้เขียนที่ดูแลด้วยมือเท่านั้น อาจมีวิธีที่ดีกว่าในการทำงานโดยอัตโนมัติ