Model bahasa adalah distribusi probabilitas atas urutan kata yang digunakan untuk memprediksi kata berikutnya berdasarkan kalimat sebelumnya. Kemampuan ini menjadikan model bahasa komponen inti dari pemrosesan bahasa alami modern. Kami menggunakannya untuk berbagai tugas, seperti pengenalan suara, AI percakapan, pengambilan informasi, analisis sentimen, atau peringkasan teks.
Untuk alasan ini, banyak perusahaan besar yang bersaing untuk membangun model bahasa yang besar dan lebih besar, seperti Google Bert, Facebook Roberta, atau OpenAI GPT3, dengan jumlah parameternya yang sangat besar. Sebagian besar waktu, mereka hanya membangun model bahasa dalam bahasa Inggris dan beberapa bahasa Eropa lainnya. Negara -negara lain dengan bahasa sumber daya rendah memiliki tantangan besar untuk mengejar lomba teknologi ini.
Oleh karena itu penulis mencoba membangun beberapa model bahasa untuk orang Indonesia, dimulai dengan Ulmfit pada tahun 2018. Model bahasa pertama hanya dilatih dengan wikipedia Indonesia, yang sangat kecil dibandingkan dengan set data lain yang digunakan untuk melatih model bahasa Inggris.
Jeremy Howard dan Sebastian Ruder mengusulkan Ulmfit pada awal 2018 sebagai metode baru untuk model bahasa yang menyempurnakan untuk pembelajaran transfer induktif. Model bahasa Ulmfit untuk Indonesia telah dilatih sebagai bagian dari proyek penulis sambil mempelajari Fastai. Ini mencapai kebingungan 27,67 di Wikipedia Indonesia.
Ashish Vaswani et al. Yang diusulkan transfomer di kertas adalah semua yang Anda butuhkan. Ini adalah arsitektur baru yang bertujuan untuk menyelesaikan tugas urutan-ke-urutan sambil menangani ketergantungan jarak jauh dengan mudah.
Pada saat penulisan (Maret 2021), sudah ada lebih dari 50 jenis model bahasa berbasis transformator (menurut daftar model di Huggingface), seperti Bert, GPT2, Longformer, atau MT5, yang dibangun oleh perusahaan dan kontributor individu. Penulis juga membangun beberapa model bahasa berbasis transformator Indonesia menggunakan perpustakaan HuggingFace Transformers dan meng-host mereka di hub Model HuggingFaces.