Repositori ini memiliki solusi saya untuk Tantangan Normalisasi Teks Google - Bahasa Inggris. Sebagian besar keajaiban terjadi di dalam direktori konverter, yang bertanggung jawab atas konversi aktual dari input ke token output. Di samping kode adalah makalah yang ditulis tentang solusi saya. Abstrak untuk makalah ini adalah sebagai berikut:
Makalah ini mengusulkan metode untuk memecahkan, serta solusi untuk, masalah normalisasi teks-ke-ucapan, yang berfokus pada konversi teks dari ekspresi tertulis menjadi bentuk lisan. Metode ini mem -parses input token melalui model pohon keputusan yang didorong gradien, yang mengklasifikasikan token sebagai salah satu dari 16 jenis token. Token kemudian dikonversi berdasarkan tipe token yang diprediksi, menghasilkan output yang dinormalisasi dari formulir yang diucapkan. Setelah memasuki kompetisi normalisasi teks-ke-speech terkait, solusi mencapai akurasi 99,590% , menempatkan 12 dari 260 tim, atau dalam 5% teratas dari semua pengiriman.
Untuk menjalankan salah satu file Python, data/raw harus berisi pelatihan mentah dan pengujian data dari kompetisi itu sendiri. Karena syarat dan ketentuan kompetisi, data ini tidak dapat dibagikan pada repositori ini.
Repositori ini bertindak sebagai arsip, dan tidak dimaksudkan untuk diperbarui.
Saya tidak mengambil kontribusi untuk repositori ini, karena dirancang sebagai arsip.
Proyek ini dilisensikan di bawah lisensi MIT - lihat file lisensi.md untuk detailnya.