Kita tahu bahwa dokumen memiliki struktur hierarkis, kata -kata bergabung untuk membentuk kalimat dan kalimat bergabung untuk membentuk dokumen. Kita dapat mencoba mempelajari struktur itu atau kita dapat memasukkan struktur hierarkis ini ke dalam model dan melihat apakah itu meningkatkan kinerja model yang ada. Makalah ini mengeksploitasi struktur itu untuk membangun model klasifikasi.
Ini adalah implementasi (dekat) model di Pytorch.
Gambar dari blog ledakan ini menjelaskan strukturnya dengan sempurna.

Notebook berisi contoh model terlatih pada dataset ulasan film IMDB. Saya tidak bisa mendapatkan dataset IMDB asli yang dimaksud dengan makalah ini, jadi saya telah menggunakan data ini
Data preproses tersedia di sini
Akurasi terbaik yang saya dapatkan adalah sekitar ~ 0,35. Dataset ini hanya memiliki 84919 sampel dan 10 kelas. Inilah kerugian pelatihan untuk dataset.
