Sabemos que los documentos tienen una estructura jerárquica, las palabras se combinan para formar oraciones y oraciones se combinan para formar documentos. Podemos tratar de aprender esa estructura o podemos ingresar esta estructura jerárquica en el modelo y ver si mejora el rendimiento de los modelos existentes. Este documento explota esa estructura para construir un modelo de clasificación.
Esta es una implementación (cercana) del modelo en Pytorch.
Esta imagen del blog de Explosion explica la estructura perfectamente.

El cuaderno contiene un ejemplo de modelo capacitado en el conjunto de datos de revisión de películas IMDB. No pude obtener el conjunto de datos IMDB original al que se refiere el documento, por lo que he usado estos datos
Los datos preprocesados están disponibles aquí
La mejor precisión que obtuve fue alrededor de ~ 0.35. Este conjunto de datos tiene solo 84919 muestras y 10 clases. Aquí está la pérdida de capacitación para el conjunto de datos.
