attention networks for classification Скачать - attention networks for classification Скачать исходный код

attention networks for classification

Другой исходный код

1.0.0

Скачать

Иерархические сети внимания для классификации документов

Мы знаем, что документы имеют иерархическую структуру, слова объединяются для формирования предложений и предложений, объединяющихся для формирования документов. Мы можем попытаться узнать эту структуру или ввести эту иерархическую структуру в модель и посмотреть, улучшает ли она производительность существующих моделей. В этой статье используется эта структура для создания классификационной модели.

Это (близкая) реализация модели в Pytorch.

Примечание:

Я совместно оптимизирую как слово, так и модели внимания, с одним и тем же оптимизатором.
Minibatches сочетаются с нулями. Это может быть улучшено, можно сортировать сувеники с одинаковой длиной вместе и минимизировать положения.
Pytorch еще не поддерживает маскировку градиента, поэтому в мягких нулях будут градиенты, протекающие через них во время обратного распространения. Можно создать маску, но, поскольку я заинтересован в использовании двунаправленного GRU, невозможно использовать маску. Я видел, что Supoort с переменной длиной также скоро появится в Pytorch. ОБНОВЛЕНИЕ: Pytorch делает Supoort Masked RNN теперь с помощью метода pack_padded_sequence.

Эта картина из блога «Взрыв» прекрасно объясняет структуру.

alt text

Блокнот

Записная книжка содержит пример обученной модели в наборе данных обзора фильмов IMDB. Я не мог получить оригинальный набор данных IMDB, на который упоминался статья, поэтому я использовал эти данные

Предварительные данные доступны здесь

Лучшая точность, которую я получил, была около ~ 0,35. Этот набор данных имеет только 84919 образцов и 10 классов. Вот утрата обучения для набора данных.

alt text