Скачать tying wv and wc - tying wv and wc Source Code скачать

tying wv and wc

AI Исходный код

1.0.0

Скачать

Привязывание векторов слов и классификаторов слов: структура потерь для языкового моделирования

Реализация для "связывания векторов слов и классификаторов слов: структура потерь для языкового моделирования"

Эта статья пытается использовать разнообразие значения слова для обучения глубокой нейронной сети.

Резюме бумаги

Мотивация

В языковом моделировании (прогнозирование последовательности слова) мы хотим выразить разнообразие значения слова.
Например, при прогнозировании слова рядом с «бананом восхитительно ___», ответ - «фрукты», но «сладости», «еда» также в порядке. Но обычное одножелательное векторное обучение не подходит для его достижения. Потому что любые подобные слова игнорировались, но точный ответ на ответ.

Мотивация.png

Если мы можем использовать не одножелательное, а «распределение», мы можем научить это разнообразие.

Метод

Таким образом, мы используем «распределение слова» для обучения модели. Это распределение, приобретенное из ответного слова и встраиваю матрицу поиска.

формулировка.png

Архитектура.png

Если мы используем эту потерю типа распределения, то мы можем доказать эквивалентность между входной матрицей внедрения и выходной проекции.

Эквивалентность.png

Использовать потерю потери типа распределения и входное вкладывание и эквивалентность вывода эквивалентности проекции улучшает недоумение модели.

Эксперименты

Выполнение

Керас: Реализации модели
Chazutsu: загрузить набор данных

Результат

Результат.png

Запустите 15 эпохи на наборе данных Penn Treebank.
- Оценка perplexity велика, я не мог уверен в его реализации. Я жду просьбу о просьбе!
augmentedmodel работает лучше, чем базовая линия ( onehotmodel ), и augmentedmodel_tying превосходит базовую линию!
Вы можете запустить этот эксперимент на python train.py

Я внедрил версию LSTM Stateful. Его результат в следующем.

Смущение улучшается (но загар), а метод привязки немного теряет его эффект.
Использовать LSTM Stateful в керасах слишком сложно (особенно reset_states в наборе проверки), поэтому может быть некоторый ограничение.

Дополнительная проверка

В начале обучения матрица встраивания для производства «распределения учителей» еще не обучено. Таким образом, предложенный метод сначала имеет небольшой гандикап.
- Но задержка обучения не наблюдалась
Повышение температуры (альфа) постепенно может улучшить скорость тренировок.
Использовать предварительно обученный вектор слов или исправление веса матрицы встраивания в течение некоторого интервала (фиксированная целевая методика при обучении подкрепления (пожалуйста, обратитесь к глубокому подкреплению )) также будет действовать для обучения.

Кстати, пример Pytorch уже использует метод связывания! Не бойтесь использовать его!

Расширять

Дополнительная информация