Загрузка transformer pointer generator - Загрузка исходного кода transformer pointer generator

transformer pointer generator

Другой исходный код

1.0.0

Скачать

Реализация абстрактной суммирования с трансформатором и генератором указателя

Когда я хотел получить краткое изложение по нейронной сети, я попытался много способов генерировать абстрактное резюме, но результат был не очень хорошим. Когда я услышал кубок байта 2018 года, я нашел некоторую информацию об этом, и решение чемпиона привлекло меня, но я нашел несколько веб -сайтов, таких как Github Gitlab, я не нашел официальный код, поэтому я решил его реализовать.

Требования

Python == 3.x (давайте перейдем к Python 3, если вы все еще используете Python 2)
Tensorflow == 1.12.0
TQDM> = 4.28.1
jieba> = 0,3x
Sumeval> = 0,2,0

Структура модели

Основанный на

Моя модель основана на внимании-все, что вам нужно, и добраться до сути: суммирование с сети с указателями-генераторами

Изменять

Модель указателя-генератора имеет два механизма, которые представляют собой механизм копирования и механизм покрытия , я обнаружил некоторые материалы, они показывают, что механизм покрытия не соответствует краткосрочной сводке, поэтому я не использовал этот механизм, просто используйте первый.
Модель генератора указателей имеет неадекватность, которая может позволить потерь получить NAN, я пробовал несколько раз и хотел ее исправить, но результат был в том, что я не могу, я думаю, что при расчете окончательных логистов она увеличит длину словарь до OOV и длину слова, она получит больше нулей. Поэтому я удаляю механизм расширения окончательных логистов, просто использую их механизм деокода из статьи и слока. В этой модели больше подробностей, в этой модели я просто использую слово, чем Vocab, эта идея от Bert.

Структура

Обучение

Шаг 1. Загрузите набор данных, PWD - это Ayn6, набор данных - это LCST по предварительно обработанной, поэтому вы увидите совершенно другую структуру набора данных с LCST в файле, каждая строка является абстрактной и статьей, они разделяются на « , если вы беспокоитесь о том, что объем набора данных отличается от моих и LCST, не беспокойтесь, Amout of DataSet - это то же самое, что и LCST.
Шаг 2. Запустите следующую команду.

 python train.py

Проверьте hparams.py , чтобы увидеть, какие параметры возможны. Например,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

Мой код также улучшает многолетний графический процессор для обучения этой модели, если у вас более одного графического процессора, просто запустите так

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

имя	тип	деталь
vocab_size	инт	размер слока
тренироваться	стр	Набор данных поезда
оценка	стр	Оценка набора данных Dir
тест	стр	Данные для расчета балла Rouge
слока	стр	Словарный файл путь
batch_size	инт	Размер партии поезда
eval_batch_size	инт	Оценка размера партии
лр	плавать	скорость обучения
Demplup_steps	инт	Шаги разминки путем обучения скорости
logdir	стр	Справочник журнала
num_epochs	инт	количество эпохи поезда
Евальдир	стр	Оценка реж
d_model	инт	Скрытое измерение энкодера/декодера
d_ff	инт	Скрытый размер питательного слоя
num_blocks	инт	Количество блоков энкодера/декодера
num_heads	инт	Количество головок внимания
maxlen1	инт	максимальная длина исходной последовательности
maxlen2	инт	максимальная длина целевой последовательности
DEPLOUT_RATE	плавать	Скорость отсева
beam_size	инт	размер луча для декодирования
GPU_NUMS	инт	Сумма графического процессора, которая может позволить, сколько графического процессора обучать эту модель ， по умолчанию 1

Примечание

Не меняйте гиперпараметры утилита трансформатора, у вас есть хорошее решение, оно позволит потере не может выйти! Если у вас есть хорошее решение, я надеюсь, что вы можете мне сказать.