QANet скачать - скачать исходный код QANet

QANet

Другой исходный код

1.0.0

Скачать

Канет

Реализация TensorFlow of Google QANET (ранее быстрое понимание прочитанного (FRC)) из ICLR2018. (Примечание: это не официальная реализация от авторов статьи)

Я написал сообщение в блоге об реализации QANET. Проверьте здесь для получения дополнительной информации!

Обучение и предварительная обработка трубопровода была принята из R-Net Hkust-Sonkcomp. Демо -режим работает. После обучения просто используйте python config.py --mode demo для запуска интерактивного демонстрационного сервера.

Из-за проблемы с памятью используется внимание однополосного продукта с одной головкой в отличие от многоголового внимания 8 голов, как в оригинальной статье. Скрытый размер также уменьшается до 96 с 128 из -за использования GTX1080 по сравнению с P100, используемым в бумаге. (8 ГБ памяти графического процессора недостаточны. Если у вас есть графический процессор памяти 12 ГБ, пожалуйста, поделитесь с нами результатами обучения.)

В настоящее время лучшая модель достигает EM/F1 = 70,8/80,1 на 60K шагах (6 ~ 8 часов). Подробные результаты перечислены ниже.

Alt text

Набор данных

Набор данных, используемый для этой задачи, представляет собой набор данных для ответов на вопрос Стэнфорда. Предварительные вставки перчатки, полученные из общего ползания с токенами 840b, используемыми для слов.

Требования

Python> = 2,7
Numpy
TQDM
TensorFlow> = 1,5
Spacy == 2.0.9
бутылка (только для демонстрации)

Использование

Чтобы загрузить и предварительно обрабатывать данные, запустите

 # download SQuAD and Glove
sh download.sh
# preprocess the data
python config.py --mode prepro

Так же, как R-Net от HKUST-SONKSCOMP, гипер-парамеры хранятся в config.py. Чтобы отлаживать/поезда/тест/демо, запустите

python config.py --mode debug/train/test/demo

Чтобы оценить модель с официальным кодом, запустите

python evaluate-v1.1.py ~ /data/squad/dev-v1.1.json train/{model_name}/answer/answer.json

Каталог по умолчанию для файла журнала Tensorboard IS train/{model_name}/event

Запустить в контейнере Docker (необязательно)

Чтобы построить изображение Docker (требует Nvidia-Docker), запустите

 nvidia-docker build -t tensorflow/qanet .

Установите пути монтирования объема и сопоставления портов (для демонстрационного режима)

 export QANETPATH={/path/to/cloned/QANet}
export CONTAINERWORKDIR=/home/QANet
export HOSTPORT=8080
export CONTAINERPORT=8080

вмешиваться в контейнер

 nvidia-docker run -v $QANETPATH:$CONTAINERWORKDIR -p $HOSTPORT:$CONTAINERPORT -it --rm tensorflow/qanet bash

Оказавшись внутри контейнера, следуйте приведенным выше командам, начиная с загрузки наборов данных Squad и Glove.

Предварительная модель

Предварительно проведенные веса модели временно недоступны.

Подробная реализация

Модель принимает свертку на уровне символов - максимальное объединение - сеть шоссе для входных представлений, аналогичных этой статье Yoon Kim.
Энкодер состоит из позиционного кодирования - глубины разделяемой сверты - самообедение - направляя вперед структуру слоя между ними.
Несмотря на оригинальную статью с использованием 200, мы наблюдаем, что использование меньшего размера символов приводит к лучшему обобщению.
Для регуляризации выпадает на 0,1 каждые 2 подслои и 2 блока.
Стохастическое отступление глубины используется для сброса остаточного соединения по отношению к увеличению глубины сети, поскольку эта модель в значительной степени зависит от остаточных соединений.
Внимание запроса в контекст используется наряду с вниманием к контексту, что, по-видимому, улучшает производительность больше, чем в статье. Это может быть связано с отсутствием разнообразия в собственном внимании из-за 1 головы (в отличие от 8 голов), которая может иметь повторяющуюся информацию, которую содержит внимание запроса на контекст.
Скорость обучения увеличивается с 0,0 до 0,001 в первых 1000 этапах в обратной экспоненциальной шкале и зафиксирована до 0,001 с 1000 шагов.
При выводе эта модель использует теневые переменные, поддерживаемые экспоненциальным скользящим средним всех глобальных переменных.
Эта модель использует трубопровод обучения / тестирования / предварительной обработки от R-Net для повышения эффективности.

Результаты

Вот собранные результаты этого хранилища и оригинальной статьи.

Модель	Учебные шаги	Размер	Внимание головы	Размер данных (август)	ЭМ	F1
Моя модель	35 000	96	1	87K (нет августа)	69,0	78.6
Моя модель	60 000	96	1	87K (нет августа)	70.4	79,6
Моя модель (сообщается @jasonbw)	60 000	128	1	87K (нет августа)	70.7	79,8
Моя модель (сообщается @chesterkuo)	60 000	128	8	87K (нет августа)	70.8	80.1
Оригинальная бумага	35 000	128	8	87K (нет августа)	НА	77.0
Оригинальная бумага	150 000	128	8	87K (нет августа)	73,6	82,7
Оригинальная бумага	340 000	128	8	240K (август)	75,1	83,8

Тодо

Обучение и тестирование модели
Добавьте трилинейную функцию в контекст-Query внимание
Применить выбросы + стохастическое отсечение глубины
Запрос в контекст внимания
Демонстрация в реальном времени
Увеличение данных путем перефразирования
Поезд с полными гиперпараметрами (дополненные данные, 8 голов, скрытые единицы = 128)

Тенсорборд

Запустите Tensorboard для визуализации.

$ tensorboard --logdir=./

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-17
размер 186.37KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

QANet

Канет

Набор данных

Требования

Использование

Запустить в контейнере Docker (необязательно)

Предварительная модель

Подробная реализация

Результаты

Тодо

Тенсорборд

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express