Скачать VSUA Captioning - Скачать исходный код VSUA Captioning

VSUA Captioning

Другой исходный код

1.0.0

Скачать

Выравнивание лингвистических слов и визуальных семантических единиц для подписания изображения

Введение

Модель VSUA представляет изображения как структурированные графики, где узлы являются так называемыми визуальными семантическими единицами (VSU): объект, атрибут и единицы взаимоотношений. Наша модель VSUA использует природу выравнивания между словами подписи и VSUS.

ВВЕДЕНИЕ ИЗОБРАЖЕНИЕ

Цитирование

Если вы найдете этот код полезным в своем исследовании, пожалуйста, цитируйте

 @inproceedings{guo2019vsua,
 title={Aligning Linguistic Words and Visual Semantic Units for Image Captioning},
 author={Longteng Guo, Jing Liu, Jinhui Tang, Jiangwei Li, Wei Luo, and Hanqing Lu},
 booktitle={ACM MM},
 year={2019}}

Требования

График с поддержкой CUDA
Python 2.7 и Pytorch> = 0,4
Сидр (уже добавлен в качестве подмодуля)
Необязательно:
- Coco-Caption (уже добавлен в качестве подмодуля): Если вы хотите оценить оценки Bleu/Meteor/Cider
- Tensorboardx: Если вы хотите визуализировать истории потерь (необходимо установить TensorFlow).

Для установки всех подмодулей: git clone --recursive https://github.com/ltguo19/VSUA-Captioning.git

Подготовьте данные

Для получения более подробной информации и другого набора данных см. Ruotianluo/Selfcritical.pytorch

1. Загрузите подписи Coco и предварительно их предварительно

Загрузите предварительные подписи Coco со ссылки с домашней страницы Карпати. Извлечь dataset_coco.json из файла ZIP и скопируйте его в data/ . Этот файл предоставляет предварительные подписи, а также стандартные расколы для тестирования поезда.

Тогда делай:

$ python scripts/prepro_labels.py --input_json data/dataset_coco.json --output_json data/cocotalk.json --output_h5 data/cocotalk

prepro_labels.py будет отображать все слова, которые возникают <= 5 раз с специальным токеном UNK , и создаст словарный запас для всех оставшихся слов. Информация об изображениях и словарный запас сбрасываются в data/cocotalk.json , а данные о дискретизированных заголовках сбрасываются в data/cocotalk_label.h5 .

2. Скачать функции снизу вверх

Мы используем предварительно экстрагированные функции изображения снизу вверх. Загрузите предварительно экспрессируемую функцию по ссылке (мы используем адаптивную в наших экспериментах). Например:

mkdir data/bu_data ; cd data/bu_data
wget https://storage.googleapis.com/bottom-up-attention/trainval.zip
unzip trainval.zip

Затем:

python script/make_bu_data.py --output_dir data/cocobu

Это создаст data/cocobu_fc , data/cocobu_att и data/cocobu_box .

3. Загрузите данные графа сцены изображения

Мы используем данные графа сцены от Yangxuntu/Sgae. Загрузите файлы coco_img_sg.zip и coco_pred_sg_rela.npy по этой ссылке и поместите их в data папки, а затем раскрипируйте их. coco_img_sg.zip содержит данные графа сцены для каждого изображения, включая этикетки объектов и метки атрибутов для каждой коробки в адаптивных данных о снижении вверх, и этикетки семантических отношений между коробками. coco_pred_sg_rela.npy содержит словарь для объекта, атрибутов и меток отношений.

4. Извлечение данных о отношениях геометрии

Загрузите файлы vsua_box_info.pkl по этой ссылке, которая содержит размер каждой коробки и ширину/высоту каждого изображения. Тогда делай:

python scripts/cal_geometry_feats.py
python scripts/build_geometry_graph.py

Чтобы извлечь функции отношения геометрии и построить график геометрии. Это создаст data/geometry_feats-undirected.pkl и data/geometry-iou0.2-dist0.5-undirected .

В целом, папка данных должна содержать эти файлы/папки:

cocotalk.json         	# additional information about images and vocab
cocotalk_label.h5       # captions
coco-train-idxs.p       # cached token file for cider
cocobu_att              # bottom-up feature
cocobu_fc               # bottom-up average feature
coco_img_sg             # scene graph data
coco_pred_sg_rela.npy   # scene graph vocabularies
vsua_box_info.pkl       # boxes and width and height of images
geometry-iou0.2-dist0.5-undirected  # geometry graph data

Обучение

1. Потеря поперечной энтропии

python train.py --gpus 0 --id experiment-xe --geometry_relation True

Сценарий поезда будет сбросить контрольно -пропускные пункты в папку, указанную --checkpoint_root и --id .

2. Подкрепление обучения с вознаграждением сидра

python train.py --gpus 0 --id experiment-rl --geometry_relation True --learning_rate 5e-5 --resume_from experiment-xe --resume_from_best True --self_critical_after 0 --max_epochs 50

--gpu определяет GPU, используемый для запуска модели. --id -это название этого эксперимента, и вся информация и контрольные точки будут сброшены в папку checkpoint_root/id .
--geometry_relation Указывает тип отношения для использования. Верно: Используйте отношения геометрии, ложь: используйте семантические отношения.
Чтобы возобновить обучение, вы можете указать опцию --resume_from как идентификатор эксперимента, из которого вы хотите возобновить, и использовать --resume_from_best , чтобы выбрать, следует ли возобновить из наиболее эффективной контрольной точки или последней контрольной точки.
Если у вас есть TensorFlow, истории потерь автоматически бросаются в checkpoint_root/id и могут быть визуализированы с использованием Tensorboard с помощью sh script/tensorboard.sh .
Если вы хотите оценить баллы Bleu/Meteor/Cider во время обучения в дополнение к потерь поперечной валиропии, используйте опцию --language_eval 1 , но не забудьте загрузить код Coco-Caption в каталог coco-caption .
Для получения дополнительных вариантов см. opts.py И увидеть самокритичный.

Подтверждение

Этот код изменяется из блестящей подписания изображения Ruotian Luo Repo Ruotianluo/Selfcritical.pytorch. Мы используем визуальные функции, предоставляемые снизу вверх Peteanserson80/снизу вверх, и данные о графе сцены, предоставленные Yangxuntu/SGAE. Спасибо за их работы! Если вы найдете этот код полезным, пожалуйста, рассмотрите возможность ссылаться на их соответствующие документы и нашу статью.

Расширять

Дополнительная информация