ดาวน์โหลด VSUA Captioning - VSUA Captioning ภาพซอร์สโค้ดดาวน์โหลดดาวน์โหลด

VSUA Captioning

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

จัดแนวคำศัพท์ภาษาศาสตร์และหน่วยความหมายแบบภาพสำหรับคำบรรยายภาพ

การแนะนำ

โมเดล VSUA แสดงถึงภาพเป็นกราฟที่มีโครงสร้างซึ่งโหนดเป็นหน่วยความหมายที่เรียกว่าภาพ (VSUs): วัตถุแอตทริบิวต์และหน่วยความสัมพันธ์ โมเดล VSUA ของเราใช้ประโยชน์จากธรรมชาติการจัดตำแหน่งระหว่างคำบรรยายภาพและ VSU

ภาพแนะนำ

การอ้างอิง

หากคุณพบว่ารหัสนี้มีประโยชน์ในการวิจัยของคุณโปรดอ้างอิง

 @inproceedings{guo2019vsua,
 title={Aligning Linguistic Words and Visual Semantic Units for Image Captioning},
 author={Longteng Guo, Jing Liu, Jinhui Tang, Jiangwei Li, Wei Luo, and Hanqing Lu},
 booktitle={ACM MM},
 year={2019}}

ความต้องการ

GPU ที่เปิดใช้งาน CUDA
Python 2.7 และ Pytorch> = 0.4
ไซเดอร์ (เพิ่มเป็น submodule)
ทางเลือก:
- Coco-caption (เพิ่มเป็น submodule): หากคุณต้องการประเมินคะแนน Bleu/Meteor/Cider
- TensorBoardX: หากคุณต้องการเห็นภาพประวัติศาสตร์การสูญเสีย (จำเป็นต้องติดตั้ง TensorFlow)

ในการติดตั้ง submodules ทั้งหมด: git clone --recursive https://github.com/ltguo19/VSUA-Captioning.git

เตรียมข้อมูล

สำหรับรายละเอียดเพิ่มเติมและชุดข้อมูลอื่น ๆ ดู ruotianluo/selficitical.pytorch

1. ดาวน์โหลด Coco Captions และประมวลผลล่วงหน้า

ดาวน์โหลดคำอธิบายภาพ Coco ที่ถูกประมวลผลล่วงหน้าจากลิงก์จากหน้าแรกของ Karpathy แยก dataset_coco.json จากไฟล์ zip และคัดลอกลงใน data/ ไฟล์นี้ให้คำบรรยายภาพล่วงหน้าและแยกการทดสอบรถไฟ Val-test มาตรฐาน

แล้วทำ:

$ python scripts/prepro_labels.py --input_json data/dataset_coco.json --output_json data/cocotalk.json --output_h5 data/cocotalk

prepro_labels.py จะแมปคำทั้งหมดที่เกิดขึ้น <= 5 ครั้งกับโทเค็นพิเศษ UNK และสร้างคำศัพท์สำหรับคำทั้งหมดที่เหลือ ข้อมูลภาพและคำศัพท์จะถูกทิ้งลงใน data/cocotalk.json และข้อมูลคำบรรยายใต้ภาพ discretized จะถูกทิ้งลงใน data/cocotalk_label.h5

2. ดาวน์โหลดคุณสมบัติจากล่างขึ้นบน

เราใช้คุณสมบัติภาพจากล่างขึ้นบนก่อน ดาวน์โหลดคุณลักษณะที่สกัดล่วงหน้าจากลิงค์ (เราใช้ Adaptive ในการทดลองของเรา) ตัวอย่างเช่น:

mkdir data/bu_data ; cd data/bu_data
wget https://storage.googleapis.com/bottom-up-attention/trainval.zip
unzip trainval.zip

แล้ว:

python script/make_bu_data.py --output_dir data/cocobu

สิ่งนี้จะสร้าง data/cocobu_fc , data/cocobu_att และ data/cocobu_box

3. ดาวน์โหลดข้อมูลกราฟฉากภาพ

เราใช้ข้อมูลกราฟฉากจาก Yangxuntu/Sgae ดาวน์โหลดไฟล์ coco_img_sg.zip และ coco_pred_sg_rela.npy จากลิงค์นี้และใส่ลงใน data โฟลเดอร์แล้วคลายซิป coco_img_sg.zip มีข้อมูลกราฟฉากสำหรับแต่ละภาพรวมถึงป้ายกำกับวัตถุและฉลากแอตทริบิวต์สำหรับแต่ละกล่องในข้อมูลการปรับตัวจากล่างขึ้นบนและฉลากความสัมพันธ์ทางความหมายระหว่างกล่อง coco_pred_sg_rela.npy มีคำศัพท์สำหรับวัตถุแอตทริบิวต์และฉลากความสัมพันธ์

4. แยกข้อมูลความสัมพันธ์เชิงเรขาคณิต

ดาวน์โหลดไฟล์ vsua_box_info.pkl จากลิงค์นี้ซึ่งมีขนาดของแต่ละกล่องและความกว้าง/ความสูงของแต่ละภาพ แล้วทำ:

python scripts/cal_geometry_feats.py
python scripts/build_geometry_graph.py

เพื่อแยกคุณสมบัติความสัมพันธ์เรขาคณิตและสร้างกราฟเรขาคณิต สิ่งนี้จะสร้าง data/geometry_feats-undirected.pkl และ data/geometry-iou0.2-dist0.5-undirected

โดยรวมแล้วโฟลเดอร์ข้อมูลควรมีไฟล์/โฟลเดอร์เหล่านี้:

cocotalk.json         	# additional information about images and vocab
cocotalk_label.h5       # captions
coco-train-idxs.p       # cached token file for cider
cocobu_att              # bottom-up feature
cocobu_fc               # bottom-up average feature
coco_img_sg             # scene graph data
coco_pred_sg_rela.npy   # scene graph vocabularies
vsua_box_info.pkl       # boxes and width and height of images
geometry-iou0.2-dist0.5-undirected  # geometry graph data

การฝึกอบรม

1. การสูญเสียข้ามจุดกำเนิด

python train.py --gpus 0 --id experiment-xe --geometry_relation True

สคริปต์รถไฟจะทิ้งจุดตรวจลงในโฟลเดอร์ที่ระบุโดย --checkpoint_root และ --id

2. การเรียนรู้การเสริมแรงด้วยรางวัลไซเดอร์

python train.py --gpus 0 --id experiment-rl --geometry_relation True --learning_rate 5e-5 --resume_from experiment-xe --resume_from_best True --self_critical_after 0 --max_epochs 50

--gpu ระบุ GPU ที่ใช้ในการเรียกใช้โมเดล --id เป็นชื่อของการทดลองนี้และข้อมูลและจุดตรวจทั้งหมดจะถูกทิ้งไปยังโฟลเดอร์ checkpoint_root/id
--geometry_relation ระบุประเภทของความสัมพันธ์ที่จะใช้ จริง: ใช้ความสัมพันธ์เชิงเรขาคณิตเท็จ: ใช้ความสัมพันธ์ทางความหมาย
ในการฝึกอบรมต่อคุณสามารถระบุ-ตัวเลือก --resume_from เป็นรหัสทดลองที่คุณต้องการกลับมาทำงานต่อและใช้ --resume_from_best เพื่อเลือกว่าจะกลับมาทำงานต่อจากจุดตรวจที่ดีที่สุดหรือจุดตรวจสอบล่าสุด
หากคุณมี tensorflow ประวัติการสูญเสียจะถูกทิ้งลงใน checkpoint_root/id โดยอัตโนมัติและสามารถมองเห็นได้โดยใช้ Tensorboard โดย sh script/tensorboard.sh
หากคุณต้องการประเมินคะแนน Bleu/Meteor/Cider ในระหว่างการฝึกอบรมนอกเหนือจากการตรวจสอบการสูญเสียข้ามการรับรู้การใช้-ตัวเลือก --language_eval 1 แต่อย่าลืมดาวน์โหลดรหัส Coco-caption ลงในไดเรกทอรี coco-caption
สำหรับตัวเลือกเพิ่มเติมดู opts.py และดู critical.pytorch สำหรับคำแนะนำการฝึกอบรมเพิ่มเติม

การรับทราบ

รหัสนี้ได้รับการแก้ไขจากคำบรรยายภาพที่ยอดเยี่ยมของ Ruotian Luo repo ruotianluo/critical.pytorch เราใช้คุณสมบัติภาพที่จัดทำโดย PeteAnderson80/จากล่างขึ้นบนและข้อมูลกราฟที่จัดทำโดย Yangxuntu/Sgae ขอบคุณสำหรับผลงานของพวกเขา! หากคุณพบว่ารหัสนี้มีประโยชน์โปรดพิจารณาอ้างถึงเอกสารที่เกี่ยวข้องและกระดาษของเรา

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-18
ขนาด 189.29KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด