
วิศวกรรมที่รวดเร็วเป็นเทคนิคที่เกี่ยวข้องกับการเพิ่มโมเดลที่ผ่านการฝึกอบรมมาก่อนขนาดใหญ่พร้อมคำแนะนำเฉพาะงานที่รู้จักกันในชื่อพร้อมท์เพื่อปรับรูปแบบให้เข้ากับงานใหม่ repo นี้มีวัตถุประสงค์เพื่อให้ การสำรวจที่ครอบคลุม เกี่ยวกับการวิจัยที่ทันสมัยในด้านวิศวกรรมที่รวดเร็วเกี่ยวกับโมเดล Vision-Language สาม ประเภท (VLMS): โมเดลการสร้างแบบหลายรูป แบบถึงข้อความ ( เช่น ฟ ลามิงโก) โมเดลการจับคู่ข้อความภาพ ( เช่น คลิป)

รูปที่ 1: งานนี้มุ่งเน้นไปที่สามประเภทหลักของแบบจำลองภาษาวิสัยทัศน์
repo นี้แสดงเอกสารที่เกี่ยวข้องซึ่งสรุปไว้ในแบบสำรวจของเรา:
การสำรวจอย่างเป็นระบบของวิศวกรรมที่รวดเร็วเกี่ยวกับโมเดลมูลนิธิวิสัยทัศน์ Jindong Gu, Zhen Han, Shuo Chen, Ahmad Beirami, Bailan HE, Gengyuan Zhang, Ruotong Liao, Yao Qin, Volker Tresp, Philip Torr Preprint 2023. [PDF]
หากคุณพบว่ากระดาษของเราและ repo เป็นประโยชน์กับการวิจัยของคุณโปรดอ้างอิงเอกสารต่อไปนี้:
@article{gu2023survey,
title={A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models},
author={Gu, Jindong and Han, Zhen and Chen, Shuo, and Beirami, Ahmad and He, Bailan and Zhang, Gengyuan and Liao, Ruotong and Qin, Yao and Tresp, Volker and Torr, Philip}
journal={arXiv preprint arXiv:2307.12980},
year={2023}
}แบบจำลองการแจ้งเตือนในการสร้างข้อความหลายรูปแบบเป็นข้อความ
โมเดลการแจ้งเตือนในการจับคู่ข้อความภาพ
โมเดลการแจ้งเตือนในการสร้างข้อความเป็นภาพ
มีสองประเภทหลักของโมดูลฟิวชั่นตามการรวมกันของรูปแบบการมองเห็นและข้อความ: ตัวเข้ารหัสตัวพิมพ์ใหญ่เป็นโมดูลฟิวชั่นแบบหลายโมดอล และ ตัวถอดรหัสอย่างเดียวเป็นโมดูลฟิวชั่นแบบหลายโมดอล วิธีการแจ้งเตือนสามารถแบ่งออกเป็น สองหมวดหมู่หลัก (รูปที่ 2) ตามความสามารถในการอ่านของเทมเพลต: พรอมต์ที่ยาก และ นุ่มนวล Hard Promp ครอบคลุมหมวดหมู่ย่อยสี่ประเภท ได้แก่ การเรียนการสอนการเรียนรู้ในบริบท การแจ้งเตือนจากการดึงข้อมูลและการแจ้งเตือนจากห่วงโซ่ Soft Prompts แบ่งออกเป็นสองกลยุทธ์: การปรับจูน และ คำนำหน้าการปรับแต่งโทเค็น โดยขึ้นอยู่กับว่าพวกเขาเพิ่มโทเค็นใหม่ภายในสถาปัตยกรรมของรุ่นหรือต่อท้ายเข้ากับอินพุต การศึกษาครั้งนี้มุ่งเน้นไปที่วิธีการแจ้งเตือนที่หลีกเลี่ยงการเปลี่ยนแปลงแบบจำลองฐาน

รูปที่ 2: การจำแนกประเภทของวิธีการแจ้งเตือน
| ชื่อ | สถานที่จัดงาน | ปี | รหัสถ้ามี | การแสดงความคิดเห็น |
|---|---|---|---|---|
| รวมงานวิสัยทัศน์และภาษาผ่านการสร้างข้อความ | ICML | 2021 | คนอื่น ๆ | ฟิวชั่นเข้ารหัส คำนำหน้าข้อความตามพรอมต์ |
| SIMVLM: รูปแบบภาษาภาพที่เรียบง่ายพร้อมการกำกับดูแลที่อ่อนแอ | ICLR | 2022 | คนอื่น ๆ | ฟิวชั่นเข้ารหัส คำนำหน้าข้อความตามพรอมต์ |
| OFA: การรวมสถาปัตยกรรมงานและวิธีการผ่านกรอบการเรียนรู้ลำดับต่อลำดับอย่างง่าย | ICML | 2022 | คนอื่น ๆ | ฟิวชั่นเข้ารหัส คำนำหน้าข้อความตามพรอมต์ |
| Pali: โมเดลภาพหลายภาษาหลายภาษาร่วมกัน | ICLR | 2023 | - | ฟิวชั่นเข้ารหัส พรอมต์คำแนะนำ |
| การเรียนรู้ไม่กี่ครั้งด้วยรูปแบบภาษาแช่แข็งหลายรูปแบบ | เครื่องประสาท | 2021 | หน้าหนังสือ | ฟิวชั่นถอดรหัสเท่านั้น การปรับแต่งคำนำหน้าแบบมีเงื่อนไข |
| Flamingo: รูปแบบภาษาภาพสำหรับการเรียนรู้ไม่กี่ครั้ง | เครื่องประสาท | 2022 | คนอื่น ๆ | ฟิวชั่นถอดรหัสเท่านั้น ข้อความแจ้ง |
| MAGMA-การเพิ่มหลายรูปแบบของรุ่นกำเนิดผ่าน Finetuning ที่ใช้อะแดปเตอร์ | emnlp | 2022 | คนอื่น ๆ | ฟิวชั่นถอดรหัสเท่านั้น การปรับแต่งคำนำหน้าแบบมีเงื่อนไข |
| BLIP-2: การฝึกอบรมภาษา-ภาพการฝึกอบรมด้วยการเข้ารหัสภาพแช่แข็งและโมเดลภาษาขนาดใหญ่ | ICML | 2023 | คนอื่น ๆ | ฟิวชั่นถอดรหัสเท่านั้น การปรับแต่งคำนำหน้าแบบมีเงื่อนไข |
| แบบจำลองภาษาเป็นผู้เรียนมัลติทาสก์ที่ไม่ได้รับการดูแล | บล็อก Openai | 2019 | คนอื่น ๆ | พรอมต์คำสั่งงาน |
| การทดสอบ Turking: แบบจำลองภาษาสามารถเข้าใจคำแนะนำได้หรือไม่? | arxiv | 2020 | - | พรอมต์คำสั่งงาน |
| แบบจำลองภาษาเป็นผู้เรียนไม่กี่คน | เครื่องประสาท | 2020 | - | การเรียนรู้ในบริบท |
| เรียนรู้ที่จะดึงพรอมต์สำหรับการเรียนรู้ในบริบท | NAACL-HLT | 2022 | คนอื่น ๆ | การแจ้งเตือนแบบเรียกคืน |
| retriever สาธิตแบบครบวงจรสำหรับการเรียนรู้ในบริบท | ACL | 2023 | คนอื่น ๆ | การแจ้งเตือนแบบเรียกคืน |
| เป็นแบบอย่างการประพันธ์สำหรับการเรียนรู้ในบริบท | ICML | 2023 | คนอื่น ๆ | การแจ้งเตือนแบบเรียกคืน |
| โซ่แห่งความคิดกระตุ้นให้เกิดการให้เหตุผลในรูปแบบภาษาขนาดใหญ่ | เครื่องประสาท | 2022 | - | การกระตุ้นด้วยความคิด |
| ห่วงโซ่การกระตุ้นความคิดอัตโนมัติในรูปแบบภาษาขนาดใหญ่ | ICLR | 2023 | คนอื่น ๆ | การกระตุ้นด้วยความคิด |
| กำลังของสเกลสำหรับการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ | emnlp | 2021 | - | การปรับแต่ง |
| เรียนรู้วิธีการถาม: การสอบถาม LMS ด้วยการผสมของพรอมต์อ่อนนุ่ม | NAACL-HLT | 2021 | คนอื่น ๆ | การปรับแต่ง |
| คำนำหน้าการปรับแต่ง: การเพิ่มประสิทธิภาพการแจ้งเตือนอย่างต่อเนื่องสำหรับการสร้าง | ACL | 2021 | คนอื่น ๆ | การปรับแต่งคำนำหน้า |
| การปรับจูนทันทีสำหรับรุ่นที่ผ่านการฝึกฝนมาหลายรูปแบบ Generative | ACL | 2023 | คนอื่น ๆ | การปรับแต่งอย่างรวดเร็วของ OFA |
| ภาษาไม่ใช่สิ่งที่คุณต้องการ: จัดแนวการรับรู้กับแบบจำลองภาษา | เครื่องประสาท | 2023 | คนอื่น ๆ | คำสั่งที่เป็นข้อความ |
| การเปรียบเทียบความทนทานของวิธีการปรับตัวในรูปแบบภาษาวิสัยทัศน์ที่ผ่านการฝึกอบรมมาก่อน | เครื่องประสาท | 2024 | หน้าหนังสือ | ความทนทานของการปรับจูนทันทีบน VLMS |
| ต่อการแจ้งให้โมเดลภาษาวิสัยทัศน์ที่แข็งแกร่ง | nextgenaisafety@iclr | 2024 | - | ความทนทานของการปรับจูนทันทีบน VLMS |
| InstructBlip: ไปสู่โมเดลภาษาวิสัยทัศน์ทั่วไปพร้อมการปรับแต่งการเรียนการสอน | เครื่องประสาท | 2023 | คนอื่น ๆ | การปรับแต่ง |
| การปรับแต่งคำแนะนำด้วยภาพ | เครื่องประสาท | 2023 | คนอื่น ๆ | |
| QWEN-VL: รูปแบบภาษาวิสัยทัศน์ที่หลากหลายเพื่อความเข้าใจการแปลการอ่านข้อความและอื่น ๆ | arxiv | 2023 | คนอื่น ๆ | การปรับแต่ง |
| Shikra: Unleashing Multimodal LLM Dialogue Dialogue Magic Magic | arxiv | 2023 | คนอื่น ๆ | |
| MINIGPT-4: เสริมสร้างความเข้าใจภาษาวิสัยทัศน์ด้วยโมเดลภาษาขนาดใหญ่ขั้นสูง | ICLR | 2023 | คนอื่น ๆ | การปรับแต่ง |
ขึ้นอยู่กับเป้าหมายของการแจ้งเตือนวิธีการที่มีอยู่สามารถแบ่งออกเป็นสามหมวดหมู่: แจ้งเตือนตัวเข้ารหัสข้อความ แจ้งตัวเข้ารหัสภาพ หรือ พร้อมกันทั้งสองสาขา ดังแสดงในรูปที่ 2 วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อเพิ่มความยืดหยุ่นและประสิทธิภาพเฉพาะงานของ VLMS

รูปที่ 2: การจำแนกประเภทของวิธีการแจ้งเตือนบน VLMS การจับคู่ข้อความภาพ
| ชื่อ | สถานที่จัดงาน | ปี | รหัสถ้ามี | การแสดงความคิดเห็น |
|---|---|---|---|---|
| การเรียนรู้แบบจำลองภาพที่ถ่ายโอนได้จากการกำกับดูแลภาษาธรรมชาติ | ICML | 2021 | คนอื่น ๆ | ข้อความข้อความยาก พร้อมรับการจำแนกรูปภาพ |
| เจาะลึกเข้าไปในการเปิดคลิป | ACL | 2023 | คนอื่น ๆ | ข้อความที่ยากสำหรับความเข้าใจ |
| การปรับจูนเวลาทดสอบเวลาสำหรับการวางนัยทั่วไปแบบไม่มีการยิงในรูปแบบภาษาวิสัยทัศน์ | เครื่องประสาท | 2022 | คนอื่น ๆ | ข้อความข้อความอ่อนนุ่ม |
| เรียนรู้ที่จะพร้อมสำหรับแบบจำลองภาษาวิสัยทัศน์ | ijcv | 2022 | คนอื่น ๆ | ข้อความข้อความอ่อนนุ่ม |
| พร้อมที่จะสร้างโมเดลภาษาภาพสำหรับการทำความเข้าใจวิดีโอที่มีประสิทธิภาพ | ECCV | 2022 | คนอื่น ๆ | ข้อความข้อความอ่อนนุ่ม |
| การปรับจูนแบบมัลติทาสก์-วิสัยทัศน์การปรับแต่ง | WACV | 2024 | คนอื่น ๆ | ข้อความข้อความอ่อนนุ่ม |
| การเรียนรู้ที่รวดเร็วตามเงื่อนไขสำหรับแบบจำลองภาษาวิสัยทัศน์ | CVPR | 2022 | คนอื่น ๆ | ข้อความข้อความอ่อนนุ่ม |
| การปรับจูนด้วยภาพ | ECCV | 2022 | คนอื่น ๆ | พรอมต์ภาพแพทช์ที่มองเห็นได้ |
| การสำรวจพรอมต์ภาพสำหรับการปรับรุ่นขนาดใหญ่ | arxiv | 2022 | คนอื่น ๆ | พรอมต์ภาพแพทช์ที่มองเห็นได้ |
| การปรับจูนแบบมัลติทาสก์-วิสัยทัศน์การปรับแต่ง | WACV | 2024 | คนอื่น ๆ | พรอมต์ภาพแพทช์ที่มองเห็นได้ |
| ปลดปล่อยพลังของการแจ้งเตือนด้วยสายตาในระดับพิกเซล | TMLR | 2024 | คนอื่น ๆ | พรอมต์ภาพแพทช์ที่มองเห็นได้ |
| การแจ้งเตือนภาพเมตาที่รับรู้ที่หลากหลาย | CVPR | 2023 | คนอื่น ๆ | พรอมต์ภาพแพทช์ที่มองเห็นได้ |
| CPT: การปรับแต่งสีสันสดใสสำหรับรุ่นวิสัยทัศน์ที่ผ่านการฝึกอบรมมาก่อน | AI เปิด | 2024 | คนอื่น ๆ | คำอธิบายประกอบภาพ |
| คลิปรู้อะไรเกี่ยวกับวงกลมสีแดง? วิศวกรรมพร้อมด้วยภาพสำหรับ VLMS | ICCV | 2023 | - | คำอธิบายประกอบภาพ |
| การแจ้งเตือนด้วยภาพผ่านภาพไม่ทาส | เครื่องประสาท | 2022 | คนอื่น ๆ | คำอธิบายประกอบภาพ |
| การเรียนรู้แบบครบวงจรและการเรียนรู้ภาษาที่รวดเร็ว | arxiv | 2023 | คนอื่น ๆ | คู่กันพร้อมกัน |
| การปรับจูนแบบมัลติทาสก์-วิสัยทัศน์การปรับแต่ง | WACV | 2024 | คนอื่น ๆ | decoupled การแจ้งเตือนแบบครบวงจร |
| เมเปิ้ล: การเรียนรู้ที่หลากหลายแบบหลายโมดอล | CVPR | 2023 | คนอื่น ๆ | decoupled การแจ้งเตือนแบบครบวงจร |
| การทำความเข้าใจกับความทนทานของความทนทานต่อการถ่ายภาพสำหรับโมเดลขนาดใหญ่ | ICLR | 2023 | รหัส | ความทนทานของฝ่ายตรงข้าม |
| การแจ้งเตือนด้วยสายตาเพื่อความทนทานของฝ่ายตรงข้าม | icassp | 2023 | คนอื่น ๆ | ความทนทานของฝ่ายตรงข้าม |
| จัดตำแหน่งก่อนฟิวส์: การมองเห็นและการเรียนรู้ภาษาการเรียนรู้ด้วยการกลั่นโมเมนตัม | เครื่องประสาท | 2021 | คนอื่น ๆ | โมเดลการจับคู่ข้อความรูปภาพ |
| การเรียนรู้ที่รวดเร็วโดยไม่ได้รับการดูแลสำหรับแบบจำลองภาษาวิสัยทัศน์ | arxiv | 2022 | คนอื่น ๆ | พรอมต์ที่เรียนรู้ที่ไม่ได้รับการเรียนรู้ |
| การปรับจูนเวลาทดสอบเวลาสำหรับการวางนัยทั่วไปแบบไม่มีการยิงในรูปแบบภาษาวิสัยทัศน์ | เครื่องประสาท | 2022 | คนอื่น ๆ | พรอมต์ที่เรียนรู้ได้ |
| การฝึกอบรมล่วงหน้าพร้อมชั้นเรียนกว่าสองหมื่นชั้นสำหรับการจดจำภาพแบบเปิดโล่ง | เครื่องประสาท | 2023 | คนอื่น ๆ | พร้อมฝึกอบรมล่วงหน้า |
| การเรียนรู้ที่รวดเร็วด้วยความสอดคล้องสำหรับแบบจำลองภาษาวิสัยทัศน์ | ICLR | 2024 | - | decoupled การแจ้งเตือนแบบครบวงจร |
| การปรับปรุงความสามารถในการปรับตัวและความสามารถทั่วไปของการเรียนรู้การถ่ายโอนที่มีประสิทธิภาพสำหรับแบบจำลองภาษาวิสัยทัศน์ | ACL arr | 2024 | - | พรอมต์ที่เรียนรู้ได้ |
| ชื่อ | สถานที่จัดงาน | ปี | รหัสถ้ามี | การแสดงความคิดเห็น |
|---|---|---|---|---|
| LMPT: การปรับจูนพร้อมด้วยการสูญเสียการฝังเฉพาะชั้นเรียน | ALVR | 2024 | คนอื่น ๆ | พร้อมท์สำหรับการจำแนกรูปภาพหลายฉลากยาวหาง |
| การปรับจูนเวลาทดสอบเวลาสำหรับการวางนัยทั่วไปแบบไม่มีการยิงในรูปแบบภาษาวิสัยทัศน์ | เครื่องประสาท | 2022 | คนอื่น ๆ | พรอมต์ที่เรียนรู้ได้; พร้อมท์สำหรับการจำแนกรูปภาพ |
| LPT: การปรับจูนพร้อมด้วยหางยาวสำหรับการจำแนกรูปภาพ | ICLR | 2023 | คนอื่น ๆ | แจ้งเตือนสำหรับการจำแนกภาพที่มีหางเป็นระยะ |
| ข้อความเป็นภาพในการปรับแต่งพร้อมรับรู้การจดจำภาพหลายฉลาก | CVPR | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการจำแนกภาพและการตรวจจับภาพหลายฉลาก |
| Dualcoop: การปรับตัวอย่างรวดเร็วเพื่อการรับรู้หลายฉลากด้วยคำอธิบายประกอบที่ จำกัด | เครื่องประสาท | 2022 | คนอื่น ๆ | พร้อมท์สำหรับการจำแนกรูปภาพและการจดจำภาพหลายฉลาก |
| การปรับจูนพร้อมด้วยภาพสำหรับการจำแนกประเภทข้อความไม่กี่นัด | ICCL | 2022 | - | พร้อมท์พร้อมท์สำหรับการจำแนกประเภทข้อความ |
| การตรวจจับวัตถุแบบเปิดโล่งผ่านการมองเห็นและการกลั่นความรู้ด้านภาษา | ICLR | 2021 | คนอื่น ๆ | แจ้งเตือนสำหรับการตรวจจับวัตถุ |
| เรียนรู้ที่จะแจ้งให้ทราบสำหรับการตรวจจับวัตถุแบบเปิดโล่งด้วยรูปแบบภาษาวิสัยทัศน์ | CVPR | 2022 | คนอื่น ๆ | แจ้งเตือนสำหรับการตรวจจับวัตถุ |
| PromptDet: ไปสู่การตรวจจับแบบเปิดโล่งโดยใช้ภาพที่ไม่ได้รับการดูแล | ECCV | 2022 | คนอื่น ๆ | แจ้งเตือนสำหรับการตรวจจับวัตถุ |
| เพิ่มประสิทธิภาพการแจ้งเตือนอย่างต่อเนื่องสำหรับการตรวจจับความสัมพันธ์ทางสายตาโดยการปรับแต่งการปรับแต่ง | การเข้าถึง IEEE | 2022 | - | พรอมต์อ่อนสำหรับการตรวจจับความสัมพันธ์ด้วยภาพ |
| ไปสู่การสร้างกราฟฉากเปิดโล่งพร้อมการปรับแต่งแบบรวดเร็ว | ECCV | 2022 | - | พรอมต์อ่อนสำหรับการตรวจจับความสัมพันธ์ด้วยภาพ |
| การปรับแต่งการปรับแต่งด้วยตัวชี้นำการเคลื่อนไหวสำหรับการตรวจจับความสัมพันธ์วิดีโอแบบเปิด-vocabulary | ICLR | 2023 | คนอื่น ๆ | พรอมต์ความสัมพันธ์สำหรับการตรวจจับความสัมพันธ์แบบเปิด-vocabulary วิดีโอ |
| Denseclip: การทำนายความหนาแน่นของภาษาที่มีการแจ้งเตือนบริบทที่ตระหนักถึงบริบท | CVPR | 2022 | คนอื่น ๆ | ข้อความที่ได้รับการปรับให้เข้ากับการแบ่งส่วนความหมาย |
| แบ่งส่วนอะไรก็ได้ | ICCV | 2023 | คนอื่น ๆ | แบบสอบถามที่รวดเร็วสำหรับการแบ่งส่วนความหมาย |
| การปรับโดเมนผ่านการเรียนรู้ที่รวดเร็ว | IEEE | 2023 | คนอื่น ๆ | พรอมต์ข้อความเฉพาะโดเมนสำหรับการปรับโดเมน |
| การปรับแต่งภาพพร้อมการปรับโดเมนเวลาทดสอบ | arxiv | 2022 | - | แจ้งเตือนสำหรับการปรับโดเมน |
| เรียนรู้ที่จะพร้อมสำหรับการเรียนรู้อย่างต่อเนื่อง | CVPR | 2022 | คนอื่น ๆ | แจ้งเตือนสำหรับการเรียนรู้อย่างต่อเนื่อง |
| DualPrompt: การกระตุ้นเสริมสำหรับการเรียนรู้อย่างต่อเนื่อง | ECCV | 2022 | คนอื่น ๆ | แจ้งเตือนสำหรับการเรียนรู้อย่างต่อเนื่อง |
| Promption Vision Transformer สำหรับการวางนัยทั่วไปของโดเมน | arxiv | 2022 | คนอื่น ๆ | พร้อมท์สำหรับการวางนัยทั่วไปของโดเมน |
| การทำความเข้าใจกับความทนทานของความทนทานต่อการถ่ายภาพสำหรับโมเดลขนาดใหญ่ | LCLR | 2022 | คนอื่น ๆ | การปรับจูนด้วยสายตาภายใต้การโจมตีของฝ่ายตรงข้าม |
| การแจ้งเตือนด้วยสายตาเพื่อความทนทานของฝ่ายตรงข้าม | icassp | 2023 | คนอื่น ๆ | การแจ้งเตือนด้วยสายตาเพื่อปรับปรุงความทนทานของฝ่ายตรงข้าม |
| การสำรวจช่องโหว่สากลของกระบวนทัศน์การเรียนรู้ที่รวดเร็ว | naacl | 2022 | คนอื่น ๆ | การมองเห็นช่องโหว่ |
| การเรียนรู้พิษและการเรียนรู้ที่แตกต่างกัน | ICLR | 2022 | - | แบ็คดอร์และการโจมตีพิษบนคลิป |
| Badencoder: การโจมตีแบ็คดอร์เพื่อเข้ารหัสที่ผ่านการฝึกอบรมมาล่วงหน้าในการเรียนรู้ที่ดูแลตนเอง | IEEE | 2022 | คนอื่น ๆ | การโจมตีแบ็คดอร์บนคลิป |
| Cleanclip: บรรเทาการโจมตีพิษข้อมูลในการเรียนรู้แบบหลายรูปแบบ | ICLR Workshop | 2023 | - | การป้องกันการโจมตีหลังคลิป |
| โมเดล Debiasing Vision Language ผ่านการแจ้งเตือนแบบลำเอียง | arxiv | 2023 | คนอื่น ๆ | แจ้งให้บรรเทาอคติ |
| ชื่อ | สถานที่จัดงาน | ปี | รหัสถ้ามี | การแสดงความคิดเห็น |
|---|---|---|---|---|
| แบบจำลองการแพร่กระจาย Gans ในการสังเคราะห์ภาพ | เครื่องประสาท | 2021 | คนอื่น ๆ | แบบจำลองการแพร่กระจายในการสร้างภาพ |
| แบบจำลองการแพร่กระจาย Gans ในการสังเคราะห์ภาพ | เครื่องประสาท | 2021 | คนอื่น ๆ | แบบจำลองการแพร่กระจายในการสร้างภาพ |
| แบบจำลองความน่าจะเป็นแบบกระจาย denoising | เครื่องประสาท | 2020 | คนอื่น ๆ | แบบจำลองการแพร่กระจายในการสร้างภาพ |
| SUS-X: การถ่ายโอนโมเดลวิสัยทัศน์แบบไม่มีชื่อเท่านั้น | ICCV | 2023 | คนอื่น ๆ | แบบจำลองการแพร่กระจายในการสร้างภาพ |
| การตรวจสอบวิศวกรรมที่รวดเร็วในรูปแบบการแพร่กระจาย | Neurips Workshop | 2022 | - | การออกแบบพรอมต์แบบความหมาย |
| Diffumask: การสังเคราะห์ภาพด้วยคำอธิบายประกอบระดับพิกเซลสำหรับการแบ่งส่วนความหมายโดยใช้แบบจำลองการแพร่กระจาย | IEEE/CVF | 2023 | คนอื่น ๆ | กระจายรุ่นด้วยพรอมต์; พร้อมท์สำหรับการสร้างข้อมูลสังเคราะห์ |
| ข้อมูลสังเคราะห์จากรุ่น Generative พร้อมสำหรับการจดจำภาพหรือไม่? | ICLR | 2023 | คนอื่น ๆ | กระจายรุ่นด้วยพรอมต์ |
| ภาพมีค่าเดียว: การปรับเปลี่ยนการสร้างข้อความเป็นภาพโดยใช้การผกผันของข้อความ | ICLR | 2023 | คนอื่น ๆ | การควบคุมผลการสังเคราะห์ที่ซับซ้อนผ่านพรอมต์ |
| Dreambooth: การปรับแต่งแบบจำลองการกระจายข้อความไปยังภาพสำหรับรุ่นที่ขับเคลื่อนด้วยหัวเรื่อง | CVPR | 2023 | คนอื่น ๆ | การควบคุมผลการสังเคราะห์ที่ซับซ้อนผ่านพรอมต์ |
| การปรับแต่งหลายแนวคิดของการแพร่กระจายข้อความกับภาพ | CVPR | 2023 | คนอื่น ๆ | การควบคุมผลการสังเคราะห์ที่ซับซ้อนผ่านพรอมต์ |
| การแก้ไขภาพที่รวดเร็วในการประกาศด้วยการควบคุมความสนใจข้าม | ICLR | 2023 | - | การควบคุมผลการสังเคราะห์ที่ซับซ้อนผ่านพรอมต์ |
| คำแนะนำการแพร่กระจายที่มีโครงสร้างฟรีสำหรับการสังเคราะห์ข้อความกับภาพรวม | ICLR | 2023 | คนอื่น ๆ | การสร้างข้อความสู่ภาพที่ควบคุมได้ |
| การแพร่กระจายด้วยตนเองสำหรับการสร้างภาพที่ควบคุมได้ | เครื่องประสาท | 2023 | หน้าหนังสือ | การสร้างข้อความสู่ภาพที่ควบคุมได้ |
| Imagic: การแก้ไขภาพจริงตามข้อความด้วยโมเดลการแพร่กระจาย | CVPR | 2023 | คนอื่น ๆ | การสร้างข้อความสู่ภาพที่ควบคุมได้ |
| การเพิ่มการควบคุมแบบมีเงื่อนไขให้กับโมเดลการแพร่กระจายข้อความไปยังภาพ | IEEE/CVF | 2023 | คนอื่น ๆ | การสร้างข้อความสู่ภาพที่ควบคุมได้ |
| การแก้ไขภาพที่รวดเร็วในการประกาศด้วยการควบคุมความสนใจข้าม | ICLR | 2023 | คนอื่น ๆ | การควบคุมผลการสังเคราะห์ที่ซับซ้อนผ่านพรอมต์ |
| ImaginaryNet: การเรียนรู้การตรวจจับวัตถุโดยไม่มีภาพและคำอธิบายประกอบจริง | ICLR | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อมูลสังเคราะห์ |
| ข้อมูลสังเคราะห์จากรุ่น Generative พร้อมสำหรับการจดจำภาพหรือไม่? | ICLR | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อมูลสังเคราะห์ |
| Make-a-video: การสร้างข้อความถึงวิดีโอโดยไม่มีข้อมูลวิดีโอข้อความ | ICLR | 2023 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึงวิดีโอ |
| Imagen Video: การสร้างวิดีโอความละเอียดสูงพร้อมโมเดลการแพร่กระจาย | arxiv | 2022 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึงวิดีโอ |
| Fatezero: การหลอมรวมความสนใจสำหรับการแก้ไขวิดีโอที่ใช้ข้อความเป็นศูนย์-ช็อต | ICCV | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อความถึงวิดีโอ |
| TUNE-A-VIDEO: การปรับแต่งแบบจำลองการแพร่กระจายของรูปภาพสำหรับการสร้างข้อความถึงวิดีโอ | ICCV | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อความถึงวิดีโอ |
| DIFFFF: การแพร่กระจายของฟิลด์ 3D Rendiance | CVPR | 2023 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึง 3D |
| Dreamfusion: Text-to-3d โดยใช้การแพร่กระจาย 2D | ICLR Top 5% ที่โดดเด่น | 2023 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึง 3D |
| Dream3D: การสังเคราะห์แบบ zero-shot-shot-to-3d โดยใช้รูปแบบการแพร่กระจายแบบ 3 มิติก่อนหน้า | CVPR | 2023 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึง 3D |
| MotionDiffuse: การสร้างการเคลื่อนไหวของมนุษย์ที่ขับเคลื่อนด้วยข้อความด้วยแบบจำลองการแพร่กระจาย | IEEE | 2024 | หน้าหนังสือ | พร้อมท์สำหรับการสร้างข้อความถึงการเคลื่อนไหว |
| Flame: การสังเคราะห์การเคลื่อนไหวตามภาษาแบบฟรีฟอร์มและการแก้ไข | ไจ่ | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อความถึงการเคลื่อนไหว |
| MDM: โมเดลการแพร่กระจายของมนุษย์ | ICLR | 2023 | คนอื่น ๆ | พร้อมท์สำหรับการสร้างข้อความถึงการเคลื่อนไหว |
| การสร้างหนังสือนิทานที่สอดคล้องกันเป็นศูนย์จากเรื่องราวข้อความธรรมดาโดยใช้โมเดลการแพร่กระจาย | arxiv | 2023 | - | พร้อมรับงานที่ซับซ้อน |
| การวางแผนขั้นตอนหลายรูปแบบผ่านการแจ้งเตือนภาพสองภาพ | ICLR | 2024 | คนอื่น ๆ | พร้อมรับงานที่ซับซ้อน |
| การขโมยการโจมตีด้วยการสร้างแบบจำลองการสร้างข้อความเป็นภาพ | การประชุมวิชาการรักษาความปลอดภัยของ USENIX | 2023 | - | แจ้งให้ AI รับผิดชอบ |
| การอนุมานการเป็นสมาชิกโจมตีโมเดลการสร้างข้อความเป็นภาพ | ICLR | 2023 | - | การโจมตีสมาชิกกับโมเดลข้อความเป็นภาพ |
| รูปแบบการแพร่กระจายที่เสี่ยงต่อการโจมตีการอนุมานการเป็นสมาชิกหรือไม่? | ICML | 2023 | คนอื่น ๆ | การโจมตีสมาชิกกับโมเดลข้อความเป็นภาพ |
| การสกัดภาพการฝึกอบรมที่ทำซ้ำได้จากแบบจำลองการแพร่กระจาย | arxiv | 2023 | คนอื่น ๆ | การโจมตีสมาชิกกับโมเดลข้อความเป็นภาพ |
| การแพร่กระจายอย่างยุติธรรม: การสอนแบบจำลองการสร้างข้อความเป็นภาพในความเป็นธรรม | arxiv | 2023 | คนอื่น ๆ | แจ้งให้โมเดลข้อความเป็นภาพโดยพิจารณาจากความยุติธรรม |
| อคติทางสังคมผ่านเลนส์สร้างข้อความเป็นภาพ | AAAI/ACM | 2023 | - | แจ้งให้โมเดลข้อความเป็นภาพโดยพิจารณาอคติ |
| T2iat: การวัดความจุและอคติโปรเฟสเซอร์ในการสร้างข้อความเป็นภาพ | ACL | 2023 | - | แจ้งให้โมเดลข้อความเป็นภาพโดยพิจารณาอคติ |
| อคติที่เสถียร: การวิเคราะห์การเป็นตัวแทนทางสังคมในแบบจำลองการแพร่กระจาย | เครื่องประสาท | 2023 | - | แจ้งให้โมเดลข้อความเป็นภาพโดยพิจารณาอคติ |
| การศึกษานำร่องของการโจมตีที่ไม่ได้รับการสอบถามจากการแพร่กระจายที่มั่นคง | CVPR | 2023 | - | ความทนทานของความเป็นปฏิปักษ์ของโมเดลข้อความเป็นภาพ |
| แบบจำลองการแพร่กระจายสำหรับการโจมตีที่ไม่สามารถถ่ายโอนได้และสามารถถ่ายโอนได้ | ICLR | 2024 | คนอื่น ๆ | ความทนทานของความเป็นปฏิปักษ์ของโมเดลข้อความเป็นภาพ |
| แบบจำลองการแพร่กระจายสำหรับการทำให้บริสุทธิ์ | ICML | 2022 | คนอื่น ๆ | ความทนทานของความเป็นปฏิปักษ์ของโมเดลข้อความเป็นภาพ |
| Rickrolling The Artist: การฉีดแบ็คดอร์ลงในตัวเข้ารหัสข้อความสำหรับการสังเคราะห์ข้อความกับภาพ | ICCV | 2023 | - | การโจมตีแบบแบ็คดอร์ในรูปแบบข้อความเป็นภาพ |
| แบบจำลองการแพร่กระจายข้อความเป็นภาพสามารถย้อนกลับได้อย่างง่ายดายผ่านการเป็นพิษข้อมูลหลายรูปแบบ | ACM MM | 2023 | - | การโจมตีแบบแบ็คดอร์ในรูปแบบข้อความเป็นภาพ |
| การทำให้เป็นส่วนตัวเป็นทางลัดสำหรับการโจมตีแบ็คดอร์ไม่กี่ครั้งกับโมเดลการแพร่กระจายแบบข้อความไปยังภาพ | ไจ่ | 2024 | - | การโจมตีแบบแบ็คดอร์ในรูปแบบข้อความเป็นภาพ |
กรุณาติดต่อเรา ([email protected], [email protected]) ถ้า