ICLR2024
[موقع ويب] [Arxiv] [PDF]

هل يمكن أن نتوقع بشكل أفضل الإجراءات المستقبلية للممثل (مثل بيض خلط) من خلال معرفة ما يحدث عادة بعد عمله الحالي (مثل بيض الكراك)؟ ماذا لو عرفنا أيضًا الهدف الأطول الأجل للممثل (على سبيل المثال صنع الأرز المقلي للبيض)؟ نحن نفترض أن نماذج اللغة الكبيرة (LLMS) ، التي تم تجميعها على بيانات نص الإجراء (مثل الوصفات ، How-TOS) ، لديها القدرة على مساعدة LTA من كلا المنظورين. يمكن أن يساعد في توفير المعرفة السابقة للإجراءات التالية المحتملة ، واستنتاج الهدف بالنظر إلى الجزء الملحوظ من الإجراء ، على التوالي.
ANTGPT هو الإطار المقترح في ورقتنا للاستفادة من LLMs في ترقب العمل على المدى الطويل القائم على الفيديو. يحقق ANTGPT أداءً على أحدث طراز على معايير EGO4D LTA V1 و V2 ، Epic-Kitchens-55 ، وكذلك Egtea Gea+ بحلول وقت النشر.
استنساخ هذا المستودع.
git clone [email protected]:brown-palm/AntGPT.git
cd AntGPTإعداد بيثون (3.9) البيئة الافتراضية. تثبيت Pytorch مع إصدار CUDA الأيمن.
python3 -m venv venv/forecasting
source venv/forecasting/bin/activate
pip install torch==2.0.0+cu117 torchvision==0.15.1+cu117 torchaudio==2.0.1 --extra-index-url https://download.pytorch.org/whl/cu117تثبيت مقطع.
pip install git+https://github.com/openai/CLIP.gitتثبيت حزم أخرى.
pip install -r requirements.txt قم بتثبيت حزم Llama-Recipe باتباع التعليمات هنا.
في تجاربنا ، استخدمنا بيانات من EGO4D و Epic-Kitchens-55 و Egtea Gea+. بالنسبة إلى Epic-Kitchens-55 و Egtea Gaze+، استخدمنا أيضًا شرح البيانات وتقسيم الأنا. أولاً ، ابدأ مجلد بيانات في دليل الجذر.
mkdir data قم بتنزيل مجموعة بيانات EGO4D والتعليقات التوضيحية والنماذج المسبقة من هنا.
قم بتنزيل Epic-Kitchens 55 مجموعة بيانات وشروحات.
قم بتنزيل Egtea Gea+ Dataset من هنا.
قم بتنزيل تعليقات البيانات من EGO-TOPO. يرجى الرجوع إلى تعليماتهم.
يمكنك العثور على ملفنا المعالجة مسبقًا بما في ذلك مطالبات النص وميزات الأهداف وما إلى ذلك.
تم تنزيله وفصل كلا المجلدين.
ضع goal_features ضمن مجلد data .
ضع مجلد dataset تحت مجلد Llama2_models .
قم بعمل Symlink في المجلد الفرعي ICL لمجلد Llama2_models .
ln -s {path_to_dataset} AntGPT/Llama2_models/ICLاستخدمنا مقطع لاستخراج الميزات من مجموعات البيانات هذه. يمكنك استخدام ملف استخراج الميزات ضمن Transformer_Models لاستخراج الميزات.
python -m transformer_models.generate_clip_img_embeddingلدينا بنية مجلد بيانات كما هو موضح أدناه. لا تتردد في استخدام الإعداد الخاص بك وتذكر لضبط تكوينات المسار وفقًا لذلك.
data
├── ego4d
│ └── annotations
| │ ├── fho_lta_taxonomy.json
| │ ├── fho_test_unannotated.json
│ │ ├── ...
│ │
│ └── clips
│ ├── 0a7a74bf-1564-41dc-a516-f5f1fa7f75d1.mp4
│ ├── 0a975e6e-4b13-426d-be5f-0ef99b123358.mp4
│ ├── ...
│
├── ek
│ └── annotations
| │ ├── EPIC_many_shot_verbs.csv
│ │ ├── ...
│ │
│ └── clips
│ ├── rgb
│ ├── obj
│ └── flow
│
├── gaze
│ └── annotations
| │ ├── action_list_t+v.csv
│ │ ├── ...
│ │
│ └── clips
│ ├── OP01-R01-PastaSalad.mp4
│ ├── ...
│
├── goal_features
│ ├── ego4d_feature_gt_val.pkl
│ ├── ...
│
├── output_CLIP_img_embedding_ego4d
│
...
تتكون قاعدة كودنا من ثلاثة أجزاء: تجارب المحول ، وتجارب GPT ، وتجارب LLAMA2. يوجد تنفيذ كل وحدات في مجلد transformer_models ، GPT_models ، ومجلد Llama2_models على التوالي.
يمكنك العثور على نقاط التفتيش النموذجية لدينا وملفات الإخراج لـ EGO4D LTA هنا.
فك كلا المجلدات.
ضع مجلد ckpt تحت المجلد الفرعي llama_recipe لمجلد Llama2_models .
ضع مجلد ego4d_outputs تحت المجلد llama_recipe لمجلد Llama2_models .
إرسال ملفات الإخراج إلى المتصدرين.
cd Llama2_models/Finetune/llama-recipesCUDA_VISIBLE_DEVICES=0 python inference/inference_lta.py --model_name {your llama checkpoint path} --peft_model {pretrained model path} --prompt_file ../dataset/test_nseg8_recog_egovlp.jsonl --response_path {output file path}لتشغيل تجربة على نماذج المحولات ، يرجى استخدام الأمر التالي
python -m transformer_models.run --cfg transformer_models/configs/ego4d_image_pred_in8.yaml --exp_name ego4d_lta/clip_feature_in8لتشغيل تجربة GPT ، يرجى استخدام أحد أجهزة الكمبيوتر المحمولة لتوضيح سير العمل.
لتشغيل تجربة llama2 ، يرجى الرجوع إلى التعليمات الواردة في هذا المجلد.
ورقةنا متوفرة على Arxiv. إذا وجدت عملنا مفيدًا ، فيرجى التفكير في الاستشهاد بنا.
@article { zhao2023antgpt ,
title = { AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? } ,
author = { Qi Zhao and Shijie Wang and Ce Zhang and Changcheng Fu and Minh Quan Do and Nakul Agarwal and Kwonjoon Lee and Chen Sun } ,
journal = { ICLR } ,
year = { 2024 }
}يتم إصدار هذا المشروع تحت رخصة معهد ماساتشوستس للتكنولوجيا.