تنزيل AntGPT - تنزيل رمز المصدر AntGPT

AntGPT

كود الذكاء الاصطناعي

1.0.0

تنزيل

ANTGPT: هل يمكن أن تساعد نماذج اللغة الكبيرة في ترقب العمل على المدى الطويل من مقاطع الفيديو؟

ICLR2024

[موقع ويب] [Arxiv] [PDF]

هل يمكن أن نتوقع بشكل أفضل الإجراءات المستقبلية للممثل (مثل بيض خلط) من خلال معرفة ما يحدث عادة بعد عمله الحالي (مثل بيض الكراك)؟ ماذا لو عرفنا أيضًا الهدف الأطول الأجل للممثل (على سبيل المثال صنع الأرز المقلي للبيض)؟ نحن نفترض أن نماذج اللغة الكبيرة (LLMS) ، التي تم تجميعها على بيانات نص الإجراء (مثل الوصفات ، How-TOS) ، لديها القدرة على مساعدة LTA من كلا المنظورين. يمكن أن يساعد في توفير المعرفة السابقة للإجراءات التالية المحتملة ، واستنتاج الهدف بالنظر إلى الجزء الملحوظ من الإجراء ، على التوالي.

ANTGPT هو الإطار المقترح في ورقتنا للاستفادة من LLMs في ترقب العمل على المدى الطويل القائم على الفيديو. يحقق ANTGPT أداءً على أحدث طراز على معايير EGO4D LTA V1 و V2 ، Epic-Kitchens-55 ، وكذلك Egtea Gea+ بحلول وقت النشر.

محتويات

بيئة الإعداد
إعداد البيانات
- مجموعات البيانات
- سمات
- بنية مجلد البيانات
تشغيل التجارب
- تنزيل المخرجات ونقاط التفتيش
- تقييم على EGO4D LTA
- الاستدلال على EGO4D LTA
- تجارب المحولات
- تجارب GPT
- تجارب Llama2
ورقتنا
رخصة

بيئة الإعداد

استنساخ هذا المستودع.

git clone [email protected]:brown-palm/AntGPT.git
cd AntGPT

إعداد بيثون (3.9) البيئة الافتراضية. تثبيت Pytorch مع إصدار CUDA الأيمن.

python3 -m venv venv/forecasting
source venv/forecasting/bin/activate
pip install torch==2.0.0+cu117 torchvision==0.15.1+cu117 torchaudio==2.0.1 --extra-index-url https://download.pytorch.org/whl/cu117

تثبيت مقطع.

pip install git+https://github.com/openai/CLIP.git

تثبيت حزم أخرى.

pip install -r requirements.txt

قم بتثبيت حزم Llama-Recipe باتباع التعليمات هنا.

إعداد البيانات

في تجاربنا ، استخدمنا بيانات من EGO4D و Epic-Kitchens-55 و Egtea Gea+. بالنسبة إلى Epic-Kitchens-55 و Egtea Gaze+، استخدمنا أيضًا شرح البيانات وتقسيم الأنا. أولاً ، ابدأ مجلد بيانات في دليل الجذر.

mkdir data

مجموعات البيانات

قم بتنزيل مجموعة بيانات EGO4D والتعليقات التوضيحية والنماذج المسبقة من هنا.
قم بتنزيل Epic-Kitchens 55 مجموعة بيانات وشروحات.
قم بتنزيل Egtea Gea+ Dataset من هنا.
قم بتنزيل تعليقات البيانات من EGO-TOPO. يرجى الرجوع إلى تعليماتهم.

الملفات المعالجة مسبقا

يمكنك العثور على ملفنا المعالجة مسبقًا بما في ذلك مطالبات النص وميزات الأهداف وما إلى ذلك.
تم تنزيله وفصل كلا المجلدين.
ضع goal_features ضمن مجلد data .
ضع مجلد dataset تحت مجلد Llama2_models .
قم بعمل Symlink في المجلد الفرعي ICL لمجلد Llama2_models .

ln -s {path_to_dataset} AntGPT/Llama2_models/ICL

سمات

استخدمنا مقطع لاستخراج الميزات من مجموعات البيانات هذه. يمكنك استخدام ملف استخراج الميزات ضمن Transformer_Models لاستخراج الميزات.

python -m transformer_models.generate_clip_img_embedding

بنية مجلد البيانات

لدينا بنية مجلد بيانات كما هو موضح أدناه. لا تتردد في استخدام الإعداد الخاص بك وتذكر لضبط تكوينات المسار وفقًا لذلك.

 data
├── ego4d 
│   └── annotations
|   │   ├── fho_lta_taxonomy.json
|   │   ├── fho_test_unannotated.json
│   │   ├── ...
│   │
│   └── clips
│       ├── 0a7a74bf-1564-41dc-a516-f5f1fa7f75d1.mp4
│       ├── 0a975e6e-4b13-426d-be5f-0ef99b123358.mp4
│       ├── ...
│
├── ek 
│   └── annotations
|   │   ├── EPIC_many_shot_verbs.csv
│   │   ├── ...
│   │
│   └── clips
│       ├── rgb
│       ├── obj
│       └── flow
│
├── gaze 
│   └── annotations
|   │   ├── action_list_t+v.csv
│   │   ├── ...
│   │
│   └── clips
│       ├── OP01-R01-PastaSalad.mp4
│       ├── ...
│
├── goal_features
│    ├── ego4d_feature_gt_val.pkl 
│    ├── ...
│
├── output_CLIP_img_embedding_ego4d
│
...

تشغيل التجارب

تتكون قاعدة كودنا من ثلاثة أجزاء: تجارب المحول ، وتجارب GPT ، وتجارب LLAMA2. يوجد تنفيذ كل وحدات في مجلد transformer_models ، GPT_models ، ومجلد Llama2_models على التوالي.

تنزيل المخرجات ونقاط التفتيش

يمكنك العثور على نقاط التفتيش النموذجية لدينا وملفات الإخراج لـ EGO4D LTA هنا.
فك كلا المجلدات.
ضع مجلد ckpt تحت المجلد الفرعي llama_recipe لمجلد Llama2_models .
ضع مجلد ego4d_outputs تحت المجلد llama_recipe لمجلد Llama2_models .

تقييم على EGO4D LTA

إرسال ملفات الإخراج إلى المتصدرين.

الاستدلال على EGO4D LTA

 cd Llama2_models/Finetune/llama-recipes

CUDA_VISIBLE_DEVICES=0 python inference/inference_lta.py --model_name {your llama checkpoint path} --peft_model {pretrained model path} --prompt_file ../dataset/test_nseg8_recog_egovlp.jsonl --response_path {output file path}

تجارب المحولات

لتشغيل تجربة على نماذج المحولات ، يرجى استخدام الأمر التالي

python -m transformer_models.run --cfg transformer_models/configs/ego4d_image_pred_in8.yaml --exp_name ego4d_lta/clip_feature_in8

تجارب GPT

لتشغيل تجربة GPT ، يرجى استخدام أحد أجهزة الكمبيوتر المحمولة لتوضيح سير العمل.

تجارب Llama2

لتشغيل تجربة llama2 ، يرجى الرجوع إلى التعليمات الواردة في هذا المجلد.

ورقتنا

ورقةنا متوفرة على Arxiv. إذا وجدت عملنا مفيدًا ، فيرجى التفكير في الاستشهاد بنا.

 @article { zhao2023antgpt ,
  title   = { AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? } ,
  author  = { Qi Zhao and Shijie Wang and Ce Zhang and Changcheng Fu and Minh Quan Do and Nakul Agarwal and Kwonjoon Lee and Chen Sun } ,
  journal = { ICLR } ,
  year    = { 2024 }
}