Project Page | Arxiv | Видео
Vikrant Dewangan* 1 , Tushar Choudhary* 1 , Shivam Chandhok* 2 , Shubham Priyadarshan 1 , Anushka Jain 1 , Arun K. Singh 3 , Siddharth Srivastava 4 , Кришна Мурти Джатаваллабхула
1 Международный институт информационных технологий Хайдарабад, 2 Университета Британской Колумбии, 3 Университета Тарту 4 Tensortour Inc 5 MIT-CSAIL
*обозначает равный вклад,
$^ Dagger $ обозначает равные советы
ICRA 2024
Мы вводим Talk2bev, большой интерфейс модели языка (LVLM) для карт вида птичьего полета (BEV), обычно используемых в автономном вождении.
В то время как существующие системы восприятия для сценариев автономного вождения в основном были сосредоточены на предполагаемом (закрытом) наборе категорий объектов и сценариях вождения, Talk2Bev устраняет необходимость в специфической обучении BEV, вместо этого полагаясь на производительные предварительно обученные LVLMS. Это позволяет одной системе удовлетворить различные задачи автономных вождений, охватывающих визуальные и пространственные рассуждения, предсказывая намерения актеров дорожного движения, и принятие решений на основе визуальных сигналов.
Мы широко оцениваем Talk2BEV по большому количеству задач понимания сцен, которые зависят как на способность интерпретировать свободные запросы естественного языка, так и на основе этих запросов в визуальном контексте, встроенном в карту BEV с усилением языка. Чтобы обеспечить дальнейшие исследования в области LVLMS для сценариев автономного вождения, мы разрабатываем и выпускаем Talk2bev-Bench, контрольный показатель, включающий 1000 сценариев BEV, а также более 20 000 вопросов и ответов на землю из набора Nuscenes.
Пожалуйста, загрузите набор данных Nuscenes v1.0 Trainval. Наш набор данных состоит из 2 частей-Talk2bev-Base и Talk2bev-Captions, состоящие из базовых (культур, перспективных изображений, центроидов зоны BEV) и подписей соответственно.
Мы предоставляем 2 ссылки на набор данных Talk2BEV ( Talk2Bev-Mini (только подписи) и Talk2bev-Full ), приведены ниже. Набор данных размещен на Google Drive. Пожалуйста, загрузите набор данных и извлеките файлы в папку data .
| Имя | База | Подписи | Лавка | Связь |
|---|---|---|---|---|
| Talk2bev- Mini | ✓ | ✗ | ✗ | связь |
| Talk2bev- Полный | ✗ | ✗ | ✗ | Тодо |
Если вы хотите генерировать набор данных с нуля, следуйте процессу здесь. Формат для каждой из частей данных описан в формате.
Оценка на Talk2BEV происходит с помощью 2 методов - MCQ (от Talk2Bev -Bench) и пространственных операторов. Мы используем GPT-4 для нашей оценки. Пожалуйста, следуйте инструкциям в GPT-4 и инициализируйте ключ и организацию API в вашей ОС ENV.
ORGANIZATION= < your-organization >
API_KEY= < your-api-key >Чтобы получить точность для MCQS, запустите следующую команду:
cd evaluation
python eval_mcq.pyЭто даст точность для MCQ.
Чтобы получить ошибку расстояния, я для MCQS, пожалуйста, запустите следующую команду:
cd evaluation
python eval_spops.pyМы также разрешаем разговор в свободной форме с BEV. Пожалуйста, следуйте инструкциям в Click2chat, чтобы пообщаться с BEV.
Чтобы быть выпущенным