
Drivem: conduite avec G Raph V isuelle Q uestion A Nwering
Autonomous Driving Challenge 2024 CONDEFFICATION DU LANGUAGE DU LANGUAGE .
Nous instancions des ensembles de données ( dota drivelm ) construits sur nuscenes et carla, et proposons une approche de base basée sur VLM ( DrivelM-Agent ) pour le graphique exécutant conjointement VQA et la conduite de bout en bout.
? Drivelm sert de piste principale au CVPR 2024 Autonomous Driving Challenge . Tout ce dont vous avez besoin pour le défi est ici, y compris la ligne de base, les données de test et le format de soumission et le pipeline d'évaluation!

[2025/01/08] Drive-Bench Release! Analyse approfondie dans ce qui est réellement réalisé. Jetez un œil à Arxiv.[2024/07/16] Drivem Official Leadboard Reouvre![2024/07/01] Drivem a été accepté à ECCV 2024! Félicitations à l'équipe![2024/06/01] Le défi a fini! Voir le classement final.[2024/03/25] Le serveur de test de défi est en ligne et les questions de test sont publiées. Chekc it![2024/02/29] Déterminez la libération de repo. Format de référence, données et soumission, pipeline d'évaluation. Jetez un œil![2023/08/25] Demo DrivelM-Nuscenes libéré.[2023/12/22] Drivelm-Nuscenes Full v1.0 et papier publié. Pour commencer avec Drivelm:
(retour en haut)
- L'avènement des modèles multimodaux de style GPT dans les applications du monde réel motive l'étude du rôle du langage dans la conduite.
- La date ci-dessous reflète la date de soumission ARXIV.
- S'il manque du travail, veuillez nous contacter!

Drivem tente de relever certains des défis auxquels la communauté est confrontée.
(retour en haut)
(retour en haut)
Nous facilitons la Perception, Prediction, Planning, Behavior, Motion avec la logique de raisonnement écrite par l'homme comme un lien entre eux. Nous proposons la tâche de GVQA sur les données Drivelm.
Drivelm-Data est le premier ensemble de données de conduite de langue facilitant la pile complète des tâches de conduite avec des dépendances logiques structurées graphiques.

Liens vers des détails sur la tâche GVQA, les fonctionnalités de l'ensemble de données et l'annotation.
(retour en haut)
Tous les actifs et le code de ce référentiel sont sous la licence Apache 2.0, sauf indication contraire. Les données linguistiques sont sous CC BY-NC-SA 4.0. D'autres ensembles de données (y compris nuscenes) héritent de leurs propres licences de distribution. Veuillez envisager de citer notre article et notre projet s'ils aident vos recherches.
@article { sima2023drivelm ,
title = { DriveLM: Driving with Graph Visual Question Answering } ,
author = { Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Luo, Ping and Geiger, Andreas and Li, Hongyang } ,
journal = { arXiv preprint arXiv:2312.14150 } ,
year = { 2023 }
} @misc { contributors2023drivelmrepo ,
title = { DriveLM: Driving with Graph Visual Question Answering } ,
author = { DriveLM contributors } ,
howpublished = { url{https://github.com/OpenDriveLab/DriveLM} } ,
year = { 2023 }
}(retour en haut)
Opendrivelab
Groupe de vision autonome
(retour en haut)