
DIVELM: Dirigindo com G Raph v isual q uestion a Nswering
Autonomous Driving Challenge 2024 Driving-With-Language Rabo de classificação.
Instanciamos os conjuntos de dados ( DriveMM-Data ) construídos sobre nuscênios e carla e propomos uma abordagem de linha de base baseada em VLM ( DriveM-Agent ) para executar o gráfico VQA e a direção de ponta a ponta.
? DriveLM serve como uma faixa principal no CVPR 2024 Autonomous Driving Challenge . Tudo o que você precisa para o desafio está aqui, incluindo linha de base, dados de teste e formato de envio e pipeline de avaliação!

[2025/01/08] liberação de travessa de acionamento! Análise aprofundada no que são realmente bobas de benchmarking. Dê uma olhada no Arxiv.[2024/07/16] DriveMm Official Leaderboard Reabrine![2024/07/01] Drives foi aceito no ECCV 2024! Parabéns à equipe![2024/06/01] O desafio acabou! Veja a tabela de classificação final.[2024/03/25] O servidor de teste de desafio está online e as perguntas do teste são lançadas. Chekc It Out![2024/02/29] Desafio Repositório Repo. Formato de linha de base, dados e envio, pipeline de avaliação. Dê uma olhada![2023/08/25] Demoção DriveMm-Nuspenes liberada.[2023/12/22] DriveMm-nuspenes Full v1.0 e papel liberado. Para começar com o DriveMM:
(de volta ao topo)
- O advento dos modelos multimodais no estilo GPT em aplicativos do mundo real motiva o estudo do papel da linguagem na direção.
- A data abaixo reflete a data de envio do ARXIV.
- Se houver algum trabalho ausente, entre em contato conosco!

Drivelm tenta enfrentar alguns dos desafios enfrentados pela comunidade.
(de volta ao topo)
(de volta ao topo)
Facilitamos a Perception, Prediction, Planning, Behavior, Motion com a lógica de raciocínio escrito por humanos como uma conexão entre eles. Propomos a tarefa do GVQA nos dados de DriveMM.
DriveMm-Data é o primeiro conjunto de dados que dirige o idioma que facilita a pilha completa de tarefas de condução com dependências lógicas estruturadas por gráfico.

Links para detalhes sobre a tarefa GVQA, recursos do conjunto de dados e anotação.
(de volta ao topo)
Todos os ativos e código neste repositório estão sob a licença Apache 2.0, a menos que especificado de outra forma. Os dados do idioma estão no CC BY-NC-SA 4.0. Outros conjuntos de dados (incluindo nuscênios) herdam suas próprias licenças de distribuição. Por favor, considere citar nosso artigo e projeto se eles ajudarem sua pesquisa.
@article { sima2023drivelm ,
title = { DriveLM: Driving with Graph Visual Question Answering } ,
author = { Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Luo, Ping and Geiger, Andreas and Li, Hongyang } ,
journal = { arXiv preprint arXiv:2312.14150 } ,
year = { 2023 }
} @misc { contributors2023drivelmrepo ,
title = { DriveLM: Driving with Graph Visual Question Answering } ,
author = { DriveLM contributors } ,
howpublished = { url{https://github.com/OpenDriveLab/DriveLM} } ,
year = { 2023 }
}(de volta ao topo)
OPENDRIVELAB
Grupo de Visão Autônoma
(de volta ao topo)