Waymo는 최근 자율 주행 택시 개발을위한 Google의 멀티 모달 대형 언어 모델 (MLLM) 쌍둥이 자리를 기반으로 새로운 교육 모델을 개발하는 주요 획기적인 획기적인 발표를 발표했습니다. Emma (자율 주행을위한 엔드 투 엔드 다중 모드 모델)라는이 새로운 모델은 센서 데이터를 처리하여 자율 주행 차량의 향후 궤적을 생성하여 무인 자동차가 어디로 가야하는지, 장애물을 피하는 방법을 결정하도록 도와줍니다.

Emma 모델은 자율 주행 계획의 리더가 작업에서 MLLMS를 사용하려는 첫 번째 징후 중 하나이며, 이러한 LLM은 현재 챗봇, 이메일 관리자 및 이미지 생성기 및 도로의 완전히 새로운 환경에서 현재 사용을 피할 수 있음을 시사합니다. 응용 프로그램.
Waymo의 연구팀은 Gemini와 같은 MLLMS는 두 가지 이유로 자율 주행 시스템에 대한 흥미로운 솔루션을 제공한다고 말합니다. 챗봇은 "Internets"는 "일반적인"세계에서 기어 다니는 많은 양의 데이터를 제공 한 후에 그보다 더 많은 것을 제공 할 수 있습니다. " 일반적인 운전 기록에 포함 된 내용의 지식;
Waymo의 Emma 모델은 궤적 예측, 객체 감지 및 로드맵 이해에서 잘 수행되지만 Lidar 또는 Radar에서 3D 센서 입력을 통합 할 수없는 것과 같은 제한 사항이 있으며 한 번에 적은 수의 이미지 프레임 만 처리 할 수 있습니다. MLLM을 사용하여 자율 주행 택시를 훈련시키는 것도 모델이 환각을 경험하거나 간단한 작업을 완료하지 못할 수있는 위험이 있습니다.
. 따라서 Waymo는 이러한 문제를 완화하고 자율 주행 모델 아키텍처의 최신 기술을 더욱 발전시키기위한 추가 연구가 필요하다고 말했다.
Waymo의 획기적인 발전은 자율 주행 기술의 미래 개발 방향을 보여주고 업계에 새로운 희망과 도전을 가져옵니다.