인공 지능 분야에서 시각적 추론은 항상 매우 어려운 주제였습니다. Groundlight Research 팀은 최근 새로운 AI 프레임 워크의 오픈 소스를 발표했으며, 이는 비전 분야에서 AI의 성능을 완전히 바꿀 것으로 예상됩니다. 이 프레임 워크를 사용하면 AI가 이미지에서 객체를 인식 할 수있을뿐만 아니라 형사와 같은 이미지에서 더 깊은 정보를 유추 할 수 있습니다.
현재 AI는 이미지 인식에서 상당한 진전을 보였지만 이미지의 논리적 관계를 이해하는 데 여전히 명백한 결점이 있습니다. Groundlight 연구원들은 심층적 인 해석이 필요한 작업을 다룰 때 기존 시각적 언어 모델 (VLMS)이 종종 마음에서 벗어 났다고 지적합니다. 이것은 주로 복잡한 추론을 수행 할뿐만 아니라 이미지 자체를 이해하는 데 여전히 한계가 있기 때문입니다.

텍스트 추론에서 큰 언어 모델 (LLM)의 큰 성공에도 불구하고, 비전 분야의 비슷한 혁신은 여전히 제한적입니다. 기존 VLM은 종종 논리적 공제를 위해 시각적 및 텍스트 큐를 결합해야 할 때 제대로 성능이 좋지 않으며, 이는 기능의 주요 결함을 노출시킵니다. 이미지에서 객체를 식별하고 객체 간의 관계와 컨텍스트 정보를 이해하는 것이 중요합니다.
VLM의 시각적 추론 능력을 향상시키기 위해 Groundlight의 연구팀은 강화 학습 방법을 혁신적으로 채택하고 학습 효율성을 향상시키기 위해 GRPO (Gradient Ratio 정책 최적화)를 사용했습니다. 이 방법은 암호화 균열 작업에서 놀라운 결과를 얻었으며 30 억 파라미터 만있는 모델은 96%의 정확도를 달성했습니다. 주의 분석에 따르면이 모델은 작업을 해결할 때 시각적 입력에 적극적으로 참여하고 관련 디코더 영역에 집중할 수 있습니다.
그러나 GRPO로 VLM을 훈련시키는 것은 특히 단어 세분화 및 보상 디자인과 관련하여 매끄러운 항해가 아닙니다. 모델은 종종 텍스트를 단일 문자보다는 어휘로 처리하기 때문에 정확한 문자 수준 추론이 필요한 작업에는 어려울 수 있습니다. 이 문제를 해결하기 위해 연구원들은 디코딩 과정을 단순화하기 위해 메시지 문자 사이에 공간을 추가했습니다.
강화 학습 모델은 효과적으로 학습하기 위해 잘 구조화 된 피드백이 필요하기 때문에 보상 설계는 또 다른 중요한 링크입니다. 연구원들은 세 가지 유형의 보상을 사용했습니다. 출력의 일관성을 보장하기 위해 형식 보상; 멍청한 텍스트의 의미있는 전환을 장려하기 위해 보상을 해독합니다. 정확성을 향상시키기위한 정확성 보상. 이러한 보상의 균형을주의 깊게 균형을 맞추면서 연구원들은 모델이 배운 예상치 못한 "바로 가기"를 성공적으로 피하여 암호화 해독 기능을 진정으로 향상 시켰습니다.
GRPO는 직접 기울기 계산에 의존하지 않고 여러 출력을 비교하여 학습 프로세스를 최적화하여 교육에 더 높은 안정성을 제공합니다. 이 접근법은 각 쿼리에 대한 여러 응답을 생성하고 서로를 평가함으로써 더 부드러운 학습 곡선을 달성합니다. 이 연구는 또한 추론 기반 작업에서 VLM의 잠재력을 강조하지만 복잡한 시각적 모델의 높은 계산 비용을 인정합니다.
효율성 문제를 해결하기 위해 Groundlight 팀은 선택적 모델 업그레이드와 같은 기술을 제안했습니다. 즉, 모호한 상황에서만 더 비싼 모델을 사용합니다. 또한, 사전에 사전 된 물체 감지, 세분화 및 깊이 추정 모델을 통합하여 계산 간접비를 크게 증가시키지 않으면 서 추론을 향상시킵니다. 이 도구 기반 접근법은 대규모 엔드 투 엔드 모델을 훈련시키는 데있어 확장 가능한 대안을 제공하여 효율성과 정확도를 모두 강조합니다.
Groundlight 팀은 강화 학습 기술, 특히 GRPO를 통합하여 VLM을 향상시키는 데 큰 진전을 보였습니다. 그들은 암호를 깨는 작업에서 방법을 테스트했으며 모델은 인상적인 정확도를 보여주었습니다. 이러한 돌파구는 복잡한 시각적 추론 작업에서 VLM의 잠재력을 보여줄뿐만 아니라 향후 AI 연구를위한 새로운 방향을 제공합니다.
프로젝트 : https://github.com/groundlight/r1_vlm
데모 : https : //huggingface.co/spaces/groundlight/grpo-vlm-decoder