인공지능(AI)은 미래에는 어떤 모습일까? 간단한 명령만으로 복잡한 작업을 이해하고 수행할 수 있으며, 사용자의 표정과 움직임을 시각적으로 포착하여 감정 상태를 판단할 수도 있습니다. 이는 더 이상 헐리우드 공상과학 영화 속 한 장면이 아닌, 점차 현실로 다가오고 있는 '멀티모달 AI'다.
최근 미국 "Forbes" 웹사이트의 보고서에 따르면 Metaverse Platform Company, OpenAI, Google과 같은 거대 기업들은 모두 자체적인 다중 모드 AI 시스템을 출시했으며 이러한 시스템의 연구 개발에 대한 투자를 늘리고 노력을 아끼지 않고 있습니다. 다양한 모델을 개선하여 동적 콘텐츠 출력의 정확성을 향상시켜 AI와 사용자 간의 상호 작용 경험을 향상시킵니다.
멀티모달 AI는 패러다임의 변화를 의미합니다. 이는 많은 산업의 모습을 근본적으로 변화시키고 디지털 세계를 재편할 것입니다.
AI에 "다중 감각" 기능 제공
인간은 세상을 어떻게 이해하는가? 우리는 수많은 소스로부터 정보를 얻기 위해 시각, 청각, 촉각 등 다양한 감각에 의존합니다. 인간의 두뇌는 이러한 복잡한 데이터 패턴을 통합하여 현실의 생생한 "그림"을 그립니다.
IBM 공식 웹사이트에서는 멀티모달 AI를 다음과 같이 정의합니다. 텍스트, 이미지, 오디오, 비디오 등의 형태로 입력된 내용을 포함하여 다양한 양식(데이터 유형)의 기계 학습 모델을 통합하고 처리할 수 있습니다. 이는 AI가 여러 각도에서 입력 정보를 인식하고 이해할 수 있도록 전체적인 감각 세트를 제공하는 것과 같습니다.
다양한 양식에 걸쳐 정보를 이해하고 생성하는 이러한 능력은 특정 데이터 소스를 통합하고 처리하는 데 중점을 둔 이전의 단일 모달 AI를 능가했으며 주요 기술 대기업의 선호를 얻었습니다.
올해 모바일 커뮤니케이션 컨퍼런스에서 Qualcomm은 처음으로 Android 휴대폰에 개발한 대형 멀티모달 모델을 배포했습니다. 사용자가 사진이나 음성, 기타 정보를 입력하더라도 AI 비서와 원활하게 소통할 수 있다. 예를 들어, 사용자는 음식 사진을 찍고 AI 비서에게 "이 재료는 무엇입니까?"라고 질문할 수 있습니다. 어떤 요리를 만들 수 있나요? 각 요리에는 몇 칼로리가 있나요? AI 어시스턴트는 사진 정보를 바탕으로 상세한 답변을 줄 수 있다.
올해 5월 OpenAI는 텍스트, 오디오, 이미지 조합의 입력 및 출력을 지원하는 다중 모드 모델 GPT-4o를 출시했습니다. 이후 구글은 다음날 최신 멀티모달 AI 제품인 Gemini 1.5 Pro도 출시했습니다.
9월 25일, 메타버스 플랫폼 컴퍼니는 최신 오픈소스 대형 언어 모델 Llama 3.2를 출시했습니다. 이 회사의 CEO인 마크 주커버그(Mark Zuckerberg)는 기조연설에서 이것이 텍스트와 시각적 데이터를 동시에 처리할 수 있는 회사 최초의 오픈 소스 다중 모드 모델이며, 보다 복잡한 애플리케이션 시나리오를 이해하는 데 있어 AI의 중요한 진전을 의미한다고 말했습니다.
다양한 분야의 변화를 조용히 추진
멀티모달 AI는 조용히 많은 분야의 면모를 바꾸고 있습니다.
헬스케어 분야에서는 IBM의 '왓슨 헬스(Watson Health)'가 환자의 영상 데이터, 의료 기록 텍스트, 유전자 데이터를 종합적으로 분석해 의사가 질병을 보다 정확하게 진단할 수 있도록 돕고 있으며, 의사가 환자를 위한 맞춤형 치료 계획을 세울 수 있도록 강력하게 지원하고 있다.
창조산업도 변화를 겪고 있습니다. 디지털 마케팅 전문가와 영화 제작자는 이 기술을 활용하여 맞춤형 콘텐츠를 제작하고 있습니다. 간단한 프롬프트나 컨셉만으로 AI 시스템이 매력적인 스크립트를 작성하고, 스토리보드(시각적 스토리를 형성하기 위해 함께 배열된 일련의 일러스트레이션)를 생성하고, 사운드트랙을 만들고, 심지어 예비 장면 컷도 제작할 수 있다고 상상해 보십시오.
교육훈련 분야도 멀티모달 AI의 도움을 받아 개인화된 학습으로 나아가고 있습니다. 미국 뉴튼컴퍼니(Newton Company)가 개발한 적응형 학습 플랫폼은 멀티모달 AI를 활용해 학생들의 학습 행동, 표정, 목소리를 심층 분석하고, 교수 내용과 난이도를 실시간으로 조정할 수 있다. 실험 데이터에 따르면 이 방법은 학생들의 학습 효율성을 40% 향상시킬 수 있습니다.
고객 서비스는 다중 모드 AI 시스템의 흥미로운 응용 프로그램 중 하나이기도 합니다. 챗봇은 텍스트 쿼리에 응답할 수 있을 뿐만 아니라 고객의 음성 톤을 이해하고 얼굴 표정을 분석하며 적절한 언어 및 시각적 신호로 응답할 수 있습니다. 더욱 인간과 유사한 이러한 커뮤니케이션은 기업이 고객과 상호 작용하는 방식에 혁명을 가져올 것을 약속합니다.
기술 윤리 문제는 여전히 극복되어야 합니다.
그러나 다중 모드 AI의 개발에는 많은 어려움이 따릅니다.
AI 컨설팅 회사 Hidden Space의 창업자인 Henry Idel은 멀티모달 AI의 힘은 여러 데이터 유형을 통합하는 능력에 있다고 말했습니다. 그러나 이러한 데이터를 어떻게 효과적으로 통합할 것인가는 여전히 기술적인 문제입니다.
또한 다중 모드 AI 모델은 작동 중에 많은 양의 컴퓨팅 리소스를 소비하는 경우가 많으며, 이는 의심할 여지 없이 애플리케이션 비용을 증가시킵니다.
특히 다중 모드 데이터에는 더 많은 개인 정보가 포함되어 있습니다. 다중 모드 AI 시스템이 얼굴, 음성, 심지어 감정 상태까지 쉽게 식별할 수 있을 때 개인 정보를 어떻게 존중하고 보호할 수 있을까요? 그리고 이러한 정보가 "딥페이크" 또는 기타 오해의 소지가 있는 콘텐츠를 만드는 데 사용되는 것을 방지하기 위해 어떻게 효과적인 조치를 취할 수 있습니까? 이것들은 모두 숙고해 볼 가치가 있는 질문들이다.