ChatGPT, Claude 및 Gemini와 같은 LLM(대형 언어 모델)은 강력하지만 공통적인 주요 결함도 있습니다. 즉, 종종 환각, 즉 허구의 정보를 생성한다는 것입니다. 이는 당혹스러울 뿐만 아니라 LLM의 폭넓은 적용을 방해하기도 합니다. Apple조차도 자체 AI 시스템이 이 문제에 어떻게 대응할지에 대해 우려를 표명했습니다. 이러한 문제를 해결하기 위해 연구진은 AI가 생성한 허위 콘텐츠를 효과적으로 식별할 수 있는 새로운 AI 환각 탐지기를 개발해 AI 기술 발전과 보다 안전하고 안정적인 애플리케이션 기반을 마련했다.

이러한 환상은 많은 당황스럽고 흥미로운 실수로 이어지며 ChatGPT와 같은 인공 지능이 아직 더 실용화되지 못하는 주요 이유 중 하나입니다. 우리는 AI가 사람들에게 돌을 먹어도 안전하고 피자에 접착제를 발라도 안전하다고 말하기 시작했기 때문에 Google이 AI 검색 개요를 수정해야 하는 것을 본 적이 있습니다. ChatGPT를 사용하여 법원 문서를 작성하는 데 도움을 준 변호사도 있었지만 챗봇이 문서에서 인용을 구성했다는 이유로 벌금을 물었습니다.
논문에 따르면, 연구원들이 개발한 새로운 알고리즘은 AI가 생성한 답변이 약 79%의 시간 동안 정확한지 여부를 식별하는 데 도움이 될 수 있습니다. 물론 이는 완벽한 기록은 아니지만, 현재 주류를 이루고 있는 다른 방식들에 비해 10% 정도 더 나은 기록이다.
Gemini 및 ChatGPT와 같은 챗봇은 유용할 수 있지만 가상의 답변을 쉽게 생성할 수도 있습니다. 이 연구는 옥스퍼드대학교 컴퓨터공학과 교수진이 수행했습니다. 연구자들은 논문에서 그들이 사용한 방법이 비교적 간단하다고 설명했습니다.
먼저 그들은 챗봇에게 동일한 프롬프트에 여러 번, 일반적으로 5~10번 응답하도록 요청했습니다. 그런 다음 의미론적 엔트로피(semantic entropy)라고 부르는 값을 계산했는데, 이는 답변의 의미가 얼마나 유사하거나 다른지를 측정하는 것입니다. 모델이 각 프롬프트 항목에 다르게 대답하면 의미론적 엔트로피 점수가 높아져 AI가 대답을 구성하고 있을 수 있음을 나타냅니다. 그러나 답변이 모두 동일하거나 유사한 의미를 갖는 경우 의미론적 엔트로피 점수는 낮아집니다. 이는 답변이 제공하는 답변이 더 일관되고 사실일 가능성이 있음을 나타냅니다. 이는 100% 정확한 AI 환각 탐지기는 아니지만 흥미로운 접근 방식입니다.
다른 방법은 소위 순진한 엔트로피(naive entropy)에 의존하는데, 이는 일반적으로 답변의 의미보다는 문구가 다른지 여부를 확인합니다. 따라서 문장 내 단어 뒤에 숨은 의미에 초점을 맞추지 않기 때문에 의미 엔트로피를 계산하는 것만큼 정확하게 환각을 감지할 가능성이 낮습니다.
연구원들은 이 알고리즘이 프롬프트에 대한 답변에 대한 "확실성 점수"를 사용자에게 제공하는 버튼을 통해 ChatGPT와 같은 챗봇에 추가될 수 있다고 말합니다. AI 환각 탐지기를 챗봇에 직접 구축하고 싶은 유혹이 있기 때문에 이러한 도구를 다양한 챗봇에 추가하는 것은 이해할 수 있습니다.
의미론적 엔트로피를 기반으로 한 이 AI 환각 탐지기는 완벽하지는 않지만, 79%의 정확도와 기존 방법 대비 10%의 장점으로 AI 환각 문제를 해결하기 위한 새로운 아이디어와 방법을 제공합니다. 이 연구는 의심할 여지없이 AI 기술의 발전을 촉진하고 AI 시스템을 더욱 안정적이고 신뢰할 수 있게 만들 것입니다.