AI 생성 스토리의 평가에 대한 연구는 아직 인간 평가를 위해 심리적으로 검증 된 척도를 채택하지 않았습니다. 기존 측정 값이 의도 한 개념을 정확하게 포착하지 못하거나 결과가 의미가있을 정도로 충분히 안정적으로 포착하지 못할 수 있기 때문에 이는 연구 결과의 유효성과 신뢰성에 심각한 위협이됩니다. AIS (AI STORY SCALE)는 경험적 연구와 최고의 심리적 관행을 이끌어내는 신뢰할 수 있고 유효한 등급 척도를 제공함으로써 이러한 격차를 해결하여 연구원과 실무자가 자신감을 가지고 AI 생성 된 스토리의 품질과 특성을 평가할 수 있도록합니다.
대규모 언어 모델 (LLM)은 굉장합니다! 지난 몇 년 동안이 기술의 빠른 발전은 진정으로 숨막히는 것으로 만 묘사 될 수 있습니다 (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). 글을 쓰는 시간 (2023 년 6 월)에 Chatgpt, GPT-4 및 기타 신흥 모델과 같은 도구는 계속해서 헤드 라인을 만들고 대중의 상상력을 포착합니다 (Eg Bubeck et al., 2023, Lee, Buck & Petro, 2023, Openai, 2023). 이 모델은 놀라운 위업을 가능하게하여 스토리 텔링만큼 복잡하고 다방면의 작업에 대한 인상적인 능력을 보여줍니다 (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
실제로 AI 생성 스토리 텔링은 다양한 산업에서 점점 더 채택되고 있습니다. 엔터테인먼트 산업에서 AI는 대본 작성 및 스토리 텔링에 사용되고 있습니다. 작문 및 저자 부문에서 AI 스토리 생성기는 작가들에게 인기있는 도구가되어 작가의 블록을 극복하고 작품에 영감을 얻을 수있는 혁신적인 방법을 제공하고 있습니다.
그러나 기존의 구현만큼 인상적이기 때문에 생성 된 텍스트에 대한 평가 관행은 결함이있는 것으로 식별되었으며, 연구는 종종 건전한 경험 과학에 대한 기본 요구 사항조차 만족하지 못합니다 (Gehrmann, Clark, & Sellam, 2023). 이것은 긴급한 문제입니다. 특히 신경 생성 모델이 구형 메트릭이 사용하는 표면 수준의 특징을 기반으로 출력이 더 이상 구별 될 수없는 시점까지 개선 되었기 때문에. 인간의 평가와 같이 더 깊이 파고 들려야하는 조치조차 심각한 결점을 겪습니다. 이 중 가장 중요한 것은 일반적으로 대형 언어 모델에 대한 연구에서 간과되는 것입니다.보다 일반적으로 AI는 심리적 검증의 부족입니다.
심리적 검증은 기기가 의미있는 것을 측정하고 정밀하게 그렇게하는 것을 보장하기 위해 필수적입니다. 이러한 검증 부족은이 분야의 연구의 유효성에 대한 시급한 위협입니다. AIS (AIS)가 해결하기를 목표로하는 것은이 문제입니다. AISS는 AI 생성 스토리의 품질과 특성을 측정하기위한 탄탄한 기반을 제공하여 인간 이야기 평가를위한 현재 측정의 단점에 대한 해결책을 제공합니다. AIS는 AI 생성 스토리를 평가하기위한 신뢰할 수 있고 검증 된 도구를 제공함으로써 연구자와 실무자가 다양한 모델과 세대 설정의 기능과 한계를 더 잘 이해하도록 도울 수 있습니다.
나는이 시점에서 많은 독자들이 "지금 무엇을 심리적으로 무엇입니까?"라고 생각하고 있다고 생각합니다. 그것이 당신이라면, 당신은 AI 생성 텍스트를 평가하는 또 다른 방법의 필요성에 대해 회의적 일 수 있습니다. 나는 그것을 얻었다.
그러나 저와 함께 - 이것이 왜 그렇게 중요한지, AI 스토리 척도가 어떻게 분야에서 상당한 차이를 만들 수 있는지 설명하려고 노력할 것입니다.
이 섹션에서는 현재 접근 방식을 통해 생성 모델에 의해 생성 된 스토리를 평가하기 위해 빠르게 실행됩니다. 또한 연구원들이 AI 스토리 척도를 추가하여 평가 지표의 무기고에 이익을 얻을 수 있다고 생각하는 이유를 배치하려고 노력할 것입니다.
자동 평가는 언어 모델의 성능을 평가하기위한 일반적인 접근법입니다. 이러한 평가에는 일반적으로 모델의 출력을 참조 또는 "지상 진실"텍스트와 비교하는 것이 포함됩니다. 다음은 가장 일반적으로 사용되는 자동 평가 측정 항목입니다.
Bleu (Papineni et al., 2002), Rouge (Lin, 2004) 및 Meteor (Banerjee & Lavie, 2005)와 같은 메트릭은 N- 그램의 중첩을 측정하여 생성 된 텍스트를 참조 텍스트와 비교합니다 (주어진 텍스트 샘플에서 N 항목의 포함). 이 메트릭은 원래 기계 번역을 위해 설계되었으며 생성 된 스토리의 금 표준에 대한 적합성을 측정하는 데 유용합니다. 그러나 그들은 주로 표면 수준의 텍스트 기능에 중점을두고 생성 된 스토리의 품질을 완전히 포착하지 못할 수 있습니다.
Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) 및 PIQA (Bisk et al., 2020)와 같은보다 최근의 평가 방법은 더 넓은 맥락과 상식적인 추론 능력을 포착하는 모델의 능력을 테스트하는 것을 목표로합니다. Lambada는 문맥이 주어진 문장에서 최종 단어를 예측할 수있는 모델의 능력을 평가하는 반면 Hellaswag와 PIQA는 상식 예측을 할 수있는 모델의 능력을 테스트합니다. 이러한 방법은 모델의 추론 능력에 대한 흥미로운 통찰력을 제공하지만 생성 된 스토리의 품질을 직접 평가하지는 않습니다.
자동 평가는 빠르고 확장 가능하며 객관적이라는 이점을 제공합니다. 그러나 이러한 평가는 언어 모델 평가에서 귀중한 도구이지만 생성 된 스토리의 품질을 평가할 때 제한이 있습니다. 그들은 종종 언어 생성의 특정 측면에 초점을 맞추고 스토리 텔링에 중요한 풍부함, 창의성 및 이야기 일관성을 완전히 포착하지 못할 수 있습니다. 이것은 인간의 평가와 AI 스토리 규모가 시작되는 곳입니다.
다른 접근법은 인간 판사를 사용하여 이야기를 평가하는 것입니다 (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). 결국, 언어 모델에 의한 스토리 생성의 최종 목표는 사람들이 읽고 즐기는 것을 좋아하는 설득력 있고 매력적인 이야기를 만드는 것입니다. 그렇다면 인간을 우리의 궁극적 인 스토리 품질 척도로 사용하는 것은 당연하지 않습니까?
개인적으로, 나는 AI 생성 된 이야기에 대한 인간의 평가가 심각한 관심을 필요로한다고 생각합니다. 스토리의 '전반적인 품질'을 측정 할뿐만 아니라 다른 모델이 생성 할 가능성이 어떤지 , 어떻게 다른지 이해하는 데 사용될 수 있습니다. 또한 모델의 아키텍처 또는 하이퍼 파라미터를 조정함에 따라 세대에 걸쳐 스토리 품질이 어떻게 변하는 지 탐색하는 데 사용될 수 있습니다.
기존 조치는 인간이 언어 모델에 의해 쓴 이야기를 경험하는 방식을 포착하기위한 중요한 첫 단계를 나타냅니다. 그러나 나는 그들이 더 세련되고 확장 될 수 있다고 생각할 수 있다고 생각합니다. 그러나 우리 자신보다 앞서 나가지 마십시오. 인간 평가를위한 기존 도구를 검토하기 전에 주관적인 스토리 경험을 먼저 측정하는 척도에서 실제로 원하는 것을 설정하겠습니다.
결과적으로 성가신 인간으로부터 무엇이든 측정하는 것은 지저분합니다. 특히 내부 상태와 관련하여. 내부 상태에 의해, 나는 관찰에 의해 직접 접근 할 수없는 인간 경험을 의미합니다. 이것들은 기분, 의견, 태도, 신념 또는 선호도와 같은 이상한 것들입니다. 심리학자들은 이미 그것보다 훨씬 더 복잡하게 들리려면, 심리학자들은 이러한 것들을 '잠재적 구성'(또는 '구조물') 또는 '잠재적 변수'라고 부릅니다. 잠재 변수는 직접적으로 관찰 할 수 없지만 다른 관찰에서 추론해야합니다. 예를 들어, 누군가가 "1에서 5까지의 척도 에서이 이야기는 얼마나 흥미 롭습니까?"와 같은 질문에서 어떤 옵션을 선택 하는가.
우리가 이러한 변수를 측정하는 방식은 간단 할 것이라고 생각할 수도 있습니다. 우리는 이야기가 얼마나 흥미로운 지 알고 싶습니다. 그래서 우리는 단지 그들이 이야기를 발견 한 다음 모든 참가자들의 평균을 발견 한 사람에게 물어 봅니다. 끝났어, 계속하자!
그러나 잠재 변수를 측정하는 것은 고유 한 과제가 있습니다. 내부 상태 측정의 특성에 익숙하지 않은 연구자들은 알지 못할 수도 있습니다. 그러나 자신의 위험으로 이러한 문제를 무시하십시오! 내부 상태의 부주의 한 측정은 매우 편향되고 잠재적으로 의미가없는 결과로 이어질 수 있습니다!
운 좋게도이 문제를 수십 년 동안 연구 한 분야가 있습니다 : Psychometrics. 그것은 잠재 구조를 측정하기위한 다양한 도구와 이러한 측정에서 발생할 수있는 오류의 종류에 대한 풍부한 이론과이를 줄이는 방법에 대한 풍부한 이론을 개발 한 분야입니다 (Furr, 2011; El-Den et al., 2020; Flake & Fried, 2020 참조). 나는 AI 연구원들이 인간 평가를 심각하게 측정하고 심리학에 의해 배운 교훈을 마음에 가져갈 것을 촉구합니다. 이런 식으로 AI 연구는 심리학자와 통계 학자들이 수십 년 동안 노력하여 AI 생성 된 이야기의 질과 같은 인간에게 중요한 것을 측정하는 방법을 개선하기 위해 수십 년의 노력으로 이익을 얻을 수 있습니다.
측정 이론의 통찰력은 잠재적 인 구성을 측정 할 때 잠재적 인 함정을 인식하는 데 도움이 될 수 있습니다. 먼저,“1에서 5까지의 규모로,이 이야기는 얼마나 흥미로운가?
이 프로세스의 문제는 다른 시점에서 발생할 수 있지만 일반적으로 유효성 과 신뢰성의 두 가지 범주 아래에 있습니다.
두 개념 모두 많은 측면이 있으며, 여기에서 이러한 주제에 대한 전체 연구를 다룰 수는 없습니다. 아래에서는 주요 아이디어에 대한 상당히 단순한 요약을 할 것입니다. 보다 자세한 보도는 예를 들어 Drost (2011), Wolming and Wikström (2010) 및 Meyer (2010)를 참조하십시오.
유효한 기기는 실제로 측정하려는 구성을 측정합니다. 잘못된 측정은 의도 된 구성의 측정을 제공하지 않습니다. 유효성 문제는 여러 가지 이유로 발생할 수 있습니다.
예를 들어, 사람들은 이야기를 판단 할 때 단순히 자신의 독립적 인 기준을 '흥미'를 고려하지 않을 수 있습니다. 즉, 이론적으로 그럴듯 해 보였을 수도 있지만, 흥미는 실제 세계에서 구성으로 의미있게 존재하지 않는 것으로 판명 될 수 있습니다. “이 이야기가 얼마나 흥미 롭습니까?”라는 질문에 대한 답변. 대신 다른 요인 (예 : 이야기의 인식 된 창의성)의 혼합으로 예측 될 수 있습니다.
또는 '흥미로운 것'은 실제 세계에서 의미있는 구성 일 수 있지만, 어떤 이유로 든 우리의 질문은 단순히 그것을 포착하고 다른 것을 측정하지 못합니다. 우리는“이 이야기가 못 박는 것이 었습니까?”라고 물어 '흥미로운'측정을 시도했습니다. 질문은 대신 톤과 페이스의 조합을 측정하는 것으로 판명 될 수 있습니다.
의심스러운 타당성을 가진 측정은 연구 결과의 무결성에 심각한 위협입니다 (Flake & Fried, 2020)! 더 나쁜 것은, 이론적 인 프레임 워크가 잘못된 측정의 결과에 따라 구축되면 전체 분야가 길을 잃을 수 있습니다. '흥미로운'이야기를 제작하기 위해 모델을 최적화한다고 상상해보십시오. 모델은 무언가를 위해 최적화 될 것이지만 정확히 매우 잘 이해되지 않을 것입니다.
신뢰할 수있는 측정 값은 정밀하게 측정하는 모든 것을 포착합니다. 동일한 객체에서 반복적으로 사용하면 측정 오류가 거의없이마다 비슷한 결과를 얻을 수 있습니다. 신뢰할 수없는 악기에는 정밀도가 부족하며 문제가 심하면 기본적으로 쓸모가 없을 수 있습니다. 즉, 신뢰성은 측정의 측정 오류 정도를 설명합니다.
우리가 측정에서 얻는 점수가 크게 다르면, 측정해야할지 여부를 측정하는지 여부는 중요하지 않을 수 있습니다. 우리는 단순히 우리가 얻는 결과를 신뢰할 수 없습니다. 다시 말해, 우리는 척도가 유효 하고 신뢰할 수 있기를 원합니다.
© Nevit Dilmen
그렇다면 인간 등급에 대한 우리의 측정 값이 유효하고 신뢰할 수 있는지 어떻게 확인합니까? 대답은 일반적으로 : 실제 데이터로 설문지를 검증하기 위해 심리 기술을 사용함으로써.
이상적으로는 측정의 구성에서 시작하여 체계적이고 엄격한 접근 방식이 취해집니다. Psychometric Research의 통찰력에 따른 모범 사례에 대한 좋은 요약은 예를 들어 Boateng et al. (2018) 및 Hinkin (1998).
프로세스에 대한 매우 간단한 (그리고 지나치게 피상적 인) 개요 :
우리는 이제 스토리 품질에 대한 기존 측정의 잠재적 문제를 논의하기 위해 충분한 근거를 다루었습니다. 요컨대, 나는 방법 론적 결점과 기존 측정과 관련하여 잠재적으로 심각한 문제를 봅니다.
내 인식에 따르면, AI 생성 된 스토리의 인간 평가를위한 도구 중 어느 것도 실제로 의미있는 (테스트 타당성)을 측정하는지 또는 정확성 (테스트 신뢰성)을 측정하는지 여부에 대해 평가되지 않았습니다. 방금 논의했듯이 이것은 이러한 조치의 유용성에 심각한 위협을 나타냅니다.
또한, 각 개념 (예 : '로컬 맥락성'또는 '즐거움'과 같은 현장에서는 단일 항목으로 측정하는 것이 매우 일반적입니다 (예 : Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). 하나의 항목만으로 상당히 추상적 인 잠재 구조물을 측정하는 것은 심각한 심리적 비용으로 오는 것으로 알려져 있습니다 (Furr, 2011) : 단일 항목은 매우 부정확하고 구조물의 전체 폭을 캡처하지 않을 수 있습니다. 더 중요한 것은 측정의 품질을 평가하는 많은 기술이 단일 항목으로 사용할 수 없거나 어렵다는 것입니다. 2 이러한 이유로, 확립 된 심리 측정 가이드 라인은 일반적으로 신뢰할 수있는 심리 평가 및 측정을 위해 구성 당 4-6 개의 항목을 권장합니다 (예 : Hinkins et al., 1998).
기존 악기는 AI 생성 스토리의 품질과 특성을 평가하기위한 토대를 명확하게 설명했습니다. 그러나 우리가 이전 섹션에서 보았 듯이, 그들은 현재 편견이있는 결과를 낳고 이론적 통찰력을 오도 할 위험이 있습니다. 나는 그들의 일에서 벗어나고 싶지 않지만, 그들은 확립 된 심리학 원칙에 대해 더 철저하게 검증되는 이점을 얻을 것이라고 믿는다.
AI 생성 스토리를 평가하기위한 제안 된 도구는 Scale Construction : AIS (AIS)에 대한 모범 사례에 따라 개발되었습니다. 경험적 분석을 기반으로 한 AI 생성 스토리를 평가하는 유일한 설문지입니다. 다양한 언어 모델과 하이퍼 파라미터가 결과 스토리 출력에 대한 사람들의 경험에 어떤 영향을 미치는지 이해하기 위해 강력한 악기를 제공해야합니다. 여기에서 악기를 찾을 수 있습니다.
새로운 데이터 로이 척도를 천천히 개선하고 확장하려고 노력할 것입니다. AIS에 대한 나의 연구에 대한 3 가지 링크 :
AIS 용 항목을 작성하고 계승 구조를 탐색하기위한 초기 연구. 이 연구의 결과를 바탕으로 AISS 버전을 구성했습니다.
또한 AIS가 어떻게 다른 세대 설정이 다른 유형의 스토리로 이어질 수 있는지에 대한보다 자세한 이해를 얻기 위해 AISS를 사용하는 방법을 보여주는 몇 가지 개념 증명 분석이 포함되어 있습니다.
아직 없다면 레포의 메인 페이지로 이동하여 '정보'필드로의 오른쪽을 살펴보십시오. '이 저장소 인용'이라는 줄을 클릭하십시오.
그것은 내가 말한 것이 아닙니다. 나는 심리적으로 검증 된 척도가 없다고 말했다. AI 생성 스토리를 평가하는 데 사용 된 몇 가지 악기를 알고 있습니다. 그러나 그들 중 누구도 그들의 심리적 질에 대해 평가되지 않았습니다. 우리는 그 척도에서 질문에 답할 때 대부분의 사람들이 사용하는 기준을 알지 못하며, 그러한 기준이 각 척도의 저자의 의도와 일치하는지 모릅니다. 우리는 척도의 결과가 얼마나 신뢰할 수 있는지 모릅니다. 이것은 우리 가이 악기에서 얻은 결과가 실제로 의미가 있음을 확신 할 수 없다는 것을 의미하기 때문에 심각한 문제입니다. 이러한 문제에 대한 입문서의 경우이 섹션을 다시 읽고 연결 한 참조를 살펴보십시오.
물론, 내가 틀렸고 일부 규모가 AI 연구를 위해 심리적으로 검증 된 경우, 그것에 대해 듣고 기뻐할 것입니다. 제발 제발 알려주세요!
쌍별 비교는 다른 약점과 강점을 가진 다른 연구 설계를 나타냅니다. 따라서 쌍별 비교 설계와 단일 스토리의 평가를 선택하는 것은 당면한 연구 질문에 달려 있어야합니다. 그러나 항상 쌍별 비교 만 조언하는 것은 나에게 매우 악의적 인 것처럼 보입니다.
쌍별 비교는 이분법 데이터를 제공합니다 (스토리 선택? A/B). 정의에 따른 이분법 데이터는 5 점 리 커트 척도 중에서 선택한 것보다 정보가 적습니다. 이것은 당신이 반드시 그러한 설계로 통계적 힘을 희생해야한다는 것을 의미합니다 (또는 오히려 통계력이 낮은 분석 방법으로 제한 될 것입니다).
또한, 쌍별 비교에서의 선택은 해답을 설명하는 기본 구성에 대해서는 더 어렵습니다. 참가자들이 다른 이야기를 다른 이야기보다 선택한 이유는 무엇입니까 ? 그들은 어떤 기준을 사용 했습니까? 그들은 한 이야기에 대해 무엇을 좋아하고 다른 이야기에 대해 싫어 했습니까? 이것들은 당신이 가진 모든 것이 단일 선택 이야기 A와 Story B입니다.
또한 쌍별 비교 설계를 사용하고 있기 때문에 인간 평가를 심리적으로 검증 할 의무가 어떻게 든 완화되지는 않습니다. 즉, 과학적 엄격한 파쇄로 연구를 수행하려면 심리 측정을 여전히 유효성과 신뢰성을 점검해야합니다. 스토리 B의 스토리 A의 선택을 결정하는 어떤 잠재 요인은 무엇입니까? 이것은 당신이 측정하려는 의도 (유효성)와 일치합니까? 결과는 얼마나 신뢰할 수 있습니까? 평가자는 일반적으로 같은 이야기가 다른 것보다 낫다는 것에 동의합니까 (신뢰성)? 유효성은 쌍별 비교 설계로 확인하기가 매우 어려울 수 있으며, 재산 간 신뢰성에 대한 측정 값으로 상대적으로 쉽게 신뢰할 수 있습니다 (필요한 경우 대부분의 측정 값을 손으로 계산할 수 있습니다). 그러나 나는 AI Research의 단일 논문을 발견하지 못했다.
물론, 나는 당신이 쌍별 비교 설계를 사용해서는 안된다고 말하지 않습니다. 그러한 디자인에는 강점이 있습니다. 사람들이 실제로 한 이야기를 다른 이야기를 선택했기 때문에 조치는 "행동 적"측정에 더 가깝습니다. 행동을 공부하거나 예측하는 데 관심이있는 경우 (예 : 한 모델을 다른 모델보다 선택하는 것과 같은) 이것은 유리합니다. 그러나 많은 이론들은 그러한 선택으로 이어지는 이야기의 기본 속성에 대해 많은 명시 적 또는 묵시적 인 가정을 만들 것입니다. 이 이론을 테스트하려면 이러한 속성을 측정 할 수 있어야합니다. 쌍별 비교는 종종 이에 대한 이상적인 연구 설계가 아닐 것입니다.
짧은 스 니펫 내에서 논리적 불일치를 연구하고 싶다면 짧은 스 니펫을 사용하십시오. AI 생성 된 텍스트의 더 많은 글로벌 인상에 관심이 있습니다. 따라서 처음에는 더 긴 발췌를 사용했습니다.
나는 사람들이 이야기에서 큰 그림을 얻는 데 나쁘다는 것에 동의하지 않습니다. 언어 모델이 쓴 이야기에서 사람들이 다소 더 긴 발췌문 (예 : 5 분 읽기)을 읽게한다면 그 텍스트에 대한 인상을 남길 것입니다. 이 인상은 발췌를 생성하는 데 사용되는 모델의 특성에 따라 다릅니다. 나는 이러한 차이가 흥미롭고 공부하는 것이 의미가 있다고 생각하며, 그 차이가 결코 짧은 스 니펫이기 때문에 그 차이가 연구되지 않았다면 불행한 일이 될 것입니다.
나는 내 데이터가 나에게 동의한다고 주장한다.
이 측정 모델은 반사 측정 모델로 알려져 있습니다. 구조는 지표 (질문에 대한 응답)를 유발하는 것으로 가정됩니다. 플립 측면은 형성 측정 모델이 될 것입니다. 그러나, 나는 반사 측정 모델이 인간 평가를 수집 할 때 연구원들이 암시하는 가정에 더 적합하다고 생각하므로 형성 측정 모델을 더 고려하지 않을 것입니다. ↩
분명히,이 경우에는 그다지 중요하지 않습니다. 이러한 항목들 중 어느 것도 심리적 질을 확인한 적이 없기 때문입니다. ↩
그러나 내가 '느린'이라고 말할 때, 나는 정말로 느린다는 것을 의미합니다 - 이것은 여전히 취미 프로젝트입니다! ↩