Исследования по оценке историй, сгенерированных AI, еще не приняли психометрически подтвержденную шкалу для оценки человека. Это представляет серьезную угрозу для обоснованности и надежности результатов исследований, так как существующие меры могут не точно отражать предполагаемые концепции или не могут запечатлеть их достаточно надежными, чтобы результаты были значимыми. Шкала истории ИИ (AISS) учитывает этот пробел, предоставляя надежную и действительную шкалу оценки, которая использует эмпирические исследования и лучшие психометрические практики, позволяя исследователям и практикующим оценивать качество и характер историй, сгенерированных ИИ, с уверенностью.
Крупномасштабные языковые модели (LLMS) потрясающие! Быстрые достижения этой технологии за последние несколько лет могут быть описаны только как действительно захватывающие дух (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). На момент написания времени (июнь 2023 г.), такие инструменты, как CHATGPT, GPT-4 и другие новые модели, продолжают делать заголовки и захватывать общественное воображение (например, Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023). Эти модели способны к замечательным подвигам, демонстрируя впечатляющие мастерства для задач, таких как сложные и многогранные, как рассказывание историй (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
На самом деле, AI-сгенерированное повествование все больше и больше принимается в различных отраслях. В индустрии развлечений ИИ используется для написания сценариев и рассказывания историй. В секторе написания и авторства генераторы ИИ становятся популярными инструментами для писателей, предлагая инновационные способы преодоления блока писателя и находить вдохновение для их работы.
Однако, как бы впечатляющие были бы существующие реализации, практика оценки для сгенерированного текста была определена как недостатки, причем исследования часто не удовлетворяют даже основные требования для эмпирической науки (Gehrmann, Clark, & Sellam, 2023). Это срочная проблема; В частности, в том, что модели нейронной генерации улучшились до такой степени, что их результаты часто больше не могут быть различаются в зависимости от особенностей поверхностного уровня, на которые полагаются более старые метрики. Даже меры, которые пытаются углубиться, такие как человеческие оценки, страдают от серьезных недостатков. Одним из наиболее критических из них является то, что обычно упускается из виду в исследованиях больших языковых моделей и ИИ в целом: отсутствие психометрической проверки.
Психометрическая проверка имеет важное значение для обеспечения того, чтобы инструмент измерял что -либо значимое вообще, и что он делает это с точностью. Отсутствие проверки является насущной угрозой для обоснованности исследований в этой области. Именно эта проблема стремится решить шкалу истории ИИ (AISS). AISS обеспечивает прочную основу для измерения качества и характера историй, сгенерированных AI, предлагая решение недостатков текущих мер для оценки человеческой истории. Предоставляя надежный и проверенный инструмент для оценки историй, сгенерированных AI, AISS может помочь исследователям и практикующим лицам лучше понять возможности и ограничения различных моделей и настройки генерации.
Я подозреваю, что многие читатели на данный момент могут думать: «Психометрический что сейчас?». Если это вы, вы можете скептически относиться к необходимости еще одного способа оценки текста, сгенерированного ИИ. Я понял.
Тем не менее, нести меня - я постараюсь объяснить, почему это так важно и как шкала истории ИИ может иметь существенное значение в этой области.
В этом разделе я быстро проведу текущие подходы для оценки истории, сгенерированной генеративной моделью. Я также постараюсь изложить, почему я думаю, что исследователи могли бы получить выгоду от добавления шкалы истории ИИ до арсенала показателей оценки.
Автоматические оценки являются общим подходом для оценки эффективности языковых моделей. Эти оценки обычно включают сравнение вывода модели с ссылкой или текстом «основной истины». Вот некоторые из наиболее часто используемых автоматических показателей оценки:
Метрики, такие как Bleu (Papineni et al., 2002), Rouge (Lin, 2004) и Meteor (Banerjee & Lavie, 2005), сравнивают сгенерированный текст с эталонным текстом, измеряя перекрытие N-Grams (смежную последовательность N элементов из данного образца текста). Эти метрики были первоначально разработаны для машинного перевода и полезны для измерения соответствия сгенерированной истории против золотого стандарта. Тем не менее, они в первую очередь сосредоточены на текстовых функциях на уровне поверхности и не могут полностью охватить качество генерируемых историй.
Более поздние методы оценки, такие как Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) и Piqa (Bisk et al., 2020), стремятся проверить способность модели захватывать более широкий контекст и способности рассуждения в здравом смысле. Ламбада оценивает способность модели предсказать окончательное слово в предложении, учитывая его контекст, в то время как Hellaswag и Piqa проверяют способность модели делать предсказания здравого смысла. Хотя эти методы дают интересную информацию о способностях рассуждения модели, они не оценивают качество генерируемых историй.
Автоматические оценки предлагают преимущество быстрого, масштабируемого и объективного. Однако, хотя эти оценки являются ценными инструментами в оценке языковых моделей, они имеют ограничения, когда речь идет о оценке качества генерируемых историй. Они часто сосредотачиваются на конкретных аспектах генерации языка и не могут полностью захватить богатство, творчество и повествовательную когерентность, которые имеют решающее значение в рассказывании историй. Именно здесь в игру вступают в игру человека.
Другим подходом является использование человеческих судей для оценки истории (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). В конце концов, конечная цель генерации историй с помощью языковых моделей - создавать убедительные и привлекательные истории, которые люди любят читать и наслаждаться. Разве не естественно использовать людей как нашу конечную меру качества истории?
Лично я считаю, что человеческая оценка историй, сгенерированных AI, заслуживает серьезного внимания. Это может быть использовано не только измерять «общее качество» историй, но и помочь понять, какие истории могут производить разные модели и как они различаются. Он также может быть использован для изучения того, как меняется качество истории в разных поколениях, когда мы настраиваем архитектуру или гиперпараметрам модели.
Существующие меры представляют собой важный первый шаг для захвата того, как люди испытывают истории, написанные языковыми моделями. Тем не менее, я думаю, что они могли бы выиграть от дальнейшего утонченного и расширенного. Но давайте не будем опередить себя. Прежде чем мы рассмотрим существующие инструменты для человеческой оценки, давайте сначала установим, что мы на самом деле хотим, из -за того, что в шкале измеряют субъективные истории.
Оказывается, измерение чего -либо от надоедливых людей грязно. Особенно, когда дело доходит до внутренних состояний. Под внутренними состояниями я имею в виду человеческий опыт, который не доступен непосредственно при наблюдении. Это странные вещи, такие как настроение, мнения, взгляды, убеждения или предпочтения. Чтобы это звучало еще сложнее, чем уже есть, психологи называют эти вещи «скрытыми конструкциями» (или просто «конструкциями») или «скрытыми переменными». Скрытые переменные не наблюдаются непосредственно, но должны быть выведены из других наблюдений - например, какой вариант кто -то выбирает по таким вопросу, как «по шкале от 1 до 5, насколько интересна эта история?».
Можно подумать, что то, как мы измеряем эти переменные, было бы простым: мы хотим знать, насколько интересна история. Итак, мы просто спрашиваем человека, насколько интересно они нашли историю, а затем средние ее у всех участников. Сделано, давайте двигаться дальше!
Тем не менее, измерение скрытых переменных сопровождается собственными уникальными проблемами; Проблемы, которые исследователи не знакомы с особенностями измерения внутренних состояний, могут не знать. Тем не менее, игнорируйте эти проблемы на свой страх и риск! Небрежное измерение внутренних состояний может привести к очень смещенным и потенциально бессмысленным результатам!
К счастью, существует поле, в котором изучалась эта проблема на протяжении десятилетий: психометрика. Это дисциплина, которая разработала различные инструменты для измерения скрытых конструкций, а также богатая теория о видах ошибок, которые могут происходить в этих измерениях и как их уменьшить (для введения см. Furr, 2011; El-Den et al., 2020; Flake & Fried, 2020). Я бы призвал исследователей ИИ серьезно относиться к измерению человеческих оценок и взять уроки, извлеченные психометрией, близко к сердцу. Таким образом, исследование ИИ может извлечь выгоду из десятилетий тяжелой работы психологов и статистиков, чтобы улучшить то, как мы измеряем то, что важно для людей-например, качество историй, созданных ИИ.
Понимание теории измерений может помочь нам быть осведомленными о потенциальных ловушках при измерении скрытых конструкций. Сначала рассмотрим, что неявно предполагается, когда мы измеряем что -то вроде «интересного», спросив «по шкале от 1 до 5, насколько интересна эта история?»:
Проблемы с этим процессом могут возникнуть в разные моменты, но обычно они помещаются в две категории: достоверность и надежность .
Обе концепции имеют много аспектов, и я не могу охватить весь спектр исследований по этим темам здесь. Ниже я просто дам довольно упрощенное резюме основных идей. Для более подробного освещения см., Например, Drost (2011), Wolming and Wikström (2010) и Meyer (2010).
Допустимый инструмент измеряет конструкцию, которую он фактически намерен измерить. Неверная мера не обеспечивает измерение предполагаемой конструкции. Проблемы с достоверностью могут возникнуть по множеству причин.
Например, люди могут просто не рассматривать «интересность» собственного независимого критерия при оценке историй. То есть, хотя это могло бы показаться правдоподобным в теории, интересность может оказаться не существующей как конструкция в реальном мире. Ответы на вопрос «Насколько интересна эта история?» вместо этого может быть предсказано смесью других факторов (например, воспринимаемое творчество истории).
В качестве альтернативы, «интересность» может быть значимой конструкцией в реальном мире, но наши вопросы по какой -либо причине просто не смогли его захватить и вместо этого измерить что -то другое. Скажите, мы попытались измерить «интересность», спросив: «Была ли эта история, кусаясь?». Вместо этого этот вопрос может измерить комбинацию тона и темпа.
Меры с сомнительной достоверностью представляют собой серьезную угрозу для целостности результатов исследований (Flake & Fried, 2020)! Хуже того, целые поля могут быть сбиты с пути, если теоретические рамки построены на результатах неверных мер. Представьте, что оптимизируют модели, чтобы произвести «интересные» истории, когда все меры для «интересности» оказываются недействительными (то есть измерение чего -то еще). Модели будут оптимизированы для чего -то , но для того, что именно будет очень плохо изучено.
Надежная мера отражает то, что она измеряет с точностью. Если мы неоднократно используем его на одном и том же объекте, мы можем ожидать, что каждый раз получат аналогичный результат с небольшой ошибкой измерения. Ненадежный инструмент не имеет точности, и может быть в основном бесполезным, если проблема серьезной. То есть надежность описывает степень ошибки измерения меры.
Если результаты, которые мы получаем от меры, сильно различаются, может не иметь значения, измеряет ли она то, что она должна измерить или нет - мы просто не можем доверять результатам, которые мы получаем. Другими словами, мы хотим, чтобы мера была действительной и надежной.
© Невит Дилмен
Итак, как мы можем убедиться, что наша мера для рейтингов человека является достоверной и надежной? Ответ обычно: используя психометрические методы для проверки вопросников с реальными данными.
В идеале, систематический и строгий подход используется, начиная с построения меры. Хорошее резюме лучших практик в соответствии с пониманием психометрических исследований, например, можно найти в Boateng et al. (2018) и Хинкин (1998).
Очень краткий (и, вероятно, чрезмерно поверхностный) обзор процесса:
Сейчас мы рассмотрели достаточно позиции, чтобы обсудить потенциальные проблемы существующих мер для качества истории. Короче говоря, я вижу методологические недостатки и потенциально серьезные проблемы с существующими мерами.
К моему осознанию, ни один из инструментов для человеческих оценок, сгенерированных AI историй, не был оценен в том, измеряют ли они что-либо значимое (достоверность тестирования) или их точность (надежность тестирования). Как я только что обсуждал, это представляет собой серьезную угрозу для полезности этих мер.
Кроме того, очень распространено в этой области для каждой концепции (такой как «локальная контекстуальность» или «удовольствие») измерять с помощью одного элемента (например, Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). Измерение довольно абстрактных скрытых конструкций с одним элементом, как известно, происходит с серьезными психометрическими затратами (Furr, 2011): С одной стороны, отдельные элементы, вероятно, будут очень неточными и не захватывать полную широту конструкции. Возможно, что еще более важно, многие методы оценки качества меры недоступны или трудны с одним предметом. 2 По этим причинам установленные психометрические руководящие принципы обычно рекомендуют 4–6 пунктов на конструкцию для надежной психометрической оценки и измерения (например, Hinkins et al., 1998).
Существующие инструменты четко заложили основу для оценки качества и природы историй, сгенерированных AI. Но, как мы видели в предыдущем разделе, в настоящее время они делают это с риском получения предвзятых результатов и вводят в заблуждение теоретическое понимание. Хотя я не хочу отнять у их работы, я считаю, что они получат выгоду от того, что они будут более тщательно подтверждены против установленных принципов психометрии.
Мой предложенный инструмент для оценки историй, сгенерированных AI, был разработан в соответствии с лучшими практиками для построения масштаба: масштаба ИИ ИСТОРИИ (AISS). В настоящее время это единственная анкету для рейтинга ИИ-генерируемых историй, основанных на эмпирическом анализе. Он должен предоставить надежный инструмент для понимания того, как различные языковые модели и гиперпараметры влияют на опыт работы людей в результате вывода истории. Вы можете найти инструмент здесь.
Я постараюсь медленно улучшить и расширить этот шкал с помощью новых данных. 3 ссылки на мои исследования на AISS:
Первоначальное исследование для составления предметов для AISS и изучения их факторной структуры. Основываясь на результатах этого исследования, я построил версию AISS.
Он также содержит несколько доказательств концептуального анализа, чтобы показать, как AISS можно использовать для получения более подробного понимания того, как различные настройки генерации могут привести к различным типам историй.
Перейдите на главную страницу репо, если вас еще нет, и посмотрите вправо на поле «О». Нажмите на строку с надписью «Цитируйте этот репозиторий».
Это не то, что я сказал. Я сказал, что нет масштабов, которые были психометрически подтверждены . Мне известно о нескольких инструментах, которые использовались для оценки ИИ-сгенерированных историй. Тем не менее, ни один из них не был оценен по своему психометрическому качеству. Мы не знаем, какие критерии используют большинство людей, отвечая на вопросы из этих масштабов, и если эти критерии соответствуют намерениям авторов соответствующего масштаба. Мы не знаем, насколько надежны результаты шкал. Это серьезная проблема, так как это означает, что мы не можем быть уверены, что результаты, которые мы получаем от этих инструментов, на самом деле значимы. Для учебника по этому вопросу перечитайте этот раздел и посмотрите на ссылки, которые я связал.
Конечно, если я ошибаюсь и некоторые масштабы были психометрически подтверждены для исследований ИИ, я был бы рад услышать об этом. Пожалуйста, пожалуйста, дайте мне знать!
Парные сравнения представляют собой другой дизайн исследования с различными слабостями и сильными сторонами. Поэтому выбор между парным дизайном сравнения по сравнению с оценками отдельных историй должен зависеть от общего вопроса исследования. Однако консультируя только парные сравнения, мне кажется очень плохо представленным для меня.
Парные сравнения дадут вам дихотомические данные (выбранная история? A/B). Дихотомические данные по определению несут меньше информации, чем выбор из 5-балльной шкалы Лайкерта. Это означает, что вам обязательно нужно пожертвовать некоторой статистической силой с такой конструкцией (или, скорее, вы будете ограничены методами анализа с более низкой статистической мощностью).
Кроме того, выбор из парного сравнения еще труднее исследовать для основных конструкций, которые объясняют ответы. Почему участники выбрали одну историю над другой? Какие критерии они использовали? Что им понравилось в одной истории и не нравится в другой? Это вопросы, на которые очень трудно ответить, когда все, что у вас есть, - это единственный выбор истории, а не рассказ Б.
Я также хочу отметить, что только потому, что вы используете дизайн парного сравнения, это каким -то образом не освобождает вас от обязанности психометрически проверять ваши человеческие оценки. То есть психометрические измерения по -прежнему должны быть проверены на их обоснованность и надежность, если вы надеетесь провести исследования с помощью какой -либо измельчения научной строгости. Какие скрытые факторы определяют выбор истории над историей B? Соответствует ли это с тем, что вы намеревались измерить (достоверность)? Насколько надежны результаты? Согласны ли оценщики, как правило, то же самое лучше, чем другая (надежность)? Достоверность может быть очень сложно проверить с помощью парного конструкции сравнения, в то время как надежность может быть относительно легко контролировать с помощью мер по надежности между оценкой (большинство из этих мер могут быть рассчитаны вручную, если это необходимо). Тем не менее, я не сталкивался с ни одной статьей из исследований искусственного интеллекта, в котором сообщалось о каком -либо психометрическом анализе их инструмента.
Конечно, я не говорю, что вы никогда не должны использовать парные конструкции сравнения. Есть сильные стороны таких дизайнов: меры ближе к «поведенческой» мере, поскольку люди фактически выбрали одну историю над другой. Это преимущество, если вы заинтересованы в изучении или прогнозировании поведения (например, выбрать одну модель над другой). Тем не менее, многие теории сделают много явных или подразумеваемых предположений о основных атрибутах историй, которые приводят к такому выбору. Если вы хотите проверить эти теории, вы должны иметь возможность измерить эти атрибуты. Парные сравнения часто не будут идеальным дизайном исследования для этого.
Если вы хотите изучить логические несоответствия в рамках коротких фрагментов, используйте короткие фрагменты. Я заинтересован в более глобальных впечатлениях от сгенерированных AI текстов. Поэтому я изначально использовал более длинные выдержки.
Я не согласен с тем, что люди плохо получают общую картину из историй. Я думаю, что если вы позволите людям прочитать несколько более длинную отрывку (например, 5-минутный читатель) из истории, написанной языковой моделью, они уйдут с определенным впечатлением от этого текста. Это впечатление будет отличаться в зависимости от особенностей модели, используемой для генерации выдержки. Я думаю, что эти различия интересны и значимы для изучения, и было бы прискорбно, если бы эти различия никогда не были изучены, потому что все, на что когда -либо рассматриваются, это короткие фрагменты.
Я бы сказал, что мои данные согласуются со мной, кстати: для оценки более длинных выдержек истории я обнаружил много дисперсии в данных, которые содержат кластеры, осмысленно вокруг определенных факторов истории.
Эта модель измерения известна как модель отражающего измерения: предполагается, что конструкции вызывают индикаторы (ответы на вопросы). Сторона была бы формирующей моделью измерения. Тем не менее, я считаю, что модель рефлексивного измерения была более подходящей для предположений, которые исследователи подразумевают при сборе оценок человека, и поэтому я не буду дальнейшего рассмотрения модели формирования измерения. ↩
По общему признанию, в этом случае это не имеет большого значения, поскольку ни один из этих пунктов никогда не был проверен на их психометрическое качество. ↩
Однако, когда я говорю «медленно», я имею в виду очень медленно - это все еще мой хобби -проект! ↩