La investigación sobre la evaluación de historias generadas por IA aún no ha adoptado una escala validada psicométricamente para evaluaciones humanas. Esto plantea una seria amenaza para la validez y confiabilidad de los resultados de la investigación, ya que las medidas existentes pueden no capturar con precisión los conceptos previstos o no capturarlos lo suficientemente confiables como para que los resultados sean significativos. La Escala de Historia de AI (AISS) aborda esta brecha al proporcionar una escala de calificación confiable y válida que se basa en la investigación empírica y las mejores prácticas psicométricas, lo que permite a los investigadores y profesionales evaluar la calidad y la naturaleza de las historias generadas por IA con confianza.
¡Los modelos de idiomas a gran escala (LLM) son increíbles! Los rápidos avances de esta tecnología en los últimos años solo pueden describirse como realmente impresionantes (Min et al., 2021; Tang, Guerin, Li y Lin, 2022). Al momento del momento de la redacción (junio de 2023), herramientas como ChatGPT, GPT-4 y otros modelos emergentes continúan llegando a los titulares y capturando la imaginación pública (por ejemplo, Bubeck et al., 2023, Lee, Bubeck y Petro, 2023, OpenAI, 2023). Estos modelos son capaces de hacer hazañas notables, lo que demuestra una competencia impresionante para tareas tan complejas y multifacéticas como la narración (Alhussain y Azmi, 2021; Xie, Cohn & Lau, 2023).
De hecho, la narración generada por IA se está adoptando cada vez más en varias industrias. En la industria del entretenimiento, la IA se está utilizando para la escritura y la narración de historias. En el sector de escritura y autoría, los generadores de historias de IA se están convirtiendo en herramientas populares para los escritores, ofreciendo formas innovadoras de superar el bloqueo del escritor y encontrar inspiración para su trabajo.
Sin embargo, por impresionantes que son las implementaciones existentes, las prácticas de evaluación para el texto generado se han identificado como defectuosos, y los estudios a menudo no satisfacen incluso los requisitos básicos para la ciencia empírica sólida (Gehrmann, Clark y Sellam, 2023). Este es un problema urgente; Particularmente, ya que los modelos de generación neuronal han mejorado hasta el punto en que sus salidas a menudo ya no se pueden distinguir en función de las características de nivel de superficie en las que confían las métricas más antiguas. Incluso las medidas que intentan profundizar, como las evaluaciones humanas, sufren deficiencias serias. Uno de los más críticos de estos es uno que generalmente se pasa por alto en la investigación sobre modelos de idiomas grandes y la IA de manera más general: la falta de validación psicométrica.
La validación psicométrica es esencial para garantizar que un instrumento mida algo significativo en absoluto, y que lo haga con precisión. Esta falta de validación es una amenaza apremiante para la validez de la investigación en este campo. Es este problema que la Escala de Historia de AI (AISS) tiene como objetivo abordar. El AISS proporciona una base sólida para medir la calidad y la naturaleza de las historias generadas por IA, ofreciendo una solución a las deficiencias de las medidas actuales para la evaluación de la historia humana. Al proporcionar una herramienta confiable y validada para evaluar historias generadas por la IA, la AISS puede ayudar a los investigadores y profesionales a comprender mejor las capacidades y limitaciones de diferentes modelos y entornos de generación.
Sospecho que muchos lectores en este momento podrían estar pensando: "Psicométrico ¿Qué ahora?". Si ese es usted, puede ser escéptico sobre la necesidad de otra forma de evaluar el texto generado por la IA. Lo entiendo.
Sin embargo, tengan paciencia conmigo: intentaré explicar por qué esto es tan importante y cómo la escala de la historia de IA podría marcar una diferencia significativa en el campo.
En esta sección, ejecutaré rápidamente los enfoques actuales para evaluar una historia generada por un modelo generativo. También intentaré establecer por qué creo que los investigadores podrían beneficiarse de la adición de la escala de la historia de IA al Arsenal de las Métricas de Evaluación.
Las evaluaciones automáticas son un enfoque común para evaluar el rendimiento de los modelos de lenguaje. Estas evaluaciones generalmente implican comparar la salida de un modelo con un texto de referencia o "verdad fundamental". Estas son algunas de las métricas de evaluación automática más utilizadas:
Métricas como Bleu (Papineni et al., 2002), Rouge (Lin, 2004) y Meteor (Banerjee y Lavie, 2005) comparan el texto generado con un texto de referencia midiendo la superposición de N-Grams (secuencia contigua de N ítems de una muestra dada de texto). Estas métricas se diseñaron originalmente para la traducción automática y son útiles para medir el ajuste de la historia generada contra un estándar de oro. Sin embargo, se centran principalmente en las características de texto a nivel de superficie y pueden no capturar completamente la calidad de las historias generadas.
Métodos de evaluación más recientes como Lambada (Paperno et al., 2016), HellaSwag (Zellers et al., 2019) y PIQA (Bisk et al., 2020) tienen como objetivo probar la capacidad de un modelo para capturar las habilidades de razonamiento de contexto más amplio y sentido común. Lambada evalúa la capacidad de un modelo para predecir la palabra final en una oración dada su contexto, mientras que HellaSwag y PIQA prueban la capacidad de un modelo para hacer predicciones de sentido común. Si bien estos métodos proporcionan ideas interesantes sobre las habilidades de razonamiento de un modelo, no evalúan directamente la calidad de las historias generadas.
Las evaluaciones automáticas ofrecen la ventaja de ser rápida, escalable y objetiva. Sin embargo, si bien estas evaluaciones son herramientas valiosas en la evaluación de los modelos de lenguaje, tienen limitaciones cuando se trata de evaluar la calidad de las historias generadas. A menudo se centran en aspectos específicos de la generación del lenguaje y pueden no capturar completamente la riqueza, la creatividad y la coherencia narrativa que son cruciales en la narración de historias. Aquí es donde la evaluación humana y la escala de la historia de IA entran en juego.
Un enfoque diferente es usar jueces humanos para evaluar una historia (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). Después de todo, el objetivo final de la generación de historias por modelos de idiomas es producir historias convincentes y atractivas que a la gente le gusta leer y disfrutar. ¿No es natural usar a los humanos como nuestra mejor medida de calidad de la historia?
Personalmente, creo que la evaluación humana de historias generadas por IA merece una atención seria. Podría usarse no solo para medir la 'calidad general' de las historias, sino también para ayudar a comprender qué tipo de historias probablemente produzcan diferentes modelos y cómo difieren. También podría usarse para explorar cómo la calidad de la historia cambia en las generaciones a medida que modificamos la arquitectura o los hiperparámetros de un modelo.
Las medidas existentes representan un primer paso importante para capturar cómo los humanos experimentan historias escritas por modelos de idiomas. Sin embargo, creo que podrían beneficiarse de ser más refinados y extendidos. Pero no nos adelantemos. Antes de revisar los instrumentos existentes para la evaluación humana, establecemos lo que realmente queremos de una escala que mide la experiencia de la historia subjetiva primero.
Como resultado, medir cualquier cosa de humanos molestos es desordenado. Especialmente cuando se trata de estados internos. Por estados internos, me refiero a la experiencia humana a la que no se puede acceder directamente por la observación. Estas son cosas extrañas como el estado de ánimo, las opiniones, las actitudes, las creencias o las preferencias. Para que suene aún más complicado de lo que ya es, los psicólogos llaman a estas cosas 'construcciones latentes' (o simplemente 'construyen') o 'variables latentes'. Las variables latentes no son directamente observables, pero deben inferirse de otras observaciones, por ejemplo, ¿qué opción elige alguien en una pregunta como "En una escala del 1 al 5, ¿qué tan interesante es esta historia?".
Uno podría pensar que la forma en que medimos estas variables sería sencillo: queremos saber lo interesante que es la historia. Entonces, solo le preguntamos a una persona lo interesante que encontraron la historia y luego promediaron eso en todos los participantes. ¡Hecho, sigamos adelante!
Sin embargo, medir variables latentes viene con sus propios desafíos únicos; Los desafíos que los investigadores no están familiarizados con las peculiaridades de medir los estados internos pueden desconocer. Sin embargo, ¡ignore estos problemas a su propio riesgo! ¡La medición descuidada de los estados internos puede conducir a resultados muy sesgados y potencialmente sin sentido!
Afortunadamente, hay un campo que ha estudiado este problema durante décadas: psicometría. Es una disciplina que ha desarrollado varias herramientas para medir construcciones latentes, así como una rica teoría sobre los tipos de errores que pueden ocurrir en estas medidas y cómo reducirlas (para una introducción ver Furr, 2011; El-Den et al., 2020; Flake & Fried, 2020). Instaría a los investigadores de IA a tomar en serio las evaluaciones humanas de medir y a tomar las lecciones aprendidas por la psicometría en serio. De esta manera, la investigación de IA podría beneficiarse de décadas de arduo trabajo de psicólogos y estadísticos para mejorar la forma en que medimos lo que importa a los humanos, como la calidad de las historias generadas por la IA.
Las ideas de la teoría de la medición pueden ayudarnos a ser conscientes de posibles dificultades al medir las construcciones latentes. Considere primero, lo que se supone implícitamente cuando medimos algo como 'interesante' preguntando "en una escala del 1 al 5, ¿qué tan interesante es esta historia?":
Los problemas con este proceso pueden surgir en diferentes puntos, pero generalmente se ponen en dos categorías: validez y confiabilidad .
Ambos conceptos tienen muchos aspectos, y no puedo cubrir el espectro completo de la investigación sobre estos temas aquí. A continuación, solo daré un resumen bastante simplista de las ideas principales. Para una cobertura más detallada, ver por ejemplo Drost (2011), Wolming y Wikström (2010) y Meyer (2010).
Un instrumento válido mide la construcción que realmente tiene la intención de medir. Una medida no válida no proporciona medición de la construcción prevista. Los problemas con la validez pueden surgir por una multitud de razones.
Por ejemplo, las personas podrían simplemente no considerar la "interesante" su propio criterio independiente al juzgar historias. Es decir, si bien podría haber parecido plausible en teoría, la interesante podría resultar no existir de manera significativa como una construcción en el mundo real. Respuestas a la pregunta "¿Qué tan interesante es esta historia?" En cambio, podría ser predicho por una mezcla de otros factores (por ejemplo, la creatividad percibida de la historia).
Alternativamente, la "interesante" podría ser una construcción significativa en el mundo real, pero nuestras preguntas por cualquier razón simplemente no logran capturarlo y medir algo más. Digamos, tratamos de medir la "interesante" preguntando: "¿Estaba esta historia mordiendo las uñas?". La pregunta podría resultar para medir una combinación de tono y ritmo.
¡Las medidas con validez cuestionable son una seria amenaza para la integridad de los resultados de la investigación (Flake & Fried, 2020)! Peor aún, los campos enteros pueden ser extraviados, si los marcos teóricos se basan en resultados de medidas no válidas. Imagine la optimización de modelos para producir historias 'interesantes', cuando todas las medidas para 'interesante' resultan ser inválidas (es decir, midiendo algo más). Los modelos estarán optimizados para algo , pero para lo que exactamente será muy mal entendido.
Una medida confiable captura lo que mida con precisión. Si lo usamos repetidamente en el mismo objeto, podemos esperar obtener un resultado similar cada vez con poco error de medición. Un instrumento poco confiable carece de precisión, y podría ser básicamente inútil si el problema es severo. Es decir, la fiabilidad describe el grado de error de medición de una medida.
Si los puntajes que estamos obteniendo de una medida varían enormemente, podría no importar si mide lo que debe medir o no, simplemente no podemos confiar en los resultados que estamos obteniendo. En otras palabras, queremos que una medida sea válida y confiable.
© Nevit Dilmen
Entonces, ¿cómo nos aseguramos de que nuestra medida para las calificaciones humanas sea válida y confiable? La respuesta es generalmente: mediante el uso de técnicas psicométricas para validar cuestionarios con datos del mundo real.
Idealmente, se toma un enfoque sistemático y riguroso a partir de la construcción de la medida. Un buen resumen de las mejores prácticas según las ideas de la investigación psicométrica se puede encontrar, por ejemplo, en Boateng et al. (2018) y Hinkin (1998).
Una descripción muy breve (y probablemente demasiado superficial) del proceso:
Ahora hemos cubierto suficiente terreno para discutir los posibles temas de las medidas existentes para la calidad de la historia. En resumen, veo deficiencias metodológicas y problemas potencialmente severos con las medidas existentes.
Para mi conciencia, ninguno de los instrumentos para las evaluaciones humanas de historias generadas por IA se ha evaluado sobre si realmente miden algo significativo (validez de prueba) o para su precisión (confiabilidad de prueba). Como acabo de discutir, esto representa una seria amenaza para la utilidad de estas medidas.
Además, es muy común en el campo para cada concepto (como 'contextualidad local' o 'diversión') para medirse con un solo elemento (por ejemplo, Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). Se sabe que la medición de construcciones latentes bastante abstractas con solo un artículo tiene costos psicométricos severos (FURR, 2011): para uno, es probable que los artículos individuales sean muy imprecisos y no capturen la amplitud completa de la construcción. Quizás lo más importante es que muchas técnicas para evaluar la calidad de la medida no están disponibles o difíciles con un solo elemento. 2 Por estas razones, las pautas psicométricas establecidas generalmente recomiendan 4–6 ítems por construcción para una evaluación y medición psicométrica confiable (por ejemplo, Hinkins et al., 1998).
Los instrumentos existentes han sentado claramente las bases para evaluar la calidad y la naturaleza de las historias generadas por la IA. Pero como hemos visto en la sección anterior, actualmente lo hacen con el riesgo de producir resultados sesgados y ideas teóricas engañosas. Si bien no quiero quitarme su trabajo, creo que se beneficiarían de ser más validados contra los principios psicometrales establecidos.
Mi instrumento propuesto para evaluar historias generadas por IA se desarrolló de acuerdo con las mejores prácticas para la construcción de escala: la Escala de Historia de AI (AISS). Actualmente es el único cuestionario para calificar historias generadas por IA basadas en el análisis empírico. Debería proporcionar un instrumento robusto para comprender cómo diferentes modelos de idiomas e hiperparámetros influyen en la experiencia de las personas en la producción de la historia resultante. Puedes encontrar el instrumento aquí.
Intentaré mejorar lentamente y expandir esta escala con nuevos datos. 3 enlaces a mis estudios sobre el AISS:
El estudio inicial para redactar los elementos para el AISS y explorar su estructura factorial. Según los resultados de este estudio, construí la versión de la AISS.
También contiene algunos análisis de prueba de concepto para mostrar cómo se puede utilizar el AISS para obtener una comprensión más detallada de cómo las diferentes configuraciones de generación pueden conducir a diferentes tipos de historias.
Vaya a la página principal del repositorio si aún no está allí, y mire a la derecha al campo 'Acerca de'. Haga clic en la línea que dice 'Cite este repositorio'.
Eso no es lo que dije. Dije que no hay escalas que hayan sido validadas psicométricamente . Soy consciente de algunos instrumentos que se han utilizado para evaluar historias generadas por IA. Sin embargo, ninguno de ellos ha sido evaluado por su calidad psicométrica. No sabemos qué criterios usan la mayoría de las personas al responder preguntas de esas escalas, y si esos criterios coinciden con las intenciones de los autores de la escala respectiva. No sabemos cuán confiables son los resultados de las escalas. Este es un problema grave, ya que significa que no podemos estar seguros de que los resultados que obtenemos de estos instrumentos sean realmente significativos. Para un manual sobre esos problemas, relega esta sección y eche un vistazo a las referencias que he vinculado.
Por supuesto, si me equivoco y alguna escala ha sido validada psicométricamente para la investigación de IA, estaría encantado de escucharlo. ¡Por favor, por favor, hágamelo saber!
Las comparaciones por pares representan un diseño de investigación diferente con diferentes debilidades y fortalezas. Por lo tanto, elegir entre un diseño de comparación por pares versus evaluaciones de historias individuales debe depender de la pregunta de investigación en cuestión. Sin embargo, aconsejar solo las comparaciones por pares siempre , me parece muy mal aconsejado.
Las comparaciones por pares te darán datos dicotómicos (historia elegida? A/B). Los datos dicotómicos por definición conllevan menos información que una opción de, por ejemplo, una escala Likert de 5 puntos. Esto significa que necesariamente tiene que sacrificar algún poder estadístico con dicho diseño (o más bien, se limitará a métodos de análisis con menor poder estadístico).
Además, las opciones de la comparación por pares son aún más difíciles de investigar para las construcciones subyacentes que explican las respuestas. ¿Por qué los participantes seleccionaron una historia sobre la otra? ¿Qué criterios usaron? ¿Qué les gustó de una historia y no les gustó de la otra? Estas son preguntas que son muy difíciles de responder cuando todo lo que tiene es una sola opción de historia A versus historia B.
También quiero señalar que solo porque está utilizando un diseño de comparación por pares, esto no lo alivia de alguna manera del deber de validar psicométricamente sus evaluaciones humanas. Es decir, las mediciones psicométricas aún deben verificarse para determinar su validez y confiabilidad si espera realizar investigaciones con alguna pizca de rigor científico. ¿Qué factores latentes determinan la elección de la historia A sobre la historia B? ¿Combina esto con lo que pretendía medir (validez)? ¿Qué tan confiables son los resultados? ¿Los evaluadores generalmente están de acuerdo en que la misma historia es mejor que la otra (confiabilidad)? La validez puede ser muy difícil de verificar con un diseño de comparación por pares, mientras que la confiabilidad podría controlarse con relativa facilidad con las medidas de confiabilidad entre evaluadores (la mayoría de esas medidas podrían calcularse a mano si es necesario). Sin embargo, no he encontrado un solo artículo de AI Research que haya informado ningún análisis psicométrico de su instrumento.
Por supuesto, no estoy diciendo que nunca debes usar diseños de comparación por pares. Hay fortalezas de tales diseños: las medidas están más cerca de una medida "conductual", ya que las personas realmente eligieron una historia sobre la otra. Esta es una ventaja si está interesado en estudiar o predecir el comportamiento (como elegir un modelo sobre otro). Sin embargo, muchas teorías harán muchas suposiciones explícitas o implícitas sobre los atributos subyacentes de historias que conducen a tal elección. Si desea probar estas teorías, debe poder medir estos atributos. Las comparaciones por pares a menudo no serán el diseño de estudio ideal para esto.
Si desea estudiar inconsistencias lógicas en fragmentos cortos, use fragmentos cortos. Estoy interesado en más impresiones globales de textos generados por IA. Por lo tanto, inicialmente usé extractos más largos.
Sin embargo, no estoy de acuerdo con que la gente sea mala para obtener un panorama general de las historias. Creo que si dejas que la gente lea un extracto algo más largo (por ejemplo, una lectura de 5 minutos) de una historia escrita por el modelo de idioma, se irán con una cierta impresión de ese texto. Esta impresión diferirá dependiendo de las peculiaridades del modelo utilizado para generar el extracto. Creo que esas diferencias son interesantes y significativas de estudiar, y sería desafortunado si esas diferencias nunca se estudiaran porque todo lo que se ha visto son fragmentos cortos.
Yo diría que mis datos están de acuerdo conmigo, por cierto: para las evaluaciones de extractos de historia más largos, encontré mucha variación en los datos que se agrupan significativamente en torno a ciertos factores de la historia.
Este modelo de medición se conoce como modelo de medición reflexiva: se supone que las construcciones causan indicadores (respuestas a preguntas). La otra cara sería un modelo de medición formativo. Sin embargo, considero que un modelo de medición reflexivo es más apropiado para los supuestos que los investigadores implican al recopilar evaluaciones humanas y, por lo tanto, no daré más consideración al modelo de medición formativa. ↩
Es cierto que esto no importa mucho en este caso, ya que ninguno de estos artículos ha sido verificado por su calidad psicométrica. ↩
Sin embargo, cuando digo 'lento', quiero decir muy lento : ¡este sigue siendo un proyecto de pasatiempo mío! ↩