La recherche sur l'évaluation des histoires générées par l'IA n'a pas encore adopté une échelle validée psychométrique pour les évaluations humaines. Cela constitue une menace sérieuse pour la validité et la fiabilité des résultats de la recherche, car les mesures existantes peuvent ne pas saisir avec précision les concepts prévus ou ne pas les capturer suffisamment de manière fiable pour que les résultats soient significatifs. L'échelle de l'histoire de l'IA (AISS) comble cette lacune en fournissant une échelle de notation fiable et valide qui s'appuie sur la recherche empirique et les meilleures pratiques psychométriques, permettant aux chercheurs et aux praticiens d'évaluer la qualité et la nature des histoires générées par l'AIA avec confiance.
Les modèles de langue à grande échelle (LLM) sont géniaux! Les progrès rapides de cette technologie au cours des dernières années ne peuvent être décrits que comme véritablement à couper le souffle (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). À partir du temps d'écriture (juin 2023), des outils comme Chatgpt, GPT-4 et d'autres modèles émergents continuent de faire la une des journaux et de capturer l'imagination publique (par exemple Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023). Ces modèles sont capables d'exploits remarquables, démontrant une compétence impressionnante pour les tâches aussi complexes et multiples que la narration (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
En fait, la narration générée par l'IA est de plus en plus adoptée dans diverses industries. Dans l'industrie du divertissement, l'IA est utilisée pour l'écriture de scénarios et la narration. Dans le secteur de l'écriture et de la paternité, les générateurs d'histoires de l'IA deviennent des outils populaires pour les écrivains, offrant des moyens innovants de surmonter le bloc de l'écrivain et de trouver l'inspiration pour leur travail.
Cependant, aussi impressionnantes que soient les implémentations existantes, les pratiques d'évaluation du texte généré ont été identifiées comme imparfaites, les études n'étant souvent pas satisfaisant même aux exigences de base pour les sciences empiriques solides (Gehrmann, Clark et Sellam, 2023). Il s'agit d'un problème urgent; D'autant plus que les modèles de génération de neurones se sont améliorés au point où leurs sorties ne peuvent souvent plus être distinguées en fonction des caractéristiques au niveau de la surface sur lesquelles les métriques plus anciennes reposent. Même les mesures qui tentent de plonger plus profondément, comme les évaluations humaines, souffrent de graves lacunes. L'un des plus critiques est celui qui est généralement négligé dans la recherche sur les modèles de grandes langues et l'IA plus généralement: le manque de validation psychométrique.
La validation psychométrique est essentielle pour s'assurer qu'un instrument mesure tout ce qui est significatif et qu'il le fait avec précision. Ce manque de validation est une menace urgente pour la validité de la recherche dans ce domaine. C'est ce problème que l'échelle de l'histoire de l'IA (AISS) vise à résoudre. L'AISS fournit une base solide pour mesurer la qualité et la nature des histoires générées par l'IA, offrant une solution aux lacunes des mesures actuelles pour l'évaluation des histoires humaines. En fournissant un outil fiable et validé pour évaluer les histoires générées par l'IA, l'AISS peut aider les chercheurs et les praticiens à mieux comprendre les capacités et les limites des différents modèles et paramètres de génération.
Je soupçonne que de nombreux lecteurs à ce stade pourraient penser: "Psychométrique quoi maintenant?". Si tel est vous, vous pourriez être sceptique quant à la nécessité d'une autre façon d'évaluer le texte généré par l'IA. Je comprends.
Cependant, restez avec moi - je vais essayer d'expliquer pourquoi cela est si important et comment l'échelle de l'histoire de l'IA pourrait faire une différence significative dans le domaine.
Dans cette section, je vais rapidement parcourir les approches actuelles pour évaluer une histoire générée par un modèle génératif. J'essaierai également de expliquer pourquoi je pense que les chercheurs pourraient profiter de l'ajout de l'échelle de l'histoire de l'IA à l'arsenal des mesures d'évaluation.
Les évaluations automatiques sont une approche commune pour évaluer les performances des modèles de langage. Ces évaluations impliquent généralement de comparer la sortie d'un modèle à un texte de référence ou de «vérité au sol». Voici quelques-unes des mesures d'évaluation automatiques les plus couramment utilisées:
Des métriques telles que Bleu (Papineni et al., 2002), Rouge (Lin, 2004) et Meteor (Banerjee et Lavie, 2005) comparent le texte généré avec un texte de référence en mesurant le chevauchement de n-grammes (séquence contigu de N de n éléments d'un échantillon donné de texte). Ces mesures ont été conçues à l'origine pour la traduction automatique et sont utiles pour mesurer l'ajustement de l'histoire générée par rapport à une étalon-or. Cependant, ils se concentrent principalement sur les caractéristiques du texte au niveau de la surface et peuvent ne pas capturer pleinement la qualité des histoires générées.
Des méthodes d'évaluation plus récentes telles que Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) et PIQA (Bisk et al., 2020) visent à tester la capacité d'un modèle à capturer le contexte plus large et les capacités de raisonnement de bon sens. Lambada évalue la capacité d'un modèle à prédire le dernier mot dans une phrase compte tenu de son contexte, tandis que Hellaswag et Piqa testent la capacité d'un modèle à faire de la manière commune. Bien que ces méthodes fournissent des informations intéressantes sur les capacités de raisonnement d'un modèle, elles n'évaluent pas directement la qualité des histoires générées.
Les évaluations automatiques offrent l'avantage d'être rapide, évolutif et objectif. Cependant, bien que ces évaluations soient des outils précieux dans l'évaluation des modèles de langage, ils ont des limites lorsqu'il s'agit d'évaluer la qualité des histoires générées. Ils se concentrent souvent sur des aspects spécifiques de la génération de langues et peuvent ne pas saisir pleinement la richesse, la créativité et la cohérence narrative qui sont cruciaux dans la narration. C'est là que l'évaluation humaine et l'échelle de l'histoire de l'IA entrent en jeu.
Une approche différente consiste à utiliser des juges humains pour évaluer une histoire (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). Après tout, l'objectif final de la génération d'histoires par des modèles de langue est de produire des histoires convaincantes et engageantes que les gens aiment lire et apprécier. N'est-il pas naturel alors d'utiliser les humains comme notre mesure ultime de la qualité de l'histoire?
Personnellement, je crois que l'évaluation humaine des histoires générées par l'IA mérite une attention sérieuse. Il pourrait être utilisé non seulement pour mesurer la «qualité globale» des histoires, mais aussi pour aider à comprendre quel type d'histoires différents modèles sont susceptibles de produire et comment ils diffèrent. Il pourrait également être utilisé pour explorer comment la qualité de l'histoire change entre les générations alors que nous modifions l'architecture ou les hyperparamètres d'un modèle.
Les mesures existantes représentent une première étape importante pour capturer la façon dont les humains vivent des histoires écrites par des modèles de langue. Cependant, je pense qu'ils pourraient bénéficier d'unis raffiné et prolongé. Mais ne devançons pas nous-mêmes. Avant de passer en revue les instruments existants pour l'évaluation humaine, établissons ce que nous voudrions réellement d'une échelle mesurant d'abord l'expérience de l'histoire subjective.
Il s'avère que mesurer quoi que ce soit chez les humains embêtants est désordonné. Surtout en ce qui concerne les États internes. Par des états internes, je veux dire l'expérience humaine qui ne sont pas directement accessibles par observation. Ce sont des choses étranges comme l'humeur, les opinions, les attitudes, les croyances ou les préférences. Pour le rendre encore plus compliqué qu'il ne l'est déjà, les psychologues appellent ces choses «constructions latentes» (ou simplement «constructions») ou «variables latentes». Les variables latentes ne sont pas directement observables, mais doivent être déduites des autres observations - par exemple, quelle option que quelqu'un choisit sur une question comme «sur une échelle de 1 à 5, quelle est cette histoire intéressante?».
On pourrait penser que la façon dont nous mesurons ces variables serait simple: nous voulons savoir à quel point l'histoire est intéressante. Donc, nous demandons simplement à une personne à quel point elle a trouvé l'histoire, puis en moyenne à tous les participants. Fait, passons à autre chose!
Cependant, la mesure des variables latentes est livrée avec ses propres défis uniques; Les défis que les chercheurs ne connaissent pas les particularités de la mesure des états internes pourraient ne pas être conscients. Cependant, ignorez ces problèmes à vos périls! La mesure imprudente des états internes peut conduire à des résultats très biaisés et potentiellement dénués de sens!
Heureusement, il existe un domaine qui a étudié ce problème depuis des décennies: la psychométrie. C'est une discipline qui a développé divers outils pour mesurer les constructions latentes, ainsi qu'une théorie riche sur les types d'erreurs qui peuvent se produire dans ces mesures et comment les réduire (pour une introduction à Furr, 2011; El-den et al., 2020; Flake & Fried, 2020). J'exhorterais les chercheurs de l'IA à prendre au sérieux les évaluations humaines et à prendre à cœur les leçons apprises par la psychométrie. De cette façon, la recherche sur l'IA pourrait profiter des décennies de travail acharné des psychologues et des statisticiens pour améliorer la façon dont nous mesurons ce qui compte pour les humains - comme la qualité des histoires générées par l'IA.
Les idées de la théorie de la mesure peuvent nous aider à être conscients des pièges potentiels lors de la mesure des constructions latents. Considérez d'abord, qu'est-ce qui est implicitement supposé lorsque nous mesurons quelque chose comme «l'intérêt» en demandant «sur une échelle de 1 à 5, quelle est l'intérêt de cette histoire?»:
Des problèmes avec ce processus peuvent survenir à différents points, mais sont généralement mis dans deux catégories: la validité et la fiabilité .
Les deux concepts ont de nombreux aspects, et je ne peux pas couvrir le spectre complet de la recherche sur ces sujets ici. Ci-dessous, je vais juste donner un résumé assez simpliste des idées principales. Pour une couverture plus détaillée, voir par exemple Drost (2011), Wolming et Wikström (2010) et Meyer (2010).
Un instrument valide mesure la construction qu'il a l'intention de mesurer. Une mesure non valide ne fournit pas de mesure de la construction prévue. Des problèmes de validité peuvent survenir pour une multitude de raisons.
Par exemple, les gens pourraient tout simplement ne pas considérer «l'intérêt» son propre critère indépendant lorsqu'il juge des histoires. Autrement dit, même si elle aurait pu apparaître plausible en théorie, l'intérêt pourrait ne pas exister de manière significative en tant que construction dans le monde réel. Réponses à la question «Dans quelle mesure cette histoire est-elle intéressante?» pourrait plutôt être prédit par un mélange d'autres facteurs (par exemple, la créativité perçue de l'histoire).
Alternativement, «l'intérêt» pourrait être une construction significative dans le monde réel, mais nos questions pour une raison quelconque ne parviennent tout simplement pas à la capturer et à mesurer autre chose à la place. Disons, nous avons essayé de mesurer «l'intérêt» en demandant: «Cette histoire a-t-elle mordait des ongles?». La question pourrait se révéler à la place une combinaison de ton et de rythme.
Les mesures avec une validité douteuse sont une menace sérieuse pour l'intégrité des résultats de la recherche (Flake & Fried, 2020)! Pire encore, les champs entiers peuvent être égarés, si les cadres théoriques sont construits sur les résultats de mesures non valides. Imaginez l'optimisation de modèles pour produire des histoires «intéressantes», lorsque toutes les mesures pour «l'intérêt» se révèlent invalides (c'est-à-dire mesurer autre chose). Les modèles seront optimisés pour quelque chose , mais pour ce qui sera exactement très mal compris.
Une mesure fiable capture tout ce qu'elle mesure avec précision. Si nous l'utilisons à plusieurs reprises sur le même objet, nous pouvons nous attendre à obtenir un résultat similaire à chaque fois avec peu d'erreur de mesure. Un instrument peu fiable n'a pas de précision et pourrait être fondamentalement inutile si le problème est grave. Autrement dit, la fiabilité décrit le degré d'erreur de mesure d'une mesure.
Si les scores que nous obtenons d'une mesure varient sauvagement, il peut ne pas avoir d'importance si elle mesure ce qu'elle devrait mesurer ou non - nous ne pouvons tout simplement pas faire confiance aux résultats que nous obtenons. En d'autres termes, nous voulons qu'une mesure soit valide et fiable.
© Nevit Dilmen
Alors, comment pouvons-nous nous assurer que notre mesure des évaluations humaines est valide et fiable? La réponse est généralement: en utilisant des techniques psychométriques pour valider les questionnaires avec des données réelles.
Idéalement, une approche systématique et rigoureuse est prise à partir de la construction de la mesure. Un bon résumé des meilleures pratiques en fonction des informations de la recherche psychométrique peut par exemple être trouvée dans Boateng et al. (2018) et Hinkin (1998).
Un aperçu très brève (et probablement trop superficiel) du processus:
Nous avons maintenant couvert suffisamment de terrain pour discuter des problèmes potentiels des mesures existantes pour la qualité de l'histoire. En bref, je vois des lacunes méthodologiques et des problèmes potentiellement graves avec les mesures existantes.
À ma conscience, aucun des instruments pour les évaluations humaines des histoires générés par l'IA n'a été évalué sur le fait qu'ils mesurent réellement quelque chose de significatif (validité de test) ou pour leur précision (fiabilité des tests). Comme je viens de le discuter, cela représente une menace sérieuse pour l'utilité de ces mesures.
En outre, il est très courant dans le domaine que chaque concept (tel que la «contextualité locale» ou «plaisir») soit mesuré avec un seul élément (par exemple, Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). Mesurer des constructions latentes assez abstraites avec un seul élément est connue pour être à des coûts psychométriques graves (Furr, 2011): pour un, les articles uniques sont probablement très imprécis et ne capturent pas toute l'étendue de la construction. Peut-être plus important encore, de nombreuses techniques pour évaluer la qualité de la mesure ne sont pas disponibles ou difficiles avec un seul élément. 2 Pour ces raisons, les directives psychométriques établies recommandent généralement 4 à 6 éléments par construction pour une évaluation et une mesure psychométriques fiables (par exemple, Hinkins et al., 1998).
Les instruments existants ont clairement jeté les bases de l'évaluation de la qualité et de la nature des histoires générées par l'IA. Mais comme nous l'avons vu dans la section précédente, ils le font actuellement au risque de produire des résultats biaisés et des informations théoriques trompeuses. Bien que je ne veuille pas retirer leur travail, je pense qu'ils bénéficieraient d'être plus entièrement validés contre les principes de psychométrie établis.
Mon instrument proposé pour évaluer les histoires générés par l'IA a été développé en fonction des meilleures pratiques pour la construction d'échelle: l'échelle de l'histoire de l'IA (AISS). Il s'agit actuellement du seul questionnaire pour évaluer les histoires générées par l'IA basées sur une analyse empirique. Il devrait fournir un instrument robuste pour comprendre comment différents modèles de langue et hyperparamètres influencent l'expérience des gens de la production d'histoire qui en résulte. Vous pouvez trouver l'instrument ici.
J'essaierai d'améliorer lentement et d'élargir cette échelle avec de nouvelles données. 3 liens vers mes études sur l'AISS:
L'étude initiale pour la rédaction des éléments de l'AISS et l'exploration de leur structure factorielle. Sur la base des résultats de cette étude, j'ai construit la version de l'AISS.
Il contient également quelques analyses de preuve de concept pour montrer comment l'AISS peut être utilisée pour acquérir une compréhension plus détaillée de la façon dont différents paramètres de génération peuvent conduire à différents types d'histoires.
Accédez à la page principale du référentiel si vous n'y êtes pas déjà, et regardez le droit à droite vers le champ «À propos». Cliquez sur la ligne qui dit «citer ce référentiel».
Ce n'est pas ce que j'ai dit. J'ai dit qu'il n'y avait aucune échelle qui avait été validée psychométriquement . Je suis au courant de quelques instruments qui ont été utilisés pour évaluer les histoires générées par l'AI. Cependant, aucun d'entre eux n'a été évalué pour leur qualité psychométrique. Nous ne savons pas quels critères utilisent la plupart des gens lorsque vous répondez aux questions de ces échelles, et si ces critères correspondent aux intentions des auteurs de l'échelle respective. Nous ne savons pas à quel point les résultats des échelles sont fiables. C'est un problème grave, car cela signifie que nous ne pouvons pas être sûrs que les résultats que nous obtenons de ces instruments sont en fait significatifs. Pour une introduction sur ce problème, relisez cette section et jetez un œil aux références que j'ai liées.
Bien sûr, si je me trompe et que d'une échelle a été validée psychométriquement pour la recherche sur l'IA, je serais ravi d'en entendre parler. S'il vous plaît, s'il vous plaît, faites- le moi savoir!
Les comparaisons par paires représentent une conception de recherche différente avec différentes faiblesses et forces. Le choix entre une conception de comparaison par paire par rapport aux évaluations des histoires uniques devrait donc dépendre de la question de recherche. Ne conseiller que des comparaisons par paire toujours , me semble cependant très mal avisée.
Les comparaisons par paires vous donneront des données dichotomiques (histoire choisie? A / B). Les données dichotomiques par définition comportent moins d'informations qu'un choix, disons, une échelle de Likert à 5 points. Cela signifie que vous devrez nécessairement sacrifier une certaine puissance statistique avec une telle conception (ou plutôt, vous serez limité aux méthodes d'analyse avec un pouvoir statistique inférieur).
De plus, les choix de la comparaison par paire sont encore plus difficiles à sonder pour les constructions sous-jacentes qui expliquent les réponses. Pourquoi les participants ont-ils sélectionné une histoire par rapport à l'autre? Quels critères ont-ils utilisés? Qu'ont-ils aimé d'une histoire et de ne pas aimer les autres? Ce sont des questions qui sont très difficiles à répondre lorsque vous avez tout ce que vous avez est un seul choix d'histoire A Versus Story B.
Je tiens également à souligner que ce n'est pas parce que vous utilisez une conception de comparaison par paire, cela ne vous soulage pas d'une manière ou d'une autre du devoir de valider psychométriquement vos évaluations humaines. Autrement dit, les mesures psychométriques doivent encore être vérifiées pour leur validité et leur fiabilité si vous espérez effectuer des recherches avec une telle rigueur scientifique. Quels facteurs latents déterminent le choix de l'histoire a sur l'histoire B? Cela correspond-il à ce que vous aviez l'intention de mesurer (validité)? Dans quelle mesure les résultats sont-ils fiables? Les évaluateurs sont-ils généralement d'accord sur la même histoire étant meilleure que l'autre (fiabilité)? La validité peut être très difficile à vérifier avec une conception de comparaison par paire, tandis que la fiabilité pourrait être contrôlée relativement facilement avec des mesures de fiabilité inter-évaluateurs (la plupart de ces mesures pourraient être calculées à la main si besoin est). Pourtant, je n'ai pas rencontré un seul article de la recherche sur l'IA qui a signalé une analyse psychométrique de leur instrument.
Bien sûr, je ne dis pas que vous ne devriez jamais utiliser de conceptions de comparaison par paire. Il existe des forces de telles conceptions: les mesures sont plus proches d'une mesure «comportementale», car les gens ont en fait choisi une histoire plutôt que l'autre. C'est un avantage si vous êtes intéressé à étudier ou à prédire le comportement (comme choisir un modèle par rapport à un autre). Cependant, de nombreuses théories feront de nombreuses hypothèses explicites ou implicites sur les attributs sous-jacents des histoires qui mènent à un tel choix. Si vous souhaitez tester ces théories, vous devez être en mesure de mesurer ces attributs. Les comparaisons par paires ne seront souvent pas la conception de l'étude idéale pour cela.
Si vous souhaitez étudier les incohérences logiques dans des extraits courts, utilisez des extraits courts. Je m'intéresse aux impressions plus mondiales des textes générés par l'IA. Par conséquent, j'ai d'abord utilisé des extraits plus longs.
Je ne suis pas d'accord cependant que les gens sont mauvais pour obtenir une vue d'ensemble des histoires. Je pense que si vous laissez les gens lire un extrait un peu plus long (par exemple une lecture de 5 minutes) à partir d'une histoire écrite par le modèle de langue, ils reparteront avec une certaine impression de ce texte. Cette impression différera en fonction des particularités du modèle utilisé pour générer l'extrait. Je pense que ces différences sont intéressantes et significatives à étudier, et il serait regrettable que ces différences ne soient jamais étudiées parce que tout ce qui est jamais examiné sont des extraits courts.
Je dirais que mes données sont d'accord avec moi, BTW: pour les évaluations d'extraits d'histoire plus longs, j'ai trouvé beaucoup de variance dans les données qui se réduisent de manière significative autour de certains facteurs d'histoire.
Ce modèle de mesure est connu sous le nom de modèle de mesure réflexive: les constructions sont supposées provoquer des indicateurs (réponses aux questions). Le revers serait un modèle de mesure formatif. Cependant, je considère qu'un modèle de mesure réflexive est plus approprié pour les hypothèses que les chercheurs impliquaient lors de la collecte d'évaluations humaines, et je ne dirai donc pas davantage au modèle de mesure formatif. ↩
Certes, cela n'a pas beaucoup d'importance dans ce cas, car aucun de ces articles n'a jamais été vérifié pour leur qualité psychométrique. ↩
Cependant, quand je dis «lent», je veux dire vraiment lent - c'est toujours un projet de passe-temps! ↩