Untersuchungen zur Bewertung von Geschichten mit AI-generierten Geschichten haben noch keine psychometrisch validierte Skala für menschliche Bewertungen angenommen. Dies stellt eine ernsthafte Bedrohung für die Gültigkeit und Zuverlässigkeit von Forschungsergebnissen dar, da bestehende Maßnahmen die beabsichtigten Konzepte möglicherweise nicht genau erfassen oder sie nicht zuverlässig genug erfassen, damit die Ergebnisse sinnvoll sind. Die AI Story Scale (AISS) befasst sich mit dieser Lücke, indem sie eine zuverlässige und gültige Bewertungsskala bereitstellt, die sich auf empirische Forschung und beste psychometrische Praktiken stützt und es Forschern und Praktikern ermöglicht, die Qualität und Art von Geschichten von AI-generierten Geschichten mit Zuversicht zu bewerten.
Große Sprachmodelle (LLMs) sind großartig! Die schnellen Fortschritte dieser Technologie in den letzten Jahren können nur als wirklich atemberaubend bezeichnet werden (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). Zum Zeitpunkt des Schreibens (Juni 2023) machen Tools wie Chatgpt, GPT-4 und andere aufstrebende Modelle weiterhin Schlagzeilen und erfassen die öffentliche Vorstellungskraft (z. B. Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023). Diese Modelle sind in der Lage, bemerkenswerte Leistungen zu erzielen, was eine beeindruckende Kenntnis der Aufgaben zeigt, die so komplex und facettenreich wie das Geschichtenerzählen (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
Tatsächlich wird Ai-Generated Storytelling in verschiedenen Branchen immer mehr übernommen. In der Unterhaltungsindustrie wird AI für das Drehbuchauto- und Geschichtenerzählen verwendet. Im Schreib- und Autorship -Sektor werden AI -Story -Generatoren zu populären Tools für Schriftsteller und bieten innovative Möglichkeiten, den Block des Schriftstellers zu überwinden und Inspiration für ihre Arbeit zu finden.
So beeindruckend die vorhandenen Implementierungen auch sind, die Evaluierungspraktiken für generierten Text wurden als fehlerhaft identifiziert. Studien erfüllen häufig nicht selbst grundlegende Anforderungen für solide empirische Wissenschaft (Gehrmann, Clark & Sellam, 2023). Dies ist ein dringendes Problem; Zumal die Modelle der neuronalen Generation bis zu dem Punkt verbessert haben, an dem ihre Ausgaben oft nicht mehr auf der Grundlage der Merkmale auf Oberflächenebene unterschieden werden können, auf die ältere Metriken angewiesen sind. Sogar Maßnahmen, die versuchen, tiefer zu wechseln, wie z. B. menschliche Bewertungen, leiden unter schwerwiegenden Mängel. Eines der kritischsten dieser ist eine, die in der Erforschung von großsprachigen Modellen und KI im Allgemeinen übersehen wird: das Fehlen einer psychometrischen Validierung.
Die psychometrische Validierung ist unerlässlich, um sicherzustellen, dass ein Instrument überhaupt etwas Sinnvolles misst und dies mit Präzision tut. Diese mangelnde Validierung ist eine dringende Bedrohung für die Gültigkeit der Forschung in diesem Bereich. Es ist diese Ausgabe, die die AI Story Scale (AISS) anstreben soll. Die AISS bietet eine solide Grundlage für die Messung der Qualität und Art von Geschichten von AI-generierten und bietet eine Lösung für die Mängel der aktuellen Maßnahmen für die Bewertung der menschlichen Geschichte. Durch die Bereitstellung eines zuverlässigen und validierten Instruments zur Bewertung von Geschichten von AI-generierten kann die AISs Forschern und Praktikern helfen, die Fähigkeiten und Einschränkungen verschiedener Modelle und Erzeugungseinstellungen besser zu verstehen.
Ich vermute, dass viele Leser zu diesem Zeitpunkt vielleicht denken: "Psychometrisch was jetzt?". Wenn Sie das sind, sind Sie möglicherweise skeptisch gegenüber der Notwendigkeit einer weiteren Art der Bewertung von AI -generierten Text. Ich verstehe es.
Beschäftige mich jedoch mit mir - ich werde versuchen zu erklären, warum dies so wichtig ist und wie die KI -Story -Skala einen signifikanten Unterschied im Feld bewirken könnte.
In diesem Abschnitt werde ich schnell die aktuellen Ansätze durchlaufen, um eine von einem generative Modell generierte Geschichte zu bewerten. Ich werde auch versuchen, festzustellen, warum ich denke, dass Forscher von der Hinzufügung der KI -Story -Skala zum Arsenal der Bewertungsmetriken profitieren können.
Automatische Bewertungen sind ein gemeinsamer Ansatz zur Beurteilung der Leistung von Sprachmodellen. Diese Bewertungen umfassen typischerweise den Vergleich der Ausgabe eines Modells mit einem Referenz- oder "Grundwahrheits -Text". Hier sind einige der am häufigsten verwendeten automatischen Bewertungsmetriken:
Metriken wie Bleu (Papineni et al., 2002), Rouge (Lin, 2004) und Meteor (Banerjee & Lavie, 2005) vergleichen den generierten Text mit einem Referenztext durch Messung der Überlappung von n-Gramms (zusammenhängende Abfolge von N-Elementen aus einem bestimmten Textprobe). Diese Metriken wurden ursprünglich für die maschinelle Übersetzung entwickelt und sind nützlich, um die Anpassung der erzeugten Geschichte gegen einen Goldstandard zu messen. Sie konzentrieren sich jedoch hauptsächlich auf Textmerkmale auf Oberflächenebene und erfassen möglicherweise die Qualität erzeugter Geschichten nicht vollständig.
Neuere Bewertungsmethoden wie Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) und PIQA (Bisk et al., 2020) zielen darauf ab, die Fähigkeit eines Modells zu testen, einen breiteren Kontext und die Fähigkeit zur Begründung des gesunden Menschenverstandes zu erfassen. Lambada bewertet die Fähigkeit eines Modells, das endgültige Wort in einem Satz angesichts seines Kontextes vorherzusagen, während Hellaswag und PIQA die Fähigkeit eines Modells testen, Prognosen für den gesunden Menschenverstand zu treffen. Während diese Methoden interessante Einblicke in die Argumentationsfähigkeiten eines Modells bieten, bewerten sie die Qualität erzeugter Geschichten nicht direkt.
Automatische Bewertungen bieten den Vorteil, schnell, skalierbar und objektiv zu sein. Obwohl diese Bewertungen wertvolle Instrumente bei der Bewertung von Sprachmodellen sind, haben sie Einschränkungen, wenn es darum geht, die Qualität der generierten Geschichten zu bewerten. Sie konzentrieren sich häufig auf bestimmte Aspekte der Sprachgenerierung und erfassen möglicherweise nicht vollständig den Reichtum, die Kreativität und die narrative Kohärenz, die für das Geschichtenerzählen von entscheidender Bedeutung sind. Hier kommen die menschliche Bewertung und die KI -Story -Skala ins Spiel.
Ein anderer Ansatz besteht darin, menschliche Richter zu verwenden, um eine Geschichte zu bewerten (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). Das Endziel der Geschichtenerzeugung durch Sprachmodelle ist es schließlich, überzeugende und engagierte Geschichten zu produzieren, die Menschen gerne lesen und genießen. Ist es dann nicht natürlich, Menschen als unser ultimatives Maß für die Qualität der Geschichte zu verwenden?
Persönlich glaube ich, dass die menschliche Bewertung von Geschichten von Ai-Generierten ernsthafte Aufmerksamkeit verdient. Es könnte verwendet werden, um nicht nur die „Gesamtqualität“ von Geschichten zu messen, sondern auch zu verstehen, welche Art von Geschichten verschiedene Modelle wahrscheinlich produzieren und wie sie sich unterscheiden. Es könnte auch verwendet werden, um zu untersuchen, wie sich die Qualität der Story -Qualität über Generationen hinweg ändert, wenn wir die Architektur oder Hyperparameter eines Modells optimieren.
Die vorhandenen Maßnahmen sind ein wichtiger erster Schritt, um festzustellen, wie Menschen Geschichten erleben, die von Sprachmodellen geschrieben wurden. Ich denke jedoch, dass sie davon profitieren könnten, weiter zu verfeinern und zu erweitern. Aber lassen Sie uns nicht uns selbst voraus sein. Bevor wir vorhandene Instrumente für die menschliche Bewertung überprüfen, lassen Sie uns feststellen, was wir von einer Skala zuerst messen subjektive Geschichtenerfahrungen wünschen würden.
Wie sich herausstellt, ist es unordentlich, alles von lästigen Menschen zu messen. Besonders wenn es um interne Zustände geht. Mit internen Zuständen meine ich die menschliche Erfahrung, die durch Beobachtung nicht direkt zugänglich sind. Dies sind seltsame Dinge wie Stimmung, Meinungen, Einstellungen, Überzeugungen oder Vorlieben. Damit es noch komplizierter klingt als es bereits ist, nennen Psychologen diese Dinge "latente Konstrukte" (oder nur "Konstrukte") oder "latente Variablen". Latente Variablen sind nicht direkt beobachtbar, müssen jedoch aus anderen Beobachtungen abgeleitet werden - beispielsweise welche Option jemand in einer Frage wie „auf einer Skala von 1 bis 5, wie interessant ist diese Geschichte?“ Ausgewählt werden.
Man könnte denken, dass die Art und Weise, wie wir diese Variablen messen, unkompliziert wäre: Wir möchten wissen, wie interessant die Geschichte ist. Wir fragen also nur eine Person, wie interessant sie die Geschichte gefunden und dann durchschnittlich alle Teilnehmer überdurchschnittlich sind. Fertig, lass uns weitermachen!
Die Messung von latenten Variablen ist jedoch mit eigenen einzigartigen Herausforderungen verbunden. Herausforderungen, dass Forscher, die mit den Besonderheiten der Messung interner Zustände nicht vertraut sind, nicht bewusst sein könnten. Ignorieren Sie diese Probleme jedoch auf eigene Gefahr! Die unachtsame Messung interner Zustände kann zu sehr voreingenommenen und möglicherweise bedeutungslosen Ergebnissen führen!
Zum Glück gibt es ein Feld, das dieses Problem seit Jahrzehnten untersucht: Psychometrie. Es ist eine Disziplin, die verschiedene Werkzeuge entwickelt hat, um latente Konstrukte zu messen, sowie eine reiche Theorie zu den Arten von Fehlern, die in diesen Messungen auftreten können, und wie man sie reduziert (für eine Einführung, siehe Furr, 2011; El-Den et al., 2020; Flake & 2020, 2020). Ich würde die KI -Forscher fordern, die Messung menschlicher Bewertungen ernst zu nehmen und die von Psychometrie gelernten Lehren zu Herzen zu nehmen. Auf diese Weise könnte die KI-Forschung von jahrzehntelangen harten Arbeiten von Psychologen und Statistikern profitieren, um zu verbessern, wie wir messen, was für den Menschen wichtig ist-wie die Qualität von Geschichten mit AI-generierten.
Erkenntnisse aus der Messtheorie können uns helfen, potenzielle Fallstricke bei der Messung latenter Konstrukte zu bewusst. Bedenken Sie zuerst, was wird implizit angenommen, wenn wir so etwas wie "Interessante" messen, indem wir "auf einer Skala von 1 bis 5, wie interessant ist, ist diese Geschichte?"
Probleme mit diesem Prozess können an verschiedenen Stellen auftreten, werden jedoch im Allgemeinen unter zwei Kategorien gestellt: Gültigkeit und Zuverlässigkeit .
Beide Konzepte haben viele Aspekte, und ich kann hier möglicherweise nicht das gesamte Spektrum der Forschung zu diesen Themen abdecken. Im Folgenden werde ich nur eine ziemlich vereinfachte Zusammenfassung der Hauptideen geben. Für eine detailliertere Berichterstattung siehe zum Beispiel Drost (2011), Wolming und Wikström (2010) und Meyer (2010).
Ein gültiges Instrument misst das Konstrukt, das es tatsächlich messen soll. Eine ungültige Maßnahme liefert keine Messung des beabsichtigten Konstrukts. Probleme mit der Gültigkeit können aus einer Vielzahl von Gründen auftreten.
Zum Beispiel könnten Menschen einfach nicht „interessant“ sein, sein eigenes unabhängiges Kriterium bei der Beurteilung von Geschichten. Das heißt, obwohl es theoretisch plausibel erscheinen könnte, könnte sich Interessantheit als Konstrukt in der realen Welt nicht sinnvoll existieren. Antworten auf die Frage "Wie interessant ist diese Geschichte?" Könnte stattdessen durch eine Mischung anderer Faktoren vorhergesagt werden (z. B. der wahrgenommenen Kreativität der Geschichte).
Alternativ könnte "Interessante" ein sinnvolles Konstrukt in der realen Welt sein, aber unsere Fragen aus irgendeinem Grund können es einfach nicht erfassen und stattdessen etwas anderes messen. Sagen Sie, wir haben versucht, "Interessantheit" zu messen, indem wir gefragt wurden: "War diese Geschichte mit Nagel?". Die Frage könnte stattdessen eine Kombination aus Ton und Tempo messen.
Maßnahmen mit fragwürdiger Gültigkeit sind eine ernsthafte Bedrohung für die Integrität von Forschungsergebnissen (Flake & Fried, 2020)! Schlimmer noch, ganze Felder können in die Irre geführt werden, wenn theoretische Rahmenbedingungen auf Ergebnissen aus ungültigen Maßnahmen basieren. Stellen Sie sich vor, die Modelle zu optimieren, um "interessante" Geschichten zu produzieren, wenn sich alle Maßnahmen für "Interessante" als ungültig herausstellen (dh etwas anderes messen). Modelle werden für etwas optimiert, aber für das, was genau sehr schlecht verstanden wird.
Eine zuverlässige Maßnahme erfasst alles, was es mit Präzision misst. Wenn wir es wiederholt mit demselben Objekt verwenden, können wir erwarten, dass jedes Mal ein ähnliches Ergebnis mit geringem Messfehler erzielt wird. Ein unzuverlässiges Instrument fehlt Präzision und kann im Grunde genommen nutzlos sein, wenn das Problem schwerwiegend ist. Das heißt, Zuverlässigkeit beschreibt den Grad des Messfehlers einer Maßnahme.
Wenn die Punktzahl, die wir aus einer Maßnahme erhalten, stark variieren, ist es möglicherweise egal, ob es misst, was es messen sollte oder nicht - wir können den Ergebnissen, die wir erhalten, einfach nicht vertrauen. Mit anderen Worten, wir möchten, dass eine Maßnahme gültig und zuverlässig ist.
© Nevit Dilmen
Wie können wir also sicherstellen, dass unsere Maßnahme für menschliche Bewertungen gültig und zuverlässig ist? Die Antwort lautet im Allgemeinen: Durch die Verwendung psychometrischer Techniken zur Validierung von Fragebögen mit realen Daten.
Im Idealfall wird ein systematischer und strenger Ansatz ab dem Konstruktion der Maßnahme verfolgt. Eine gute Zusammenfassung der Best Practices gemäß Erkenntnissen aus der psychometrischen Forschung kann beispielsweise in Boateng et al. (2018) und Hinkin (1998).
Ein sehr kurzer (und wahrscheinlich übermäßig oberflächlicher) Überblick über den Prozess:
Wir haben jetzt genug Boden behandelt, um die potenziellen Probleme vorhandener Maßnahmen für die Qualität der Geschichte zu erörtern. Kurz gesagt, ich sehe methodische Mängel und potenziell schwerwiegende Probleme mit den vorhandenen Maßnahmen.
Zu meinem Bewusstsein wurde keines der Instrumente für menschliche Bewertungen von Geschichten von AI-generierten Schichten bewertet, ob sie tatsächlich etwas Sinnvolles (Testvalidität) oder ihre Präzision (Testzuverlässigkeit) messen. Wie ich gerade besprochen habe, ist dies eine ernsthafte Bedrohung für den Nutzen dieser Maßnahmen.
Darüber hinaus ist es für jedes Konzept (z. B. „lokale Kontextualität“ oder „Vergnügen“ sehr häufig, mit einem einzelnen Element zu messen (z. B. Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). Es ist bekannt, dass die Messung ziemlich abstrakter latenter Konstrukte mit nur einem Gegenstand schwerwiegende psychometrische Kosten erhält (Furr, 2011): Zum einen sind einzelne Gegenstände wahrscheinlich sehr ungenau und erfassen nicht die volle Breite des Konstrukts. Vielleicht noch wichtiger ist, dass viele Techniken zur Bewertung der Qualität der Maßnahme bei einem einzigen Gegenstand nicht verfügbar oder schwierig sind. 2 Aus diesen Gründen empfehlen etablierte psychometrische Richtlinien im Allgemeinen 4–6 Elemente pro Konstrukt für eine zuverlässige psychometrische Bewertung und Messung (z. B. Hinkins et al., 1998).
Die vorhandenen Instrumente haben eindeutig den Grundstein für die Bewertung der Qualität und Art von Geschichten von Ai-Generierten gelegt. Wie wir jedoch im vorherigen Abschnitt gesehen haben, tun sie dies derzeit auf das Risiko, voreingenommene Ergebnisse zu erzielen und theoretische Erkenntnisse irreführend zu machen. Obwohl ich ihre Arbeit nicht wegnehmen möchte, glaube ich, dass sie davon profitieren würden, gegen etablierte Psychometrieprinzipien gründlicher zu validieren.
Mein vorgeschlagenes Instrument zur Bewertung von Geschichten von AI-generierten wurde gemäß Best Practices für die Skala-Konstruktion: Die AI Story Scale (AISS). Derzeit ist es der einzige Fragebogen zur Bewertung von Geschichten, die auf empirische Analysen basieren. Es sollte ein robustes Instrument liefern, um zu verstehen, wie unterschiedliche Sprachmodelle und Hyperparameter die Erfahrungen der Menschen mit der resultierenden Geschichte beeinflussen. Hier finden Sie das Instrument.
Ich werde versuchen, diese Skala langsam mit neuen Daten zu verbessern und zu erweitern. 3 Links zu meinen Studien zur AISS:
Die erste Studie zur Erstellung der Artikel für die AISS und die Erforschung ihrer faktoriellen Struktur. Basierend auf den Ergebnissen dieser Studie habe ich die Version der AISS konstruiert.
Es enthält auch einige Beweisanalysen, um zu zeigen, wie die AISS verwendet werden kann, um ein detaillierteres Verständnis dafür zu erlangen, wie unterschiedliche Einstellungen für Generationen zu verschiedenen Arten von Geschichten führen können.
Gehen Sie zur Hauptseite des Repo, wenn Sie noch nicht da sind, und schauen Sie nach rechts zum Feld "About". Klicken Sie auf die Zeile mit der Aufschrift "Zitieren Sie dieses Repository".
Das habe ich nicht gesagt. Ich sagte, es gibt keine Skalen, die psychometrisch validiert wurden. Mir ist ein paar Instrumente bekannt, die zur Bewertung von Geschichten mit den generierten A-generierten verwendet wurden. Keiner von ihnen wurde jedoch auf ihre psychometrische Qualität bewertet. Wir wissen nicht, welche Kriterien die meisten Menschen verwenden, wenn sie Fragen aus diesen Skalen beantworten, und ob diese Kriterien den Absichten der Autoren der jeweiligen Skala übereinstimmen. Wir wissen nicht, wie zuverlässig die Ergebnisse der Skalen sind. Dies ist ein ernstes Problem, da wir nicht sicher sein können, dass die Ergebnisse, die wir aus diesen Instrumenten erzielen, tatsächlich sinnvoll sind. Lesen Sie diesen Abschnitt für eine Grundierung zu diesen Problemen erneut und schauen Sie sich die Referenzen an, die ich verlinkt habe.
Wenn ich falsch liege und ein gewisses Maßstab für die KI -Forschung psychometrisch validiert wurde, wäre ich natürlich begeistert, davon zu hören. Bitte, bitte, bitte lassen Sie es mich wissen!
Paarweise Vergleiche stellen ein anderes Forschungsdesign mit unterschiedlichen Schwächen und Stärken dar. Die Wahl zwischen einem paarweisen Vergleichsdesign gegenüber Bewertungen einzelner Geschichten sollte daher von der vorliegenden Forschungsfrage abhängen. Es scheint mir jedoch sehr schlecht zu beraten, nur paarweise Vergleiche zu beraten.
Paarweise Vergleiche geben Ihnen dichotome Daten (Geschichte aus? A/B). Dichotome Daten enthält per Definition weniger Informationen als eine Wahl aus einer 5-Punkte-Likert-Skala. Dies bedeutet, dass Sie unbedingt eine statistische Macht mit einem solchen Design opfern müssen (oder besser gesagt, Sie werden auf Analysemethoden mit geringerer statistischer Leistung beschränkt).
Darüber hinaus sind die Auswahlmöglichkeiten aus dem paarweisen Vergleich noch schwieriger für die zugrunde liegenden Konstrukte, die die Antworten erklären. Warum haben die Teilnehmer eine Geschichte über die andere ausgewählt? Welche Kriterien haben sie verwendet? Was gefallen ihnen an einer Geschichte gefallen und mochte nicht an der anderen? Dies sind Fragen, die sehr schwer zu beantworten sind, wenn Sie nur eine einzige Auswahl der Geschichte A gegen Geschichte B.
Ich möchte auch darauf hinweisen, dass Sie, nur weil Sie ein paarweise Vergleichsdesign verwenden, Sie nicht von der Pflicht entlastet, Ihre menschlichen Bewertungen psychometrisch zu validieren. Das heißt, psychometrische Messungen müssen weiterhin auf ihre Gültigkeit und Zuverlässigkeit überprüft werden, wenn Sie hoffen, Forschungen mit einem Abschluss wissenschaftlicher Strenge durchzuführen. Welche latenten Faktoren bestimmen die Auswahl der Geschichte A über die Geschichte B? Passt dies mit dem überein, was Sie messen wollten (Gültigkeit)? Wie zuverlässig sind die Ergebnisse? Stimmen die Bewerter im Allgemeinen zu, dass dieselbe Geschichte besser ist als die andere (Zuverlässigkeit)? Die Validität kann sehr schwer bei einem paarweisen Vergleichsdesign zu überprüfen sein, während die Zuverlässigkeit relativ leicht mit Maßnahmen für die Zuverlässigkeit zwischen den Rater kontrolliert werden kann (die meisten dieser Maßnahmen könnten bei Bedarf von Hand berechnet werden). Ich habe jedoch kein einziges Papier aus AI -Forschung gestoßen, in dem eine psychometrische Analyse ihres Instruments gemeldet wurde.
Natürlich sage ich nicht, dass Sie niemals paarweise Vergleichsdesigns verwenden sollten. Es gibt Stärken solcher Entwürfe: Die Maßnahmen sind näher an einer „Verhaltensmessung“, da die Menschen tatsächlich eine Geschichte über die andere ausgewählt haben. Dies ist ein Vorteil, wenn Sie daran interessiert sind, Verhalten zu studieren oder vorherzusagen (z. B. ein Modell über ein anderes auszuwählen). Viele Theorien machen jedoch viele explizite oder implizite Annahmen über die zugrunde liegenden Eigenschaften von Geschichten, die zu einer solchen Wahl führen. Wenn Sie diese Theorien testen möchten, müssen Sie in der Lage sein, diese Attribute zu messen. Paarweise Vergleiche sind dafür oft nicht das ideale Studiendesign dafür.
Wenn Sie logische Inkonsistenzen innerhalb kurzer Snippets untersuchen möchten, verwenden Sie kurze Ausschnitte. Ich interessiere mich für globalere Impressionen aus Ai-generierten Texten. Daher habe ich zunächst längere Auszüge verwendet.
Ich bin jedoch nicht einverstanden, dass die Leute schlecht darin sind, ein großes Bild aus Geschichten zu bekommen. Ich denke, wenn Sie die Leute zulassen, einen etwas längeren Auszug (z. B. eine 5-minütige Lesung) aus einer von Sprachmodell geschriebenen Geschichte zu lesen, werden sie mit einem gewissen Eindruck dieses Textes weggehen. Dieser Eindruck unterscheidet sich in Abhängigkeit von den Besonderheiten des Modells, mit dem der Auszug verwendet wird. Ich denke, diese Unterschiede sind interessant und bedeutungsvoll zu studieren, und es wäre bedauerlich, wenn diese Unterschiede niemals untersucht würden, weil alles, was jemals betrachtet wird, kurze Ausschnitte sind.
Ich würde argumentieren, dass meine Daten mir, übrigens, übereinstimmen: Für Bewertungen längerer Story -Auszüge fand ich viele Abweichungen in den Daten, die sich sinnvoll um bestimmte Story -Faktoren befassen.
Dieses Messmodell wird als Reflektiermessmodell bezeichnet: Konstrukte werden als Indikatoren (Antworten auf Fragen) angenommen. Die Flip -Seite wäre ein formatives Messmodell. Ich betrachte jedoch ein reflektierendes Messmodell als angemessener für die Annahmen, die Forscher beim Sammeln menschlicher Bewertungen implizieren, und ich werde daher das formative Messmodell nicht weiter berücksichtigen. ↩
Zugegebenermaßen spielt dies in diesem Fall keine große Rolle, da keines dieser Artikel jemals auf ihre psychometrische Qualität überprüft wurde. ↩
Wenn ich jedoch "langsam" sage, meine ich sehr langsam - das ist immer noch ein Hobbyprojekt von mir! ↩