A pesquisa sobre a avaliação de histórias geradas pela IA ainda não adotou uma escala psicometricamente validada para avaliações humanas. Isso representa uma séria ameaça à validade e confiabilidade dos achados da pesquisa, pois as medidas existentes podem não capturar com precisão os conceitos pretendidos ou não os capturam de maneira confiável o suficiente para que os resultados sejam significativos. A escala da história da IA (AISS) aborda essa lacuna, fornecendo uma escala de classificação confiável e válida que se baseia em pesquisas empíricas e melhores práticas psicométricas, permitindo que pesquisadores e profissionais avaliem a qualidade e a natureza das histórias geradas pela IA com confiança.
Os modelos de linguagem em larga escala (LLMS) são incríveis! Os rápidos avanços dessa tecnologia nos últimos anos só podem ser descritos como verdadeiramente de tirar o fôlego (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). Até o momento da redação deste artigo (junho de 2023), ferramentas como ChatGPT, GPT-4 e outros modelos emergentes continuam a fazer manchetes e capturar a imaginação pública (por exemplo, Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023). Esses modelos são capazes de feitos notáveis, demonstrando proficiência impressionante para tarefas tão complexas e multifacetadas quanto histórias (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
De fato, a narrativa gerada pela IA está sendo adotada cada vez mais em vários setores. Na indústria do entretenimento, a IA está sendo usada para roteiros e narrativas. No setor de redação e autoria, os geradores de histórias da IA estão se tornando ferramentas populares para os escritores, oferecendo maneiras inovadoras de superar o bloqueio do escritor e encontrar inspiração para seu trabalho.
No entanto, por mais impressionantes que sejam as implementações existentes, as práticas de avaliação para texto gerado foram identificadas como falhas, com estudos geralmente não satisfazendo os requisitos básicos para a sólida ciência empírica (Gehrmann, Clark & Sellam, 2023). Esta é uma questão urgente; Particularmente porque os modelos de geração neural melhoraram até o ponto em que suas saídas geralmente não podem mais ser distinguidas com base nas características do nível da superfície em que as métricas mais antigas dependem. Mesmo medidas que tentam se aprofundar, como avaliações humanas, sofrem de graves deficiências. Um dos mais críticos deles é normalmente negligenciado em pesquisas sobre grandes modelos de idiomas e a IA de maneira mais geral: a falta de validação psicométrica.
A validação psicométrica é essencial para garantir que um instrumento mede qualquer coisa significativa e que o faça com precisão. Essa falta de validação é uma ameaça premente à validade da pesquisa nesse campo. É essa questão que a escala da história da IA (AISS) pretende abordar. O AISS fornece uma base sólida para medir a qualidade e a natureza das histórias geradas pela IA, oferecendo uma solução para as deficiências das medidas atuais para a avaliação de histórias humanas. Ao fornecer uma ferramenta confiável e validada para avaliar histórias geradas pela IA, o AISS pode ajudar pesquisadores e profissionais a entender melhor as capacidades e as limitações de diferentes modelos e configurações de geração.
Eu suspeito que muitos leitores neste momento possam estar pensando: "Psicométrico e agora?". Se for você, você pode ser cético em relação à necessidade de mais uma maneira de avaliar o texto gerado pela IA. Entendo.
No entanto, tenha paciência comigo - vou tentar explicar por que isso é tão importante e como a escala da história da IA pode fazer uma diferença significativa no campo.
Nesta seção, passarei rapidamente pelas abordagens atuais para avaliar uma história gerada por um modelo generativo. Também tentarei estabelecer por que acho que os pesquisadores podem lucrar com a adição da escala da história da IA ao arsenal das métricas de avaliação.
As avaliações automáticas são uma abordagem comum para avaliar o desempenho dos modelos de idiomas. Essas avaliações geralmente envolvem comparar a saída de um modelo com um texto de referência ou "verdade do solo". Aqui estão algumas das métricas de avaliação automática mais usadas:
Métricas como Bleu (Papineni et al., 2002), Rouge (Lin, 2004) e Meteor (Banerjee & Lavie, 2005) comparam o texto gerado com um texto de referência medindo a sobreposição de gramas (sequência contígua de n itens de uma amostra de texto). Essas métricas foram originalmente projetadas para tradução da máquina e são úteis para medir o ajuste da história gerada em relação a um padrão -ouro. No entanto, eles se concentram principalmente nos recursos de texto no nível da superfície e podem não capturar completamente a qualidade das histórias geradas.
Métodos de avaliação mais recentes, como Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) e Piqa (Bisk et al., 2020), visam testar a capacidade de um modelo de capturar o contexto mais amplo e as habilidades de raciocínio do senso comum. Lambada avalia a capacidade de um modelo de prever a palavra final em uma frase, dado seu contexto, enquanto o Hellaswag e o PIQA testam a capacidade de um modelo de fazer previsões de bom senso. Embora esses métodos forneçam informações interessantes sobre as habilidades de raciocínio de um modelo, elas não avaliam diretamente a qualidade das histórias geradas.
As avaliações automáticas oferecem a vantagem de serem rápidas, escaláveis e objetivas. No entanto, embora essas avaliações sejam ferramentas valiosas na avaliação dos modelos de idiomas, elas têm limitações quando se trata de avaliar a qualidade das histórias geradas. Eles geralmente se concentram em aspectos específicos da geração de idiomas e podem não capturar completamente a riqueza, a criatividade e a coerência narrativa que são cruciais na narrativa. É aqui que a avaliação humana e a escala da história da IA entram em jogo.
Uma abordagem diferente é usar juízes humanos para avaliar uma história (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). Afinal, o objetivo final da geração de histórias por modelos de idiomas é produzir histórias convincentes e envolventes que as pessoas gostam de ler e apreciar. Não é natural usar os seres humanos como nossa medida final de qualidade da história?
Pessoalmente, acredito que a avaliação humana de histórias geradas pela IA merece muita atenção. Pode ser usado não apenas para medir a 'qualidade geral' das histórias, mas também para ajudar a entender que tipo de histórias diferentes modelos provavelmente produzirão e como eles diferem. Também pode ser usado para explorar como a qualidade da história muda através das gerações, à medida que ajustamos a arquitetura ou os hiperparâmetros de um modelo.
As medidas existentes representam um primeiro passo importante para capturar como os humanos experimentam histórias escritas por modelos de idiomas. No entanto, acho que eles poderiam se beneficiar de serem mais refinados e estendidos. Mas não vamos nos seguir. Antes de revisarmos os instrumentos existentes para avaliação humana, estabelecemos o que realmente gostaríamos de uma escala que medindo a experiência subjetiva da história primeiro.
Como se vê, medir qualquer coisa de humanos irritantes é confuso. Especialmente quando se trata de estados internos. Por estados internos, quero dizer a experiência humana que não é diretamente acessível por observação. São coisas estranhas como humor, opiniões, atitudes, crenças ou preferências. Para que pareça ainda mais complicado do que já é, os psicólogos chamam essas coisas de 'construções latentes' (ou apenas 'construções') ou 'variáveis latentes'. As variáveis latentes não são diretamente observáveis, mas devem ser inferidas de outras observações - por exemplo, que opção alguém escolhe em uma pergunta como "em uma escala de 1 a 5, quão interessante é essa história?".
Pode -se pensar que a maneira como medimos essas variáveis seria direta: queremos saber o quão interessante é a história. Então, apenas perguntamos a uma pessoa como eles encontraram a história e depois a média de todos os participantes. Feito, vamos seguir em frente!
No entanto, a medição de variáveis latentes vem com seus próprios desafios únicos; Desafios que os pesquisadores não estão familiarizados com as peculiaridades da medição de estados internos podem não ter conhecimento. No entanto, ignore esses problemas por sua própria conta e risco! A medição descuidada dos estados internos pode levar a resultados muito tendenciosos e potencialmente sem sentido!
Felizmente, existe um campo que estudou esse problema para decedes: psicometria. É uma disciplina que desenvolveu várias ferramentas para medir construções latentes, bem como uma teoria rica sobre os tipos de erros que podem ocorrer nessas medições e como reduzi-las (para uma introdução, ver, 2011; el; Exorto os pesquisadores de IA a levar a sério a medição de avaliações humanas e a levar as lições aprendidas pela psicometria. Dessa forma, a pesquisa de IA pode lucrar com décadas de trabalho duro de psicólogos e estatísticos para melhorar a maneira como medimos o que importa para os seres humanos-como a qualidade das histórias geradas pela IA.
As idéias da teoria da medição podem nos ajudar a estarmos cientes de possíveis armadilhas ao medir construções latentes. Considere primeiro, o que é implicitamente assumido quando medimos algo como 'interessante' perguntando "em uma escala de 1 a 5, quão interessante é essa história?":
Os problemas com esse processo podem surgir em pontos diferentes, mas geralmente são colocados em duas categorias: validade e confiabilidade .
Ambos os conceitos têm muitos aspectos, e não posso cobrir todo o espectro de pesquisas sobre esses tópicos aqui. Abaixo, darei um resumo bastante simplista das principais idéias. Para uma cobertura mais detalhada, consulte, por exemplo, Drost (2011), Wolming e Wikström (2010) e Meyer (2010).
Um instrumento válido mede o construto que ele realmente pretende medir. Uma medida inválida não fornece medição do construto pretendido. Questões com validade podem surgir por uma infinidade de razões.
Por exemplo, as pessoas podem simplesmente não considerar a 'interessante' seu próprio critério independente ao julgar histórias. Ou seja, embora possa parecer plausível em teoria, a interessante pode acabar por não existir significativamente como uma construção no mundo real. Respostas à pergunta "Quão interessante é essa história?" Em vez disso, pode ser previsto por uma mistura de outros fatores (por exemplo, a criatividade percebida da história).
Como alternativa, a 'interessante' pode ser uma construção significativa no mundo real, mas nossas perguntas por qualquer motivo simplesmente deixam de capturá -lo e medir outra coisa. Digamos, tentamos medir a 'interessante' perguntando: "Essa história era morder as unhas?". A questão pode acabar para medir uma combinação de tom e ritmo.
Medidas com validade questionável são uma séria ameaça à integridade dos resultados da pesquisa (Flake & Fried, 2020)! Pior ainda, os campos inteiros podem ser desviados, se as estruturas teóricas forem construídas sobre os resultados de medidas inválidas. Imagine otimizar modelos para produzir histórias 'interessantes', quando todas as medidas para 'interessante' acabam sendo inválidas (ou seja, medindo outra coisa). Os modelos serão otimizados para alguma coisa , mas para o que exatamente será muito mal compreendido.
Uma medida confiável captura o que mede com precisão. Se o usarmos repetidamente no mesmo objeto, podemos esperar obter um resultado semelhante a cada vez com pouco erro de medição. Um instrumento não confiável carece de precisão e pode ser basicamente inútil se o problema for grave. Ou seja, a confiabilidade descreve o grau de erro de medição de uma medida.
Se as pontuações que estamos obtendo de uma medida variam muito, talvez não importa se medir o que deve medir ou não - simplesmente não podemos confiar nos resultados que estamos obtendo. Em outras palavras, queremos que uma medida seja válida e confiável.
© Nevit Dilmen
Então, como garantemos que nossa medida para classificações humanas seja válida e confiável? A resposta é geralmente: usando técnicas psicométricas para validar questionários com dados do mundo real.
Idealmente, uma abordagem sistemática e rigorosa é adotada a partir da construção da medida. Um bom resumo das melhores práticas de acordo com as idéias da pesquisa psicométrica pode, por exemplo, ser encontrada em Boateng et al. (2018) e Hinkin (1998).
Uma visão geral muito breve (e provavelmente excessivamente superficial) do processo:
Agora, abordamos terreno suficiente, para discutir as questões em potencial das medidas existentes para a qualidade da história. Em resumo, vejo deficiências metodológicas e problemas potencialmente graves com as medidas existentes.
Para minha consciência, nenhum dos instrumentos para avaliações humanas de histórias geradas pela IA foi avaliado se realmente medem algo significativo (validade de teste) ou por sua precisão (confiabilidade do teste). Como acabei de discutir, isso representa uma séria ameaça à utilidade dessas medidas.
Além disso, é muito comum no campo para cada conceito (como 'contextualidade local' ou 'gozabilidade') ser medido com um único item (por exemplo, Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). A medição de construções latentes bastante abstratas com apenas um item é conhecido por ter custos psicométricos graves (Furr, 2011): por um lado, é provável que itens únicos sejam muito imprecisos e não capturem toda a amplitude do construto. Talvez o mais importante é que muitas técnicas para avaliar a qualidade da medida não estão disponíveis ou difíceis com um único item. 2 Por esses motivos, as diretrizes psicométricas estabelecidas geralmente recomendam 4-6 itens por construção para uma avaliação e medição psicométrica confiável (por exemplo, Hinkins et al., 1998).
Os instrumentos existentes estabeleceram claramente as bases para avaliar a qualidade e a natureza das histórias geradas pela IA. Mas, como vimos na seção anterior, eles atualmente o fazem correndo o risco de produzir resultados tendenciosos e enganar idéias teóricas. Embora eu não queira tirar o trabalho deles, acredito que eles se beneficiariam de serem validados mais completamente contra os princípios de psicometria estabelecidos.
Meu instrumento proposto para avaliar histórias geradas pela IA foi desenvolvido de acordo com as melhores práticas para a construção da escala: a escala da história da IA (AISS). Atualmente, é o único questionário para classificar histórias geradas pela IA baseadas em análises empíricas. Ele deve fornecer um instrumento robusto para entender como diferentes modelos de linguagem e hiperparâmetros influenciam a experiência das pessoas da produção de história resultante. Você pode encontrar o instrumento aqui.
Vou tentar melhorar e expandir lentamente essa escala com novos dados. 3 links para meus estudos sobre o AISS:
O estudo inicial para redigir os itens para o AISS e explorar sua estrutura fatorial. Com base nos resultados deste estudo, construí a versão do AISS.
Ele também contém algumas análises de prova de conceito para mostrar como o AISS pode ser usado para obter uma compreensão mais detalhada de como diferentes configurações de geração podem levar a diferentes tipos de histórias.
Vá para a página principal do repositório, se você já não estiver lá, e olhe para a direita para o campo 'Sobre'. Clique na linha que diz 'citar este repositório'.
Não foi isso que eu disse. Eu disse que não há escalas que foram psicometricamente validadas . Estou ciente de alguns instrumentos que foram usados para avaliar histórias geradas pela IA. No entanto, nenhum deles foi avaliado quanto à sua qualidade psicométrica. Não sabemos quais critérios que a maioria das pessoas usa ao responder a perguntas dessas escalas e se esses critérios correspondem às intenções dos autores da respectiva escala. Não sabemos o quão confiáveis são os resultados das escalas. Esse é um problema sério, pois significa que não podemos ter certeza de que os resultados que obtemos desses instrumentos são realmente significativos. Para uma cartilha sobre essas edições, releia esta seção e dê uma olhada nas referências que vinculei.
Obviamente, se eu estiver errado e alguma escala foi psicometricamente validada para a pesquisa de IA, ficaria emocionado ao saber disso. Por favor, por favor, por favor me avise!
As comparações pareadas representam um design de pesquisa diferente com diferentes fraquezas e pontos fortes. A escolha entre um design de comparação em pares e avaliações de histórias únicas deve, portanto, depender da questão da pesquisa em questão. Aconselhar apenas comparações pareadas sempre , parece-me muito mal aconselhado para mim, no entanto.
As comparações pareadas fornecerão dados dicotômicos (história escolhida? A/B). Os dados dicotômicos, por definição, carregam menos informações do que uma opção, digamos, uma escala Likert de 5 pontos. Isso significa que você precisa necessariamente sacrificar algum poder estatístico com esse design (ou melhor, você estará limitado a métodos de análise com menor poder estatístico).
Além disso, as opções da comparação em pares são ainda mais difíceis de investigar para os construtos subjacentes que explicam as respostas. Por que os participantes selecionaram uma história sobre a outra? Que critérios eles usaram? O que eles gostaram de uma história e não gostaram do outro? Essas são perguntas que são muito difíceis de responder quando tudo o que você tem é uma única escolha da história, versus história B.
Também quero ressaltar que, apenas porque você está usando um design de comparação em pares, isso não alivia de alguma forma o dever de validar psicometricamente suas avaliações humanas. Ou seja, as medições psicométricas ainda precisam ser verificadas quanto à sua validade e confiabilidade, se você espera realizar pesquisas com qualquer fragmento de rigor científico. Quais fatores latentes determinam a escolha da história a Over Story B? Isso corresponde ao que você pretendia medir (validade)? Quão confiáveis são os resultados? Os avaliadores geralmente concordam que a mesma história é melhor que a outra (confiabilidade)? A validade pode ser muito difícil de verificar com um projeto de comparação em pares, enquanto a confiabilidade pode ser controlada para relativamente facilmente com medidas para confiabilidade entre avaliadores (a maioria dessas medidas pode ser calculada manualmente, se necessário). No entanto, não encontrei um único artigo da IA Research que relatou qualquer análise psicométrica de seu instrumento.
Obviamente, não estou dizendo que você nunca deve usar projetos de comparação em pares. Existem pontos fortes de tais projetos: as medidas estão mais próximas de uma medida "comportamental", pois as pessoas realmente escolheram uma história em detrimento da outra. Essa é uma vantagem se você estiver interessado em estudar ou prever o comportamento (como escolher um modelo em detrimento de outro). No entanto, muitas teorias farão muitas suposições explícitas ou implícitas sobre os atributos subjacentes das histórias que levam a essa escolha. Se você deseja testar essas teorias, precisa medir esses atributos. As comparações pareadas geralmente não serão o desenho ideal do estudo para isso.
Se você deseja estudar inconsistências lógicas em trechos curtos, use trechos curtos. Estou interessado em impressões mais globais de textos gerados pela IA. Portanto, inicialmente usei trechos mais longos.
Eu discordo, porém, que as pessoas são ruins em ter uma imagem geral das histórias. Eu acho que se você deixar as pessoas lerem um trecho um pouco mais longo (por exemplo, uma leitura de 5 minutos) de uma história escrita pelo modelo de idioma, elas vão embora com uma certa impressão desse texto. Essa impressão será diferente dependendo das peculiaridades do modelo usado para gerar o trecho. Eu acho que essas diferenças são interessantes e significativas de estudar, e seria lamentável se essas diferenças nunca fossem estudadas, porque tudo o que já é visto são trechos curtos.
Eu argumentaria que meus dados concordam comigo, btw: para avaliações de trechos mais longos, encontrei muita variação nos dados que se agrupam significativamente em torno de certos fatores da história.
Este modelo de medição é conhecido como modelo de medição reflexivo: assume -se que os construtos causam indicadores (respostas às perguntas). O lado do flip seria um modelo de medição formativo. No entanto, considero que um modelo de medição reflexivo é mais apropriado para as suposições que os pesquisadores implicam ao coletar avaliações humanas, e, portanto, não darei uma consideração adicional ao modelo de medição formativo. ↩
É certo que isso não importa muito neste caso, pois nenhum desses itens foi verificado quanto à sua qualidade psicométrica. ↩
No entanto, quando digo 'lento', quero dizer muito lento - este ainda é um projeto de hobby meu! ↩