Penelitian tentang evaluasi cerita yang dihasilkan AI belum mengadopsi skala yang divalidasi secara psikometrik untuk evaluasi manusia. Ini menimbulkan ancaman serius terhadap validitas dan keandalan temuan penelitian, karena tindakan yang ada mungkin tidak secara akurat menangkap konsep yang dimaksud atau mungkin tidak menangkapnya dengan cukup andal untuk hasil menjadi bermakna. AI Story Scale (AISS) membahas kesenjangan ini dengan memberikan skala penilaian yang andal dan valid yang mengacu pada penelitian empiris dan praktik psikometrik terbaik, memungkinkan para peneliti dan praktisi untuk mengevaluasi kualitas dan sifat cerita yang dihasilkan AI dengan percaya diri.
Model bahasa skala besar (LLM) luar biasa! Kemajuan cepat teknologi ini dalam beberapa tahun terakhir hanya dapat digambarkan sebagai benar -benar menakjubkan (Min et al., 2021; Tang, Guerin, Li & Lin, 2022). Pada saat penulisan (Juni 2023), alat-alat seperti ChatGPT, GPT-4, dan model-model yang muncul lainnya terus menjadi berita utama dan menangkap imajinasi publik (misalnya Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023). Model-model ini mampu melakukan prestasi yang luar biasa, menunjukkan kemahiran yang mengesankan untuk tugas-tugas yang kompleks dan multi-faceted sebagai bercerita (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023).
Faktanya, penceritaan yang dihasilkan AI semakin banyak diadopsi di berbagai industri. Dalam industri hiburan, AI digunakan untuk penulisan naskah dan bercerita. Di sektor penulisan dan kepenulisan, generator cerita AI menjadi alat populer bagi para penulis, menawarkan cara -cara inovatif untuk mengatasi blok penulis dan menemukan inspirasi untuk pekerjaan mereka.
Namun, sama mengesankannya implementasi yang ada, praktik evaluasi untuk teks yang dihasilkan telah diidentifikasi sebagai cacat, dengan studi sering tidak memuaskan bahkan persyaratan dasar untuk ilmu empiris yang sehat (Gehrmann, Clark, & Sellam, 2023). Ini adalah masalah yang mendesak; Khususnya karena model generasi saraf telah meningkat ke titik di mana output mereka seringkali tidak dapat lagi dibedakan berdasarkan fitur tingkat permukaan yang diandalkan metrik yang lebih lama. Bahkan langkah -langkah yang berupaya mempelajari lebih dalam, seperti evaluasi manusia, menderita kekurangan serius. Salah satu yang paling kritis dari ini adalah salah satu yang biasanya diabaikan dalam penelitian tentang model bahasa besar dan AI secara lebih umum: kurangnya validasi psikometrik.
Validasi psikometrik sangat penting untuk memastikan bahwa instrumen mengukur sesuatu yang bermakna sama sekali, dan itu melakukannya dengan presisi. Kurangnya validasi ini merupakan ancaman mendesak terhadap validitas penelitian di bidang ini. Ini adalah masalah yang ingin ditangani oleh AI Story Scale (AISS). AISS memberikan dasar yang kuat untuk mengukur kualitas dan sifat cerita yang dihasilkan AI, menawarkan solusi untuk kekurangan langkah-langkah saat ini untuk evaluasi cerita manusia. Dengan menyediakan alat yang andal dan divalidasi untuk mengevaluasi cerita yang dihasilkan AI, AISS dapat membantu para peneliti dan praktisi lebih memahami kemampuan dan keterbatasan model dan pengaturan generasi yang berbeda.
Saya menduga bahwa banyak pembaca pada saat ini mungkin berpikir, "Psikometri apa sekarang?". Jika itu Anda, Anda mungkin skeptis tentang perlunya cara lain untuk mengevaluasi teks yang dihasilkan AI. Saya mengerti.
Namun, Bear With Me - Saya akan mencoba menjelaskan mengapa ini sangat penting dan bagaimana skala cerita AI dapat membuat perbedaan yang signifikan di lapangan.
Di bagian ini, saya akan dengan cepat menjalankan pendekatan saat ini untuk mengevaluasi cerita yang dihasilkan oleh model generatif. Saya juga akan mencoba untuk menjelaskan mengapa saya pikir para peneliti dapat mengambil untung dari penambahan skala cerita AI ke gudang metrik evaluasi.
Evaluasi otomatis adalah pendekatan umum untuk menilai kinerja model bahasa. Evaluasi ini biasanya melibatkan membandingkan output model dengan referensi atau teks "kebenaran tanah". Berikut adalah beberapa metrik evaluasi otomatis yang paling umum digunakan:
Metrik seperti Bleu (Papineni et al., 2002), Rouge (Lin, 2004), dan Meteor (Banerjee & Lavie, 2005) membandingkan teks yang dihasilkan dengan teks referensi dengan mengukur tumpang tindih N-gram (urutan yang berdekatan dari item N dari sampel teks yang diberikan). Metrik ini awalnya dirancang untuk terjemahan mesin dan berguna untuk mengukur kecocokan cerita yang dihasilkan terhadap standar emas. Namun, mereka terutama fokus pada fitur teks tingkat permukaan dan mungkin tidak sepenuhnya menangkap kualitas cerita yang dihasilkan.
Metode evaluasi yang lebih baru seperti Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019), dan PIQA (Bisk et al., 2020) bertujuan untuk menguji kemampuan model untuk menangkap konteks yang lebih luas dan kemampuan penalaran akal sehat. Lambada mengevaluasi kemampuan model untuk memprediksi kata terakhir dalam sebuah kalimat mengingat konteksnya, sementara Hellaswag dan PIQA menguji kemampuan model untuk membuat prediksi akal sehat. Sementara metode ini memberikan wawasan menarik tentang kemampuan penalaran model, mereka tidak secara langsung mengevaluasi kualitas cerita yang dihasilkan.
Evaluasi otomatis menawarkan keuntungan menjadi cepat, dapat diskalakan, dan objektif. Namun, sementara evaluasi ini adalah alat yang berharga dalam penilaian model bahasa, mereka memiliki keterbatasan dalam hal mengevaluasi kualitas cerita yang dihasilkan. Mereka sering fokus pada aspek spesifik generasi bahasa dan mungkin tidak sepenuhnya menangkap kekayaan, kreativitas, dan koherensi naratif yang sangat penting dalam bercerita. Di sinilah evaluasi manusia dan skala cerita AI ikut berperan.
Pendekatan yang berbeda adalah menggunakan hakim manusia untuk mengevaluasi sebuah cerita (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021). Bagaimanapun, tujuan akhir dari generasi cerita oleh model bahasa adalah untuk menghasilkan cerita yang meyakinkan dan menarik yang suka dibaca dan dinikmati orang. Apakah tidak wajar untuk menggunakan manusia sebagai ukuran utama kualitas cerita kita?
Secara pribadi, saya percaya bahwa evaluasi manusia dari cerita yang dihasilkan AI patut mendapat perhatian serius. Ini dapat digunakan untuk tidak hanya mengukur 'kualitas keseluruhan' cerita, tetapi juga untuk membantu memahami jenis cerita apa yang mungkin diproduksi oleh berbagai model dan bagaimana perbedaannya. Ini juga dapat digunakan untuk mengeksplorasi bagaimana kualitas cerita berubah dari generasi ke generasi saat kami mengubah arsitektur model atau hiperparameter.
Langkah -langkah yang ada merupakan langkah pertama yang penting untuk menangkap bagaimana manusia mengalami cerita yang ditulis oleh model bahasa. Namun, saya pikir mereka bisa mendapat manfaat dari disempurnakan dan diperpanjang lebih lanjut. Tapi jangan maju dari diri kita sendiri. Sebelum kita meninjau instrumen yang ada untuk evaluasi manusia, mari kita buat apa yang sebenarnya kita inginkan dari skala yang mengukur pengalaman cerita subyektif terlebih dahulu.
Ternyata, mengukur apa pun dari manusia sial berantakan. Terutama ketika datang ke negara bagian internal. Dengan keadaan internal, maksud saya pengalaman manusia yang tidak dapat diakses secara langsung dengan pengamatan. Ini adalah hal -hal aneh seperti suasana hati, pendapat, sikap, kepercayaan, atau preferensi. Untuk membuatnya terdengar lebih rumit dari sebelumnya, para psikolog menyebut hal -hal ini 'konstruksi laten' (atau hanya 'konstruksi') atau 'variabel laten'. Variabel laten tidak dapat diamati secara langsung, tetapi harus disimpulkan dari pengamatan lain - misalnya, pilihan apa yang dipilih seseorang pada pertanyaan seperti "dalam skala dari 1 hingga 5, seberapa menarik cerita ini?".
Orang mungkin berpikir bahwa cara kita mengukur variabel -variabel ini akan langsung: kita ingin tahu betapa menariknya ceritanya. Jadi, kami hanya bertanya kepada seseorang seberapa menarik mereka menemukan cerita dan kemudian rata -rata di semua peserta. Selesai, mari kita lanjutkan!
Namun, mengukur variabel laten hadir dengan tantangan uniknya sendiri; Tantangan yang tidak terbiasa dengan para peneliti dengan kekhasan negara -negara internal mungkin tidak disadari. Namun, abaikan masalah ini dengan risiko Anda sendiri! Pengukuran keadaan internal yang ceroboh dapat menyebabkan hasil yang sangat bias dan berpotensi tidak berarti!
Untungnya, ada bidang yang telah mempelajari masalah ini selama beberapa dekade: psikometrik. Ini adalah disiplin yang telah mengembangkan berbagai alat untuk mengukur konstruksi laten, serta teori yang kaya tentang jenis kesalahan yang dapat terjadi dalam pengukuran ini dan bagaimana mengurangi mereka (untuk pengantar, lihat Furr, 2011; El-Den et al., 2020; Flake & Fried, 2020). Saya akan mendesak para peneliti AI untuk mengukur evaluasi manusia dengan serius dan mengambil pelajaran yang dipetik oleh psikometrik ke hati. Dengan cara ini, penelitian AI dapat mengambil untung dari kerja keras selama beberapa dekade oleh psikolog dan ahli statistik untuk meningkatkan bagaimana kita mengukur apa yang penting bagi manusia-seperti kualitas cerita yang dihasilkan AI.
Wawasan dari teori pengukuran dapat membantu kita menyadari potensi jebakan saat mengukur konstruksi laten. Pertimbangkan terlebih dahulu, apa yang secara implisit diasumsikan ketika kita mengukur sesuatu seperti 'menarik' dengan bertanya "dalam skala dari 1 hingga 5, seberapa menarik cerita ini?":
Masalah dengan proses ini dapat muncul pada titik yang berbeda, tetapi umumnya ditempatkan di bawah dua kategori: validitas dan reliabilitas .
Kedua konsep memiliki banyak aspek, dan saya tidak mungkin membahas spektrum penuh penelitian tentang topik -topik ini di sini. Di bawah ini, saya hanya akan memberikan ringkasan yang cukup sederhana dari ide -ide utama. Untuk cakupan yang lebih rinci, lihat misalnya Drost (2011), Wolming dan Wikström (2010) dan Meyer (2010).
Instrumen yang valid mengukur konstruk yang sebenarnya ingin diukur. Ukuran yang tidak valid tidak memberikan pengukuran konstruksi yang dimaksud. Masalah dengan validitas dapat muncul karena banyak alasan.
Sebagai contoh, orang mungkin tidak mempertimbangkan 'menarik' kriteria independennya sendiri ketika menilai cerita. Artinya, sementara itu mungkin tampak masuk akal secara teori, keangkuhan mungkin berubah menjadi tidak ada secara bermakna sebagai konstruksi di dunia nyata. Tanggapan terhadap pertanyaan "Seberapa menarik cerita ini?" Sebaliknya mungkin diprediksi oleh campuran faktor -faktor lain (misalnya, kreativitas cerita yang dirasakan).
Atau, 'menarik' mungkin merupakan konstruksi yang bermakna di dunia nyata, tetapi pertanyaan kami dengan alasan apa pun gagal menangkapnya dan mengukur sesuatu yang lain sebagai gantinya. Katakanlah, kami mencoba mengukur 'ketertarikan' dengan bertanya, "Apakah cerita ini menggigit kuku?". Pertanyaannya mungkin berubah untuk mengukur kombinasi nada dan kecepatan sebagai gantinya.
Langkah -langkah dengan validitas yang dipertanyakan adalah ancaman serius terhadap integritas hasil penelitian (Flake & Fried, 2020)! Lebih buruk lagi, seluruh bidang dapat disesatkan, jika kerangka teori dibangun berdasarkan hasil dari tindakan yang tidak valid. Bayangkan mengoptimalkan model untuk menghasilkan cerita 'menarik', ketika semua langkah untuk 'menarik' ternyata tidak valid (yaitu, mengukur sesuatu yang lain). Model akan dioptimalkan untuk sesuatu , tetapi untuk apa sebenarnya yang akan sangat dipahami.
Ukuran yang andal menangkap apa pun yang diukur dengan presisi. Jika kita menggunakannya berulang kali pada objek yang sama, kita dapat berharap untuk mendapatkan hasil yang sama setiap kali dengan sedikit kesalahan pengukuran. Instrumen yang tidak dapat diandalkan tidak memiliki ketepatan, dan mungkin pada dasarnya tidak berguna jika masalahnya parah. Artinya, keandalan menggambarkan tingkat kesalahan pengukuran suatu ukuran.
Jika skor yang kita dapatkan dari suatu ukuran bervariasi secara liar, mungkin tidak masalah apakah itu mengukur apa yang harus diukur atau tidak - kita tidak bisa mempercayai hasil yang kita dapatkan. Dengan kata lain, kami ingin ukuran menjadi valid dan dapat diandalkan.
© Nevit Dilmen
Jadi, bagaimana kita memastikan bahwa ukuran kita untuk peringkat manusia valid dan dapat diandalkan? Jawabannya secara umum: dengan menggunakan teknik psikometrik untuk memvalidasi kuesioner dengan data dunia nyata.
Idealnya, pendekatan yang sistematis dan ketat diambil mulai dari konstruksi ukuran. Ringkasan praktik terbaik yang baik menurut wawasan dari penelitian psikometrik misalnya dapat ditemukan di Boateng et al. (2018) dan Hinkin (1998).
Tinjauan yang sangat singkat (dan kemungkinan terlalu dangkal) dari proses:
Kami sekarang telah membahas tanah yang cukup, untuk membahas masalah potensial dari langkah -langkah yang ada untuk kualitas cerita. Singkatnya, saya melihat kekurangan metodologis dan berpotensi masalah parah dengan langkah -langkah yang ada.
Untuk kesadaran saya, tidak ada instrumen untuk evaluasi manusia dari cerita yang dihasilkan AI telah dievaluasi apakah mereka benar-benar mengukur sesuatu yang bermakna (pengujian validitas) atau untuk ketepatannya (pengujian keandalan). Seperti yang baru saja saya bahas, ini merupakan ancaman serius terhadap kegunaan langkah -langkah ini.
Selain itu, sangat umum di lapangan untuk setiap konsep (seperti 'kontekstualitas lokal' atau 'kesenangan') untuk diukur dengan satu item (misalnya, Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021). Mengukur konstruksi laten yang cukup abstrak dengan hanya satu item diketahui datang dengan biaya psikometrik yang parah (Furr, 2011): Untuk satu, item tunggal cenderung sangat tidak tepat dan tidak menangkap luasnya konstruk. Mungkin yang lebih penting, banyak teknik untuk mengevaluasi kualitas ukuran tidak tersedia atau sulit dengan satu item. 2 Karena alasan ini, pedoman psikometrik yang ditetapkan umumnya merekomendasikan 4-6 item per konstruksi untuk evaluasi dan pengukuran psikometrik yang andal (misalnya, Hinkins et al., 1998).
Instrumen yang ada telah dengan jelas meletakkan dasar untuk mengevaluasi kualitas dan sifat cerita yang dihasilkan AI. Tetapi seperti yang telah kita lihat di bagian sebelumnya, mereka saat ini melakukannya dengan risiko menghasilkan hasil yang bias dan menyesatkan wawasan teoretis. Meskipun saya tidak ingin mengambil dari pekerjaan mereka, saya percaya mereka akan mendapat manfaat dari lebih divalidasi secara lebih menyeluruh terhadap prinsip -prinsip psikometrik yang mapan.
Instrumen yang saya usulkan untuk mengevaluasi cerita yang dihasilkan AI dikembangkan sesuai dengan praktik terbaik untuk konstruksi skala: skala cerita AI (AISS). Saat ini satu-satunya kuesioner untuk peringkat cerita yang dihasilkan AI berdasarkan analisis empiris. Ini harus memberikan instrumen yang kuat untuk memahami bagaimana berbagai model bahasa dan hiperparameter mempengaruhi pengalaman orang tentang hasil cerita yang dihasilkan. Anda dapat menemukan instrumen di sini.
Saya akan mencoba untuk secara perlahan meningkatkan dan memperluas skala ini dengan data baru. 3 tautan ke studi saya di AISS:
Studi awal untuk menyusun item untuk AIS, dan menjelajahi struktur faktorial mereka. Berdasarkan hasil penelitian ini, saya membangun versi AISS.
Ini juga berisi beberapa bukti analisis konsep untuk menunjukkan bagaimana AISS dapat digunakan untuk mendapatkan pemahaman yang lebih rinci tentang bagaimana pengaturan generasi yang berbeda dapat mengarah pada berbagai jenis cerita.
Pergi ke halaman utama repo jika Anda belum ada di sana, dan lihat ke kanan untuk bidang 'tentang'. Klik garis yang bertuliskan 'CITE Repositori ini'.
Bukan itu yang saya katakan. Saya mengatakan tidak ada skala yang telah divalidasi secara psikometrik . Saya mengetahui beberapa instrumen yang telah digunakan untuk mengevaluasi cerita yang dihasilkan AI. Namun, tidak ada dari mereka yang dievaluasi untuk kualitas psikometrik mereka. Kami tidak tahu kriteria apa yang kebanyakan orang gunakan ketika menjawab pertanyaan dari skala itu, dan jika kriteria tersebut cocok dengan niat penulis skala masing -masing. Kami tidak tahu seberapa andal hasil dari skala. Ini adalah masalah yang serius, karena itu berarti bahwa kita tidak dapat memastikan bahwa hasil yang kita dapatkan dari instrumen ini sebenarnya bermakna. Untuk primer tentang masalah itu, baca kembali bagian ini dan lihat referensi yang saya tautkan.
Tentu saja, jika saya salah dan beberapa skala telah divalidasi secara psikometrik untuk penelitian AI, saya akan senang mendengarnya. Tolong, tolong, tolong beri tahu saya!
Perbandingan berpasangan mewakili desain penelitian yang berbeda dengan kelemahan dan kekuatan yang berbeda. Memilih antara desain perbandingan berpasangan versus evaluasi satu cerita harus tergantung pada pertanyaan penelitian yang dihadapi. Namun , hanya menasihati perbandingan berpasangan, tampaknya sangat keliru bagi saya.
Perbandingan berpasangan akan memberi Anda data dikotomis (cerita yang dipilih? A/B). Data dikotomis menurut definisi membawa lebih sedikit informasi daripada pilihan dari, katakanlah, skala Likert 5 poin. Ini berarti Anda harus mengorbankan beberapa kekuatan statistik dengan desain seperti itu (atau lebih tepatnya, Anda akan terbatas pada metode analisis dengan kekuatan statistik yang lebih rendah).
Selain itu, pilihan dari perbandingan berpasangan bahkan lebih sulit untuk menyelidiki konstruksi yang mendasari yang menjelaskan jawabannya. Mengapa para peserta memilih satu cerita dari yang lain? Kriteria apa yang mereka gunakan? Apa yang mereka sukai dari satu cerita dan tidak suka tentang yang lain? Ini adalah pertanyaan yang sangat sulit dijawab ketika yang Anda miliki hanyalah satu pilihan cerita a versus cerita B.
Saya juga ingin menunjukkan bahwa hanya karena Anda menggunakan desain perbandingan berpasangan, ini entah bagaimana tidak membebaskan Anda dari tugas untuk memvalidasi evaluasi manusia Anda secara psikometri. Artinya, pengukuran psikometrik masih perlu diperiksa untuk validitas dan keandalannya jika Anda berharap untuk melakukan penelitian dengan kerusakan kekakuan ilmiah. Faktor laten apa yang menentukan pilihan cerita A Over Story B? Apakah ini cocok dengan apa yang ingin Anda ukur (validitas)? Seberapa andal hasilnya? Apakah penilai umumnya menyetujui cerita yang sama lebih baik daripada yang lain (keandalan)? Validitas bisa sangat sulit untuk diperiksa dengan desain perbandingan berpasangan, sementara keandalan dapat dikontrol untuk relatif mudah dengan langkah-langkah untuk reliabilitas antar penilai (sebagian besar langkah-langkah tersebut dapat dihitung dengan tangan jika perlu). Namun, saya belum menemukan satu makalah tunggal dari penelitian AI yang telah melaporkan analisis psikometrik instrumen mereka.
Tentu saja, saya tidak mengatakan bahwa Anda tidak boleh menggunakan desain perbandingan berpasangan. Ada kekuatan desain seperti itu: langkah -langkahnya lebih dekat dengan ukuran "perilaku", karena orang benar -benar memilih satu cerita dari yang lain. Ini adalah keuntungan jika Anda tertarik untuk mempelajari atau memprediksi perilaku (seperti memilih satu model dari yang lain). Namun, banyak teori akan membuat banyak asumsi eksplisit atau tersirat tentang atribut cerita yang mendasari yang mengarah pada pilihan seperti itu. Jika Anda ingin menguji teori -teori ini, Anda harus dapat mengukur atribut ini. Perbandingan berpasangan seringkali tidak akan menjadi desain studi yang ideal untuk ini.
Jika Anda ingin mempelajari inkonsistensi logis dalam cuplikan pendek, gunakan cuplikan pendek. Saya tertarik pada lebih banyak kesan global dari teks yang dihasilkan AI. Karena itu, saya awalnya menggunakan kutipan yang lebih lama.
Saya tidak setuju bahwa orang -orang buruk dalam mendapatkan gambaran besar dari cerita. Saya pikir jika Anda membiarkan orang membaca kutipan yang agak lebih lama (misalnya membaca 5 menit) dari sebuah cerita yang ditulis oleh model bahasa, mereka akan pergi dengan kesan teks tertentu. Kesan ini akan berbeda tergantung pada kekhasan model yang digunakan untuk menghasilkan kutipan. Saya pikir perbedaan -perbedaan itu menarik dan bermakna untuk dipelajari, dan akan sangat disayangkan jika perbedaan -perbedaan itu tidak pernah dipelajari karena semua yang pernah dilihat adalah cuplikan pendek.
Saya berpendapat bahwa data saya setuju dengan saya, BTW: untuk evaluasi kutipan cerita yang lebih panjang, saya menemukan banyak varian dalam data yang bertambah bermakna di sekitar faktor cerita tertentu.
Model pengukuran ini dikenal sebagai model pengukuran reflektif: Konstruksi diasumsikan menyebabkan indikator (respons terhadap pertanyaan). Sisi flip akan menjadi model pengukuran formatif. Namun, saya menganggap model pengukuran reflektif lebih tepat untuk asumsi yang disiratkan oleh para peneliti ketika mengumpulkan evaluasi manusia, dan karena itu saya tidak akan memberikan pertimbangan lebih lanjut pada model pengukuran formatif. ↩
Diakui, ini tidak terlalu penting dalam kasus ini, karena tidak satu pun dari barang -barang ini yang pernah diperiksa untuk kualitas psikometrik mereka. ↩
Namun, ketika saya mengatakan 'lambat', maksud saya sangat lambat - ini masih merupakan proyek hobi saya! ↩