การวิจัยเกี่ยวกับการประเมินเรื่องราวที่สร้างขึ้นจาก AI ยังไม่ได้ใช้มาตราส่วนที่ผ่านการตรวจสอบทางจิตวิทยาสำหรับการประเมินของมนุษย์ สิ่งนี้ก่อให้เกิดภัยคุกคามที่ร้ายแรงต่อความถูกต้องและความน่าเชื่อถือของผลการวิจัยเนื่องจากมาตรการที่มีอยู่อาจไม่สามารถจับแนวคิดที่ตั้งใจไว้ได้อย่างถูกต้องหรืออาจไม่จับพวกเขาได้อย่างน่าเชื่อถือพอที่ผลลัพธ์จะมีความหมาย สเกล AI Story (AISS) กล่าวถึงช่องว่างนี้โดยให้ระดับการจัดอันดับที่เชื่อถือได้และถูกต้องซึ่งใช้ในการวิจัยเชิงประจักษ์และการปฏิบัติทางจิตวิทยาที่ดีที่สุดช่วยให้นักวิจัยและผู้ปฏิบัติงานประเมินคุณภาพและธรรมชาติของเรื่องราวที่สร้างขึ้นด้วยความมั่นใจ
โมเดลภาษาขนาดใหญ่ (LLMS) ยอดเยี่ยมมาก! ความก้าวหน้าอย่างรวดเร็วของเทคโนโลยีนี้ในช่วงไม่กี่ปีที่ผ่านมาสามารถอธิบายได้ว่าน่าทึ่งอย่างแท้จริง (Min et al., 2021; Tang, Guerin, Li & Lin, 2022) ในขณะที่เขียน (มิถุนายน 2023) เครื่องมือเช่น Chatgpt, GPT-4 และรุ่นที่เกิดขึ้นใหม่อื่น ๆ ยังคงสร้างพาดหัวข่าวและจับภาพจินตนาการสาธารณะ (เช่น Bubeck et al., 2023, Lee, Bubeck & Petro, 2023, Openai, 2023) โมเดลเหล่านี้มีความสามารถในการแสดงที่น่าทึ่งแสดงให้เห็นถึงความสามารถที่น่าประทับใจสำหรับงานที่ซับซ้อนและมีหลายแง่มุมเช่นการเล่าเรื่อง (Alhussain & Azmi, 2021; Xie, Cohn & Lau, 2023)
ในความเป็นจริงการเล่าเรื่องที่สร้างขึ้นโดย Ai กำลังถูกนำมาใช้มากขึ้นเรื่อย ๆ ในอุตสาหกรรมต่าง ๆ ในอุตสาหกรรมบันเทิง AI กำลังใช้สำหรับการเขียนบทและการเล่าเรื่อง ในภาคการเขียนและการประพันธ์เครื่องกำเนิด AI Story กำลังกลายเป็นเครื่องมือยอดนิยมสำหรับนักเขียนนำเสนอวิธีการที่เป็นนวัตกรรมในการเอาชนะบล็อกของนักเขียนและค้นหาแรงบันดาลใจสำหรับงานของพวกเขา
อย่างไรก็ตามสิ่งที่น่าประทับใจเช่นเดียวกับการใช้งานที่มีอยู่คือแนวทางการประเมินผลสำหรับข้อความที่สร้างขึ้นได้รับการระบุว่ามีข้อบกพร่องโดยการศึกษามักไม่เป็นที่พอใจแม้กระทั่งข้อกำหนดขั้นพื้นฐานสำหรับวิทยาศาสตร์เชิงประจักษ์เสียง (Gehrmann, Clark, & Sellam, 2023) นี่เป็นปัญหาเร่งด่วน โดยเฉพาะอย่างยิ่งเมื่อโมเดลการสร้างระบบประสาทได้รับการปรับปรุงจนถึงจุดที่เอาต์พุตของพวกเขามักจะไม่สามารถแยกแยะได้อีกต่อไปตามคุณสมบัติระดับพื้นผิวที่ตัวชี้วัดที่มีอายุมากกว่าพึ่งพา แม้แต่มาตรการที่พยายามเจาะลึกลงไปเช่นการประเมินของมนุษย์ก็ต้องทนทุกข์ทรมานจากข้อบกพร่องร้ายแรง หนึ่งในสิ่งที่สำคัญที่สุดของสิ่งเหล่านี้คือสิ่งที่มักถูกมองข้ามในการวิจัยเกี่ยวกับแบบจำลองภาษาขนาดใหญ่และ AI โดยทั่วไป: การขาดการตรวจสอบความถูกต้องของไซโครเมทริก
การตรวจสอบความถูกต้องของ Psychometric เป็นสิ่งจำเป็นเพื่อให้แน่ใจว่าเครื่องมือวัดสิ่งใดก็ตามที่มีความหมายเลยและมันก็มีความแม่นยำ การขาดการตรวจสอบนี้เป็นภัยคุกคามที่เร่งด่วนต่อความถูกต้องของการวิจัยในสาขานี้ มันเป็นปัญหานี้ที่สเกลเรื่องราว AI (AISS) มีจุดมุ่งหมายที่จะกล่าวถึง AISS เป็นรากฐานที่มั่นคงสำหรับการวัดคุณภาพและธรรมชาติของเรื่องราวที่สร้างขึ้นโดย AI ซึ่งนำเสนอวิธีแก้ปัญหาข้อบกพร่องของมาตรการปัจจุบันสำหรับการประเมินเรื่องราวของมนุษย์ ด้วยการจัดหาเครื่องมือที่เชื่อถือได้และผ่านการตรวจสอบแล้วสำหรับการประเมินเรื่องราวที่สร้างขึ้น AIS AISS สามารถช่วยนักวิจัยและผู้ปฏิบัติงานเข้าใจความสามารถและข้อ จำกัด ของแบบจำลองที่แตกต่างกันและการตั้งค่ารุ่นที่แตกต่างกัน
ฉันสงสัยว่าผู้อ่านหลายคน ณ จุดนี้อาจคิดว่า "psychometric อะไรตอนนี้?" หากนั่นคือคุณคุณอาจสงสัยเกี่ยวกับความต้องการอีกวิธีหนึ่งในการประเมินข้อความ AI ที่สร้างขึ้น ฉันเข้าใจแล้ว
อย่างไรก็ตามอดทนกับฉัน - ฉันจะพยายามอธิบายว่าทำไมสิ่งนี้จึงสำคัญมากและวิธีที่สเกลเรื่องราว AI สามารถสร้างความแตกต่างอย่างมีนัยสำคัญในสนาม
ในส่วนนี้ฉันจะวิ่งผ่านแนวทางปัจจุบันอย่างรวดเร็วเพื่อประเมินเรื่องราวที่สร้างขึ้นโดยแบบจำลองการกำเนิด ฉันจะพยายามจัดวางสาเหตุที่ฉันคิดว่านักวิจัยสามารถทำกำไรได้จากการเพิ่มสเกลเรื่องราว AI ไปยังคลังแสงของตัวชี้วัดการประเมินผล
การประเมินอัตโนมัติเป็นวิธีการทั่วไปในการประเมินประสิทธิภาพของแบบจำลองภาษา การประเมินเหล่านี้มักจะเกี่ยวข้องกับการเปรียบเทียบผลลัพธ์ของแบบจำลองกับข้อความอ้างอิงหรือข้อความ "ความจริงภาคพื้นดิน" นี่คือตัวชี้วัดการประเมินอัตโนมัติที่ใช้กันมากที่สุด:
ตัวชี้วัดเช่น Bleu (Papineni et al., 2002), Rouge (Lin, 2004), และ Meteor (Banerjee & Lavie, 2005) เปรียบเทียบข้อความที่สร้างขึ้นกับข้อความอ้างอิงโดยการวัดการทับซ้อนของ N-grams (ลำดับที่ต่อเนื่องกันของรายการ N จากตัวอย่างข้อความที่กำหนด) ตัวชี้วัดเหล่านี้ได้รับการออกแบบมาสำหรับการแปลด้วยเครื่องและมีประโยชน์สำหรับการวัดความพอดีของเรื่องราวที่สร้างขึ้นกับมาตรฐานทองคำ อย่างไรก็ตามพวกเขามุ่งเน้นไปที่คุณสมบัติข้อความระดับพื้นผิวเป็นหลักและอาจไม่สามารถจับคุณภาพของเรื่องราวที่สร้างขึ้นได้อย่างเต็มที่
วิธีการประเมินล่าสุดเช่น Lambada (Paperno et al., 2016), Hellaswag (Zellers et al., 2019) และ Piqa (Bisk et al., 2020) ตั้งเป้าหมายที่จะทดสอบความสามารถของแบบจำลองในการจับบริบทที่กว้างขึ้นและความสามารถในการใช้เหตุผลสามัญสำนึก Lambada ประเมินความสามารถของแบบจำลองในการทำนายคำสุดท้ายในประโยคที่ได้รับบริบทในขณะที่ Hellaswag และ PIQA ทดสอบความสามารถของแบบจำลองในการคาดการณ์สามัญสำนึก ในขณะที่วิธีการเหล่านี้ให้ข้อมูลเชิงลึกที่น่าสนใจเกี่ยวกับความสามารถในการใช้เหตุผลของแบบจำลอง แต่พวกเขาไม่ได้ประเมินคุณภาพของเรื่องราวที่สร้างขึ้นโดยตรง
การประเมินอัตโนมัตินำเสนอข้อได้เปรียบของการเป็นอย่างรวดเร็วปรับขนาดได้และมีวัตถุประสงค์ อย่างไรก็ตามในขณะที่การประเมินเหล่านี้เป็นเครื่องมือที่มีค่าในการประเมินแบบจำลองภาษาพวกเขามีข้อ จำกัด เมื่อมันมาถึงการประเมินคุณภาพของเรื่องราวที่สร้างขึ้น พวกเขามักจะมุ่งเน้นไปที่แง่มุมเฉพาะของการสร้างภาษาและอาจไม่ได้รับความร่ำรวยความคิดสร้างสรรค์และการเชื่อมโยงการเล่าเรื่องที่สำคัญในการเล่าเรื่อง นี่คือที่การประเมินของมนุษย์และสเกลเรื่องราวของ AI เข้ามาเล่น
วิธีการที่แตกต่างคือการใช้ผู้พิพากษามนุษย์เพื่อประเมินเรื่องราว (Purdy et al., 2018; Yao et al., 2019; Castricato et al., 2021a; Castricato et al., 2021b; Callan & Foster, 2021) ท้ายที่สุดเป้าหมายสุดท้ายของการสร้างเรื่องราวโดยแบบจำลองภาษาคือการสร้างเรื่องราวที่น่าเชื่อถือและมีส่วนร่วมที่ผู้คนชอบอ่านและเพลิดเพลิน มันไม่ใช่เรื่องธรรมดาที่จะใช้มนุษย์เป็นตัวชี้วัดคุณภาพเรื่องราวที่ดีที่สุดของเราหรือไม่?
โดยส่วนตัวแล้วฉันเชื่อว่าการประเมินเรื่องราวของมนุษย์ที่สร้างขึ้นโดย AI นั้นสมควรได้รับความสนใจอย่างจริงจัง มันสามารถใช้เพื่อไม่เพียง แต่วัด 'คุณภาพโดยรวม' ของเรื่องราว แต่ยังช่วยให้เข้าใจว่า รูปแบบ ของเรื่องราวที่แตกต่างกันมีแนวโน้มที่จะผลิตและวิธีที่แตกต่างกันอย่างไร นอกจากนี้ยังสามารถใช้เพื่อสำรวจว่าคุณภาพของเรื่องราวเปลี่ยนแปลงไปอย่างไรในรุ่นต่างๆในขณะที่เราปรับแต่งสถาปัตยกรรมหรือพารามิเตอร์ของโมเดล
มาตรการที่มีอยู่เป็นขั้นตอนแรกที่สำคัญสำหรับการจับภาพเรื่องราวของมนุษย์ที่เขียนโดยแบบจำลองภาษา อย่างไรก็ตามฉันคิดว่าพวกเขาจะได้รับประโยชน์จากการได้รับการปรับปรุงและขยายเพิ่มเติม แต่อย่าก้าวไปข้างหน้าตัวเอง ก่อนที่เราจะตรวจสอบเครื่องมือที่มีอยู่สำหรับการประเมินผลของมนุษย์ให้เราสร้างสิ่งที่เราต้องการจากการวัดประสบการณ์เรื่องราวส่วนตัวก่อน
เมื่อปรากฎว่าการวัดทุกอย่างจากมนุษย์ที่น่ารำคาญนั้นยุ่งเหยิง โดยเฉพาะอย่างยิ่งเมื่อพูดถึงรัฐภายใน โดยรัฐภายในฉันหมายถึงประสบการณ์ของมนุษย์ที่ไม่สามารถเข้าถึงได้ โดยตรง จากการสังเกต สิ่งเหล่านี้เป็นสิ่งแปลก ๆ เช่นอารมณ์ความคิดเห็นทัศนคติความเชื่อหรือความชอบ เพื่อให้มันฟังดูซับซ้อนกว่าที่เป็นอยู่แล้วนักจิตวิทยาเรียกสิ่งเหล่านี้ว่า 'สิ่งก่อสร้างแฝง' (หรือเพียงแค่ 'สร้าง') หรือ 'ตัวแปรแฝง' ตัวแปรแฝงไม่สามารถสังเกตได้โดยตรง แต่ต้องอนุมานจากการสังเกตอื่น ๆ - ตัวอย่างเช่นตัวเลือกใดที่มีคนเลือกคำถามเช่น“ ในระดับตั้งแต่ 1 ถึง 5 เรื่องนี้น่าสนใจแค่ไหน”
บางคนอาจคิดว่าวิธีที่เราวัดตัวแปรเหล่านี้จะตรงไปตรงมา: เราต้องการทราบว่าเรื่องราวนั้นน่าสนใจแค่ไหน ดังนั้นเราแค่ถามคน ๆ หนึ่งว่าพวกเขาพบเรื่องราวที่น่าสนใจแล้วโดยเฉลี่ยแล้วในผู้เข้าร่วมทั้งหมด เสร็จแล้วไปกันเถอะ!
อย่างไรก็ตามการวัดตัวแปรแฝงมาพร้อมกับความท้าทายที่เป็นเอกลักษณ์ของตัวเอง ความท้าทายที่นักวิจัยไม่คุ้นเคยกับลักษณะเฉพาะของการวัดรัฐภายในอาจไม่ทราบ อย่างไรก็ตามไม่สนใจปัญหาเหล่านี้ในอันตรายของคุณเอง! การวัดความประมาทของรัฐภายในสามารถนำไปสู่ผลลัพธ์ที่ลำเอียงและไร้ความหมายมาก!
โชคดีที่มีสาขาที่ได้ศึกษาปัญหานี้มานานหลายทศวรรษ: Psychometrics มันเป็นวินัยที่ได้พัฒนาเครื่องมือต่าง ๆ ในการวัดโครงสร้างแฝงเช่นเดียวกับทฤษฎีที่หลากหลายเกี่ยวกับข้อผิดพลาดที่สามารถเกิดขึ้นได้ในการวัดเหล่านี้และวิธีลดพวกเขา ฉันอยากให้นักวิจัยของ AI ทำการวัดการประเมินของมนุษย์อย่างจริงจังและเรียนรู้บทเรียนที่เรียนรู้โดย Psychometrics To Heart ด้วยวิธีนี้การวิจัย AI สามารถทำกำไรได้จากการทำงานอย่างหนักหลายทศวรรษโดยนักจิตวิทยาและนักสถิติเพื่อปรับปรุงวิธีการวัดสิ่งที่สำคัญต่อมนุษย์-เช่นคุณภาพของเรื่องราวที่สร้างขึ้นจาก Ai
ข้อมูลเชิงลึกจากทฤษฎีการวัดสามารถช่วยให้เรารู้ถึงข้อผิดพลาดที่อาจเกิดขึ้นเมื่อทำการวัดโครงสร้างแฝง พิจารณาก่อนสิ่งที่สันนิษฐานโดยปริยายเมื่อเราวัดบางสิ่งบางอย่างเช่น 'ความน่าสนใจ' โดยถาม“ ในระดับตั้งแต่ 1 ถึง 5 เรื่องนี้น่าสนใจแค่ไหน”::
ปัญหาเกี่ยวกับกระบวนการนี้สามารถเกิดขึ้นได้ในจุดต่าง ๆ แต่โดยทั่วไปจะอยู่ภายใต้สองประเภท: ความถูกต้อง และ ความน่าเชื่อถือ
แนวคิดทั้งสองมีหลายแง่มุมและฉันไม่สามารถครอบคลุมการวิจัยอย่างเต็มรูปแบบในหัวข้อเหล่านี้ที่นี่ ด้านล่างนี้ฉันจะให้บทสรุปที่ง่ายพอสมควรของแนวคิดหลัก สำหรับความครอบคลุมโดยละเอียดเพิ่มเติมดูตัวอย่างเช่น Drost (2011), Wolming และWikström (2010) และ Meyer (2010)
เครื่องมือ ที่ถูกต้อง วัดการสร้างที่ตั้งใจจะวัด การวัด ที่ไม่ถูกต้อง ไม่ได้ให้การวัดโครงสร้างที่ต้องการ ปัญหาเกี่ยวกับความถูกต้องอาจเกิดขึ้นได้ด้วยเหตุผลมากมาย
ตัวอย่างเช่นผู้คนอาจไม่พิจารณา 'ความน่าสนใจ' เกณฑ์อิสระของตัวเองเมื่อตัดสินเรื่องราว นั่นคือในขณะที่มันอาจปรากฏเป็นไปได้ในทางทฤษฎีความน่าสนใจอาจกลายเป็นสิ่งที่ไม่ได้มีความหมายว่าเป็นสิ่งก่อสร้างในโลกแห่งความเป็นจริง การตอบคำถาม“ เรื่องนี้น่าสนใจแค่ไหน” อาจถูกทำนายโดยการผสมผสานของปัจจัยอื่น ๆ (ตัวอย่างเช่นความคิดสร้างสรรค์ที่รับรู้ของเรื่องราว)
อีกทางเลือกหนึ่ง 'ความน่าสนใจ' อาจเป็นโครงสร้างที่มีความหมายในโลกแห่งความเป็นจริง แต่คำถามของเราด้วยเหตุผลใดก็ตามที่ไม่สามารถจับมันได้และวัดสิ่งอื่นแทน พูดว่าเราพยายามวัด 'ความน่าสนใจ' โดยถามว่า“ เรื่องนี้น่าเบื่อหรือเปล่า?” คำถามอาจกลายเป็นวัดการรวมกันของเสียงและจังหวะแทน
มาตรการที่มีความถูกต้องที่น่าสงสัยเป็นภัย คุกคามร้ายแรง ต่อความสมบูรณ์ของผลการวิจัย (Flake & Fried, 2020)! ยิ่งไปกว่านั้นทั้งสนามสามารถหลงทางได้หากกรอบทฤษฎีถูกสร้างขึ้นตามผลลัพธ์จากมาตรการที่ไม่ถูกต้อง ลองนึกภาพโมเดลที่เหมาะสมที่สุดเพื่อสร้างเรื่องราวที่น่าสนใจเมื่อมาตรการทั้งหมดสำหรับ 'ความน่าสนใจ' กลายเป็นไม่ถูกต้อง (เช่นการวัดอย่างอื่น) แบบจำลองจะได้รับการปรับให้เหมาะสมสำหรับ บางสิ่ง แต่สำหรับสิ่งที่จะเข้าใจได้ไม่ดีมาก
การวัด ที่เชื่อถือได้ จะรวบรวมสิ่งที่วัดได้ด้วยความแม่นยำ หากเราใช้มันซ้ำ ๆ กับวัตถุเดียวกันเราสามารถคาดหวังว่าจะได้ผลลัพธ์ที่คล้ายกันในแต่ละครั้งที่มีข้อผิดพลาดในการวัดเพียงเล็กน้อย เครื่องมือ ที่ไม่น่าเชื่อถือ ขาดความแม่นยำและอาจไร้ประโยชน์โดยทั่วไปหากปัญหารุนแรง นั่นคือความน่าเชื่อถืออธิบายถึงระดับของข้อผิดพลาดในการวัดของการวัด
หากคะแนนที่เราได้รับจากการวัดนั้นแตกต่างกันไปอย่างดุเดือดอาจไม่สำคัญว่าจะวัดว่าควรวัดหรือไม่ - เราไม่สามารถไว้วางใจผลลัพธ์ที่เราได้รับ กล่าวอีกนัยหนึ่งเราต้องการวัดที่ถูกต้อง และ เชื่อถือได้
© Nevit Dilmen
ดังนั้นเราจะตรวจสอบให้แน่ใจได้อย่างไรว่าการวัดการจัดอันดับของมนุษย์นั้นถูกต้องและเชื่อถือได้? คำตอบคือโดยทั่วไป: โดยใช้เทคนิค psychometric สำหรับการตรวจสอบแบบสอบถามด้วยข้อมูลในโลกแห่งความเป็นจริง
ตามหลักการแล้ววิธีการที่เป็นระบบและเข้มงวดนั้นเริ่มต้นจากการสร้างมาตรการ บทสรุปที่ดีของแนวปฏิบัติที่ดีที่สุดตามข้อมูลเชิงลึกจากการวิจัยทางจิตวิทยาสามารถพบได้ใน Boateng และคณะ (2018) และ Hinkin (1998)
ภาพรวมสั้น ๆ (และมีแนวโน้มว่าจะผิวเผินมากเกินไป) ของกระบวนการ:
ตอนนี้เราได้ครอบคลุมพื้นที่เพียงพอเพื่อหารือเกี่ยวกับปัญหาที่อาจเกิดขึ้นจากมาตรการที่มีอยู่สำหรับคุณภาพเรื่องราว ในระยะสั้นฉันเห็นข้อบกพร่องของระเบียบวิธีและปัญหาที่อาจเกิดขึ้นอย่างรุนแรงกับมาตรการที่มีอยู่
สำหรับการรับรู้ของฉัน ไม่มีเครื่องมือใด สำหรับการประเมินของมนุษย์เกี่ยวกับเรื่องราวที่สร้างขึ้นจาก AI ได้รับการประเมินว่าพวกเขาจะวัดสิ่งใดที่มีความหมาย (การทดสอบความถูกต้อง) หรือเพื่อความแม่นยำของพวกเขา (ความน่าเชื่อถือในการทดสอบ) ดังที่ฉันเพิ่งพูดถึงสิ่งนี้แสดงให้เห็นถึงภัย คุกคามร้ายแรง ต่อประโยชน์ของมาตรการเหล่านี้
นอกจากนี้ยังเป็นเรื่องธรรมดามากในสาขาแต่ละแนวคิด (เช่น 'บริบทท้องถิ่น' หรือ 'ความสนุกสนาน') ที่จะวัดด้วยรายการเดียว (เช่น Purdy et al., 2018; Yao et al., 2019; Callan & Foster, 2021) การวัดโครงสร้างแฝงที่เป็นนามธรรมเป็นที่รู้จักกันดีว่ามีเพียงหนึ่งรายการที่มีค่าใช้จ่ายทางจิตวิทยารุนแรง (Furr, 2011): สำหรับหนึ่งรายการเดียวมีแนวโน้มที่จะไม่ชัดเจนและไม่ได้จับภาพความกว้างของโครงสร้าง บางทีที่สำคัญกว่านั้นเทคนิคหลายอย่างในการประเมินคุณภาพของการวัดนั้นไม่สามารถใช้งานได้หรือยากด้วยรายการเดียว 2 ด้วยเหตุผลเหล่านี้แนวทางไซโครเมทริกที่จัดตั้งขึ้นโดยทั่วไปแนะนำ 4-6 รายการต่อโครงสร้างสำหรับการประเมินและการวัดไซโครเมทริกซ์ที่เชื่อถือได้ (เช่น Hinkins et al., 1998)
เครื่องมือที่มีอยู่ได้วางรากฐานอย่างชัดเจนสำหรับการประเมินคุณภาพและธรรมชาติของเรื่องราวที่สร้างขึ้นโดย Ai แต่อย่างที่เราได้เห็นในส่วนก่อนหน้านี้พวกเขาในปัจจุบันมีความเสี่ยงในการผลิตผลลัพธ์ที่ลำเอียงและทำให้เข้าใจผิดทางทฤษฎี ในขณะที่ฉันไม่ต้องการที่จะใช้งานของพวกเขาฉันเชื่อว่าพวกเขาจะได้รับประโยชน์จากการได้รับการตรวจสอบอย่างละเอียดยิ่งขึ้นกับหลักการ psychometrics ที่จัดตั้งขึ้น
เครื่องมือที่เสนอของฉันสำหรับการประเมินเรื่องราวที่สร้างขึ้นโดย AI ได้รับการพัฒนาตามแนวทางปฏิบัติที่ดีที่สุดสำหรับการก่อสร้างขนาด: AI Story Scale (AISS) ปัจจุบันเป็นแบบสอบถามเดียวสำหรับการจัดอันดับเรื่องราวที่สร้างขึ้นจากการวิเคราะห์เชิงประจักษ์ ควรให้เครื่องมือที่แข็งแกร่งเพื่อทำความเข้าใจว่าแบบจำลองภาษาและพารามิเตอร์ไฮเปอร์พารามิเตอร์ต่าง ๆ มีอิทธิพลต่อประสบการณ์ของผู้คนเกี่ยวกับผลงานที่เกิดขึ้นอย่างไร คุณสามารถค้นหาเครื่องมือได้ที่นี่
ฉันจะพยายามปรับปรุงและขยายระดับนี้อย่างช้าๆด้วยข้อมูลใหม่ 3 ลิงก์ไปยังการศึกษาของฉันเกี่ยวกับ AISS:
การศึกษาเบื้องต้นสำหรับการร่างรายการสำหรับ AISS และสำรวจโครงสร้างแฟคทอเรียลของพวกเขา จากผลการศึกษานี้ฉันสร้างเวอร์ชันของ AISS
นอกจากนี้ยังมีหลักฐานการวิเคราะห์แนวคิดสองสามข้อเพื่อแสดงให้เห็นว่า AISS สามารถนำมาใช้เพื่อให้เข้าใจอย่างละเอียดมากขึ้นว่าการตั้งค่ารุ่นที่แตกต่างกันสามารถนำไปสู่เรื่องราวประเภทต่างๆได้อย่างไร
ไปที่หน้าหลักของ repo หากคุณยังไม่ได้อยู่ที่นั่นและมองไปทางขวาไปยังฟิลด์ 'เกี่ยวกับ' คลิกบรรทัดที่ระบุว่า 'อ้างถึงที่เก็บนี้'
นั่นไม่ใช่สิ่งที่ฉันพูด ฉันบอกว่าไม่มีเครื่องชั่งที่ได้ รับการตรวจสอบความถูกต้องทางจิต ฉันตระหนักถึงเครื่องมือบางอย่างที่ใช้ในการประเมินเรื่องราวที่สร้างขึ้นโดย Ai อย่างไรก็ตาม ไม่มี ใครได้รับการประเมินสำหรับคุณภาพของไซโครเมทริก เราไม่ทราบว่าเกณฑ์ใดที่คนส่วนใหญ่ใช้เมื่อตอบคำถามจากเครื่องชั่งเหล่านั้นและหากเกณฑ์เหล่านั้นตรงกับความตั้งใจของผู้เขียนระดับที่เกี่ยวข้อง เราไม่ทราบว่าผลลัพธ์ที่น่าเชื่อถือจากเครื่องชั่งนั้นเป็นอย่างไร นี่เป็นปัญหาร้ายแรงเนื่องจากหมายความว่าเราไม่สามารถมั่นใจได้ว่าผลลัพธ์ที่เราได้รับจากเครื่องมือเหล่านี้มีความหมายจริง สำหรับไพรเมอร์เกี่ยวกับปัญหาเหล่านั้นให้อ่านส่วนนี้อีกครั้งและดูการอ้างอิงที่ฉันเชื่อมโยง
แน่นอนถ้าฉันผิดและมีขนาดบางอย่างได้รับการตรวจสอบความถูกต้องทางจิตวิทยาสำหรับการวิจัย AI ฉันจะตื่นเต้นที่จะได้ยินเกี่ยวกับเรื่องนี้ ได้โปรด โปรด แจ้งให้เราทราบ!
การเปรียบเทียบแบบคู่แสดงถึงการออกแบบการวิจัยที่แตกต่างกันด้วยจุดอ่อนและจุดแข็งที่แตกต่างกัน การเลือกระหว่างการออกแบบการเปรียบเทียบแบบคู่กับการประเมินเรื่องเดียวจึงควรขึ้นอยู่กับคำถามการวิจัยในมือ อย่างไรก็ตามการให้คำปรึกษา เฉพาะ การเปรียบเทียบแบบคู่ เสมอ ดูเหมือนว่าฉันไม่ได้รับคำแนะนำมาก
การเปรียบเทียบแบบคู่จะให้ข้อมูลแบบแบ่งขั้ว (ที่เลือกเรื่องราว? a/b) ข้อมูลแบบแบ่งขั้วตามคำจำกัดความมีข้อมูลน้อยกว่าตัวเลือกจากการพูดระดับ Likert 5 จุด ซึ่งหมายความว่าคุณจำเป็นต้องเสียสละพลังทางสถิติด้วยการออกแบบดังกล่าว (หรือมากกว่าคุณจะถูก จำกัด วิธีการวิเคราะห์ด้วยพลังทางสถิติที่ต่ำกว่า)
นอกจากนี้ตัวเลือกจากการเปรียบเทียบแบบคู่นั้นยากที่จะตรวจสอบสำหรับโครงสร้างพื้นฐานที่อธิบายคำตอบ เหตุใด ผู้เข้าร่วมจึงเลือกเรื่องหนึ่งมากกว่าอีกเรื่องหนึ่ง? พวกเขาใช้เกณฑ์อะไรบ้าง? พวกเขาชอบอะไรเกี่ยวกับเรื่องหนึ่งและไม่ชอบอีกเรื่อง? คำถามเหล่านี้เป็นคำถามที่ยากมากที่จะตอบเมื่อทุกสิ่งที่คุณมีคือเรื่องราวทางเลือกเดียวกับเรื่องราว B.
ฉันยังต้องการชี้ให้เห็นว่าเพียงเพราะคุณใช้การออกแบบการเปรียบเทียบแบบคู่นี่ไม่ได้ช่วยให้คุณมีหน้าที่ในการตรวจสอบการประเมินผลของมนุษย์ นั่นคือการวัดไซโครเมทริกยังคงต้องมีการตรวจสอบความถูกต้องและความน่าเชื่อถือของพวกเขาหากคุณหวังว่าจะทำการวิจัยด้วยความเข้มงวดทางวิทยาศาสตร์ใด ๆ ปัจจัยแฝงใดที่กำหนดตัวเลือกของเรื่องราวมากกว่าเรื่องราว B? สิ่งนี้ตรงกับสิ่งที่คุณตั้งใจจะวัด (ความถูกต้อง) หรือไม่? ผลลัพธ์ที่เชื่อถือได้แค่ไหน? โดยทั่วไปแล้วผู้ประเมินจะเห็นด้วยกับเรื่องเดียวกันที่ดีกว่าอีกเรื่องหนึ่ง (ความน่าเชื่อถือ) หรือไม่? ความถูกต้องอาจเป็นเรื่องยากมากที่จะตรวจสอบด้วยการออกแบบการเปรียบเทียบแบบคู่ในขณะที่ความน่าเชื่อถือ สามารถ ควบคุมได้อย่างง่ายดายด้วยมาตรการสำหรับความน่าเชื่อถือระหว่างผู้ประเมิน (ส่วนใหญ่ของมาตรการเหล่านั้นสามารถคำนวณได้ด้วยมือหากจำเป็น) แต่ฉันยังไม่ได้พบบทความเดียวจากการวิจัย AI ที่รายงาน การ วิเคราะห์ทางจิตวิทยาของเครื่องมือของพวกเขา
แน่นอนฉันไม่ได้บอกว่าคุณไม่ควรใช้การออกแบบการเปรียบเทียบแบบคู่ มีจุดแข็งของการออกแบบดังกล่าว: มาตรการอยู่ใกล้กับมาตรการ“ พฤติกรรม” เนื่องจากผู้คนเลือกเรื่องราวหนึ่งมากกว่าอีกเรื่องหนึ่ง นี่เป็นข้อได้เปรียบหากคุณสนใจที่จะศึกษาหรือทำนายพฤติกรรม (เช่นการเลือกแบบจำลองหนึ่งเหนืออีกรุ่นหนึ่ง) อย่างไรก็ตามหลายทฤษฎีจะทำให้สมมติฐานที่ชัดเจนหรือโดยนัยเกี่ยวกับคุณลักษณะพื้นฐานของเรื่องราวที่นำไปสู่ทางเลือกดังกล่าว หากคุณต้องการทดสอบทฤษฎีเหล่านี้คุณจะต้องสามารถวัดแอตทริบิวต์เหล่านี้ได้ การเปรียบเทียบแบบคู่มักจะไม่ใช่การออกแบบการศึกษาในอุดมคติสำหรับเรื่องนี้
หากคุณต้องการศึกษาความไม่สอดคล้องเชิงตรรกะภายในตัวอย่างสั้น ๆ ให้ใช้ตัวอย่างสั้น ๆ ฉันสนใจในการแสดงผลระดับโลกมากขึ้นจากข้อความที่สร้างขึ้นจาก Ai ดังนั้นฉันจึงใช้ข้อความที่ตัดตอนมานานขึ้น
ฉันไม่เห็นด้วยแม้ว่าผู้คนจะไม่ได้รับภาพใหญ่จากเรื่องราว ฉันคิดว่าถ้าคุณปล่อยให้คนอื่นอ่านข้อความที่ตัดตอนมานานกว่า (เช่นอ่าน 5 นาที) จากเรื่องราวที่เขียนโดยรูปแบบภาษาพวกเขาจะเดินไปพร้อมกับความประทับใจบางอย่างของข้อความนั้น ความประทับใจนี้จะแตกต่างกันไปขึ้นอยู่กับลักษณะเฉพาะของแบบจำลองที่ใช้ในการสร้างข้อความที่ตัดตอนมา ฉันคิดว่าความแตกต่างเหล่านั้นน่าสนใจและมีความหมายในการศึกษาและมันจะโชคร้ายถ้าความแตกต่างเหล่านั้นไม่เคยศึกษาเพราะสิ่งที่เคยดูคือตัวอย่างสั้น ๆ
ฉันจะยืนยันว่าข้อมูลของฉันเห็นด้วยกับฉัน BTW: สำหรับการประเมินข้อความที่ตัดตอนมาอีกต่อไปฉันพบความแปรปรวนมากมายในข้อมูลที่กลุ่มมีความหมายเกี่ยวกับปัจจัยเรื่องราวบางอย่าง
แบบจำลองการวัดนี้เรียกว่าแบบจำลองการวัดแบบไตร่ตรอง: การสร้างจะถือว่าเป็นตัวบ่งชี้สาเหตุ (การตอบคำถาม) ด้านพลิกจะเป็นแบบจำลองการวัดแบบฟอร์ม อย่างไรก็ตามฉันพิจารณารูปแบบการวัดแบบไตร่ตรองนั้นเหมาะสมกว่าสำหรับนักวิจัยสมมติฐานที่มีความหมายเมื่อรวบรวมการประเมินของมนุษย์และดังนั้นฉันจะไม่พิจารณาเพิ่มเติมเกี่ยวกับรูปแบบการวัดรายทาง
เป็นที่ยอมรับว่านี่ไม่สำคัญมากนักในกรณีนี้เนื่องจากไม่มีรายการเหล่านี้ใด ๆ ที่ได้รับการตรวจสอบเพื่อคุณภาพไซโครเมทริกของพวกเขา
อย่างไรก็ตามเมื่อฉันพูดว่า 'ช้า' ฉันหมายถึง ช้าจริงๆ - นี่ยังคงเป็นโครงการงานอดิเรกของฉัน!