البحوث حول تقييم القصص التي تم إنشاؤها من الذكاء الاصطناعى لم تتبنى بعد مقياسًا تم التحقق من صحة نفسياً للتقييمات البشرية. يشكل هذا تهديدًا خطيرًا لصلاحية وموثوقية نتائج البحوث ، حيث أن التدابير الحالية قد لا تلتقط بدقة المفاهيم المقصودة أو قد لا تلتقطها بشكل موثوق بما يكفي حتى تكون النتائج ذات معنى. يتناول مقياس قصة الذكاء الاصطناعى (AISS) هذه الفجوة من خلال توفير مقياس تصنيف موثوق وصالح يعتمد على البحوث التجريبية وأفضل الممارسات السيكومترية ، مما يتيح للباحثين والممارسين تقييم جودة وطبيعة القصص التي تم إنشاؤها من الذكاء الاصطناعي بثقة.
نماذج اللغة واسعة النطاق (LLMS) رائعة! لا يمكن وصف التطورات السريعة لهذه التكنولوجيا في السنوات القليلة الماضية إلا على أنها لالتقاط الأنفاس (Min et al. ، 2021 ؛ Tang ، Guerin ، Li & Lin ، 2022). اعتبارًا من وقت الكتابة (يونيو 2023) ، تستمر أدوات مثل ChatGPT و GPT-4 والنماذج الناشئة الأخرى في الحصول على عناوين الصحف والتقاط الخيال العام (مثل Bubeck et al. ، 2023 ، Lee ، Bubeck & Petro ، 2023 ، Openai ، 2023). هذه النماذج قادرة على المآسي الرائعة ، مما يدل على الكفاءة المثيرة للإعجاب للمهام المعقدة والمتعددة مثل سرد القصص (Alhussain & Azmi ، 2021 ؛ Xie ، Cohn & Lau ، 2023).
في الواقع ، يتم تبني رواية القصص التي تولدها الذكاء الاصطناعى أكثر فأكثر عبر مختلف الصناعات. في صناعة الترفيه ، يتم استخدام الذكاء الاصطناعي لكتابة النصوص ورواية القصص. في قطاع الكتابة والتأليف ، أصبحت مولدات قصة الذكاء الاصطناعى أدوات شائعة للكتاب ، حيث تقدم طرقًا مبتكرة للتغلب على كتلة الكاتب وإيجاد الإلهام لعملهم.
ومع ذلك ، كما هي مثيرة للإعجاب مثل التطبيقات الحالية ، تم تحديد ممارسات التقييم للنص الذي تم إنشاؤه على أنها معيبة ، مع عدم وجود دراسات في كثير من الأحيان لا تفي بالمتطلبات الأساسية للعلوم التجريبية السليمة (Gehrmann ، Clark ، & Sellam ، 2023). هذه قضية عاجلة. لا سيما مع تحسن نماذج التوليد العصبي إلى النقطة التي لم يعد فيها مخرجاتها في كثير من الأحيان تمييزها بناءً على الميزات على مستوى السطح التي تعتمد عليها المقاييس القديمة. حتى التدابير التي تحاول الخوض أعمق ، مثل التقييمات البشرية ، تعاني من أوجه القصور الخطيرة. واحدة من أكثرها انتقادات هي تلك التي يتم تجاهلها عادة في البحث عن نماذج اللغة الكبيرة ومنظمة العفو الدولية بشكل عام: عدم التحقق من صحة السيكومترية.
يعد التحقق من الصحة النفسية ضروريًا لضمان قيام الأداة بقياس أي شيء ذي معنى على الإطلاق ، وأنه يفعل ذلك بدقة. هذا النقص في التحقق من الصحة يمثل تهديدًا إلحاحًا لصلاحية البحث في هذا المجال. هذه المسألة يهدف مقياس قصة الذكاء الاصطناعي (AISS) إلى معالجته. يوفر AISS أساسًا متينًا لقياس جودة وطبيعة القصص التي تم إنشاؤها من الذكاء الاصطناعي ، مما يوفر حلاً لأوجه القصور في التدابير الحالية لتقييم القصة البشرية. من خلال توفير أداة موثوقة ومتحقق صحة لتقييم القصص التي تم إنشاؤها من الذكاء الاصطناعى ، يمكن لـ AISS مساعدة الباحثين والممارسين على فهم قدرات وقيود النماذج المختلفة وإعدادات التوليد بشكل أفضل.
أظن أن العديد من القراء في هذه المرحلة قد يفكرون ، "النفسي ماذا الآن؟". إذا كان هذا هو أنت ، فقد تكون متشككًا في الحاجة إلى طريقة أخرى لتقييم النص الذي تم إنشاؤه من الذكاء الاصطناعي. أحصل عليه.
ومع ذلك ، احمل معي - سأحاول شرح سبب أهمية ذلك وكيف يمكن أن يحدث مقياس قصة الذكاء الاصطناعي فرقًا كبيرًا في هذا المجال.
في هذا القسم ، سوف أركض بسرعة من خلال الأساليب الحالية لتقييم قصة تم إنشاؤها بواسطة نموذج توليدي. سأحاول أيضًا وضع لماذا أعتقد أن الباحثين يمكنهم الاستفادة من إضافة مقياس قصة الذكاء الاصطناعي إلى ترسانة مقاييس التقييم.
التقييمات التلقائية هي طريقة شائعة لتقييم أداء نماذج اللغة. تتضمن هذه التقييمات عادة مقارنة إخراج النموذج بنص مرجع أو "الحقيقة الأرضية". فيما يلي بعض مقاييس التقييم التلقائي الأكثر شيوعًا:
تقارن المقاييس مثل Bleu (Papineni et al. ، 2002) ، Rouge (Lin ، 2004) ، و Meteor (Banerjee & Lavie ، 2005) النص الذي تم إنشاؤه مقابل نص مرجعي عن طريق قياس تداخل n-grams (التسلسل المتجانس من العناصر n من نموذج من النص). تم تصميم هذه المقاييس في الأصل للترجمة الآلية وهي مفيدة لقياس ملاءمة القصة التي تم إنشاؤها مقابل معيار ذهبي. ومع ذلك ، فإنها تركز بشكل أساسي على ميزات النص على مستوى السطح وقد لا تلتقط جودة القصص التي تم إنشاؤها بالكامل.
تهدف أساليب التقييم الأكثر حداثة مثل Lambada (Paperno et al. ، 2016) ، Hellaswag (Zellers et al. ، 2019) ، و PIQA (Bisk et al. ، 2020) إلى اختبار قدرة النموذج على التقاط سياق أوسع وقدرات التفكير المنطقية الشائعة. تقوم Lambada بتقييم قدرة النموذج على التنبؤ بالكلمة الأخيرة في جملة بالنظر إلى سياقها ، في حين أن Hellaswag و PIQA يختبران قدرة النموذج على جعل التنبؤات السليمة. في حين أن هذه الطرق توفر رؤى مثيرة للاهتمام لقدرات التفكير النموذجية ، فإنها لا تقيم مباشرة جودة القصص التي تم إنشاؤها.
توفر التقييمات التلقائية ميزة كونها سريعة وقابلة للتطوير والموضوعية. ومع ذلك ، على الرغم من أن هذه التقييمات هي أدوات قيمة في تقييم نماذج اللغة ، إلا أنها لها قيود عندما يتعلق الأمر بتقييم جودة القصص التي تم إنشاؤها. غالبًا ما يركزون على جوانب محددة لتوليد اللغة وقد لا تجسد تمامًا الثراء والإبداع والتماسك السردي الذي يعد أمرًا بالغ الأهمية في سرد القصص. هذا هو المكان الذي يلعب فيه التقييم البشري ومقياس قصة الذكاء الاصطناعي.
هناك نهج مختلف هو استخدام القضاة البشريين لتقييم قصة (Purdy et al. ، 2018 ؛ Yao et al. ، 2019 ؛ Castricato et al. ، 2021a ؛ Castricato et al. ، 2021b ؛ Callan & Foster ، 2021). بعد كل شيء ، الهدف النهائي لتوليد القصة من قبل نماذج اللغة هو إنتاج قصص مقنعة وجذابة يحب الناس قراءتها والاستمتاع بها. أليس من الطبيعي أن يستخدم البشر كمقياس نهائي لجودة القصة؟
أنا شخصياً أعتقد أن التقييم البشري للقصص التي تنشئها الذكاء الاصطناعى يستحق اهتمامًا جادًا. يمكن استخدامه ليس فقط لقياس "الجودة الشاملة" للقصص ، ولكن أيضًا للمساعدة في فهم نوع القصص التي من المحتمل أن تنتجها النماذج المختلفة وكيفية اختلافها. يمكن أيضًا استخدامه لاستكشاف كيف تتغير جودة القصة عبر الأجيال حيث نقوم بتعديل بنية النموذج أو المقاييس المفرطة.
تمثل التدابير الحالية خطوة أولى مهمة لالتقاط كيفية تجربة البشر قصص كتبها نماذج اللغة. ومع ذلك ، أعتقد أنهم يمكن أن يستفيدون من مزيد من التحسين وتوسيع. ولكن دعونا لا نتقدم على أنفسنا. قبل أن نراجع الأدوات الحالية للتقييم البشري ، دعونا نرتكب ما نريده بالفعل من مقياس يقيس تجربة القصة الذاتية أولاً.
كما اتضح ، فإن قياس أي شيء من البشر المزعجين هو فوضوي. خاصة عندما يتعلق الأمر بالولايات الداخلية. من قبل الدول الداخلية ، أعني التجربة الإنسانية التي لا يمكن الوصول إليها مباشرة عن طريق الملاحظة. هذه أشياء غريبة مثل المزاج أو الآراء أو المواقف أو المعتقدات أو التفضيلات. لجعله يبدو أكثر تعقيدًا مما هو عليه بالفعل ، يطلق علماء النفس على هذه الأشياء "بنيات كامنة" (أو فقط "بنيات") أو "متغيرات كامنة". لا يمكن ملاحظ المتغيرات الكامنة مباشرة ، ولكن يجب استنتاجها من الملاحظات الأخرى - على سبيل المثال ، ما هو الخيار الذي يختاره شخص ما على سؤال مثل "على مقياس من 1 إلى 5 ، ما مدى إثارة هذه القصة؟".
قد يعتقد المرء أن الطريقة التي نقيس بها هذه المتغيرات ستكون واضحة: نريد أن نعرف مدى إثارة القصة. لذلك ، نسأل شخص فقط عن مدى إثارة للاهتمام في القصة ثم متوسط ذلك عبر جميع المشاركين. انتهى ، دعنا ننتقل!
ومع ذلك ، فإن قياس المتغيرات الكامنة يأتي مع تحدياتها الفريدة ؛ قد تكون التحديات التي لا يعرفها الباحثون غير المعروفين بخصائص قياس الحالات الداخلية. ومع ذلك ، تجاهل هذه المشكلات على خطر الخاص بك! يمكن أن يؤدي قياس الإهمال للحالات الداخلية إلى نتائج متحيزة للغاية وربما لا معنى لها!
لحسن الحظ ، هناك مجال درس هذه المشكلة لعقود من الزمن: القياس النفسي. إنه تخصص طور أدوات مختلفة لقياس بنيات كامنة ، وكذلك نظرية غنية على أنواع الأخطاء التي يمكن أن تحدث في هذه القياسات وكيفية تقليلها (للاطلاع على مقدمة ، انظر Furr ، 2011 ؛ El-Den et al. ، 2020 ؛ Flake & Frired ، 2020). أود أن أحث الباحثين من الذكاء الاصطناعي على أخذ قياس التقييمات البشرية على محمل الجد وأن تأخذ الدروس المستفادة من قبل القياسات النفسية إلى القلب. وبهذه الطريقة ، يمكن أن تستفيد أبحاث الذكاء الاصطناعي من عقود من العمل الشاق من قبل علماء النفس والإحصائيين لتحسين كيفية قياس ما يهم البشر-مثل جودة القصص التي تم إنشاؤها من الذكاء الاصطناعى.
يمكن أن تساعدنا الرؤى الناتجة عن نظرية القياس على إدراك المزالق المحتملة عند قياس التركيبات الكامنة. ضع في اعتبارك أولاً ، ما الذي يُفترض ضمنيًا عندما نقيس شيئًا مثل "الاهتمام" من خلال السؤال "على مقياس من 1 إلى 5 ، ما مدى إثارة هذه القصة؟":
يمكن أن تنشأ مشاكل في هذه العملية في نقاط مختلفة ، ولكن يتم وضعها عمومًا في فئتين: الصلاحية والموثوقية .
يحتوي كلا المفهومين على العديد من الجوانب ، ولا يمكنني تغطية الطيف الكامل للبحث حول هذه الموضوعات هنا. أدناه ، سأقدم ملخصًا مبسطًا إلى حد ما للأفكار الرئيسية. للحصول على تغطية أكثر تفصيلاً ، انظر على سبيل المثال Drost (2011) و Wolming and Wikström (2010) و Meyer (2010).
أداة صالحة تقيس البناء الذي تنوي قياسه بالفعل. لا يوفر مقياس غير صالح قياس البناء المقصود. يمكن أن تنشأ المشكلات المتعلقة بالصلاحية لعدة أسباب.
على سبيل المثال ، قد لا يعتبر الناس ببساطة "إثارة" معيارها المستقل عند الحكم على القصص. أي أنه على الرغم من أنه قد يبدو معقولًا من الناحية النظرية ، إلا أن الاهتمام قد يتحول إلى عدم وجوده كبنية في العالم الحقيقي. ردود على السؤال "ما مدى إثارة هذه القصة؟" بدلاً من ذلك ، قد يتم التنبؤ بها من خلال مزيج من العوامل الأخرى (على سبيل المثال ، الإبداع المتصور للقصة).
بدلاً من ذلك ، قد تكون "الاهتمام" بنية ذات مغزى في العالم الحقيقي ، ولكن أسئلتنا لأي سبب من الأسباب تفشل ببساطة في التقاطه وقياس شيء آخر بدلاً من ذلك. قل ، لقد حاولنا قياس "الاهتمام" من خلال السؤال ، "هل كانت هذه القصة تحضر الأظافر؟". قد يتحول السؤال لقياس مزيج من النغمة والسرعة بدلاً من ذلك.
تشكل التدابير ذات الصلاحية المشكوك فيها تهديدًا خطيرًا لسلامة نتائج البحث (Flake & Fried ، 2020)! والأسوأ من ذلك ، أنه يمكن قيادة الحقول بأكملها ضلال ، إذا كانت الأطر النظرية مبنية على نتائج من تدابير غير صالحة. تخيل تحسين النماذج لإنتاج القصص "المثيرة للاهتمام" ، عندما تتحول جميع التدابير الخاصة بـ "الاهتمام" إلى غير صالح (أي قياس شيء آخر). سيتم تحسين النماذج لشيء ما ، ولكن لما سيكون من المفهوم تمامًا.
يلتقط مقياس موثوق كل ما يقيسه بدقة. إذا استخدمناها مرارًا وتكرارًا على نفس الكائن ، فيمكننا أن نتوقع الحصول على نتيجة مماثلة في كل مرة مع خطأ في القياس. تفتقر أداة غير موثوقة إلى الدقة ، وقد تكون عديمة الفائدة في الأساس إذا كانت المشكلة شديدة. أي أن الموثوقية تصف درجة خطأ القياس في التدبير.
إذا كانت الدرجات التي نحصل عليها من مقياس تختلف بشكل كبير ، فقد لا يهم ما إذا كان يقيس ما ينبغي قياسه أم لا - لا يمكننا ببساطة الوثوق بالنتائج التي نحصل عليها. بمعنى آخر ، نريد أن يكون التدبير صالحًا وموثوقًا .
© Nevit Dilmen
لذا ، كيف نتأكد من أن مقياسنا للمرورات البشرية صالحة وموثوقة؟ الإجابة هي بشكل عام: باستخدام التقنيات السيكومترية للتحقق من صحة الاستبيانات مع بيانات العالم الحقيقي.
من الناحية المثالية ، يتم اتباع نهج منهجي وصارم بدءًا من بناء المقياس. على سبيل المثال ، يمكن العثور على ملخص جيد لأفضل الممارسات وفقًا للرؤى المستقاة من الأبحاث السيكومترية في Boateng et al. (2018) وهينكين (1998).
نظرة عامة مختصرة للغاية (ومن المحتمل أن تكون سطحية بشكل مفرط) على العملية:
لقد قمنا الآن بتغطية أرضية كافية ، لمناقشة القضايا المحتملة للتدابير الحالية لجودة القصة. باختصار ، أرى أوجه القصور المنهجية وقضايا حادة محتملة في التدابير الحالية.
إلى وعيي ، لم يتم تقييم أي من أدوات التقييمات البشرية للقصص التي تم إنشاؤها من الذكاء الاصطناعي حول ما إذا كانت في الواقع تقيس أي شيء ذي معنى (اختبار صحة) أو لدقتها (اختبار موثوقية). كما ناقشت للتو ، يمثل هذا تهديدًا خطيرًا لفائدة هذه التدابير.
علاوة على ذلك ، من الشائع جدًا في هذا المجال لكل مفهوم (مثل "السياق المحلي" أو "المتعة") أن يتم قياسه بعنصر واحد (على سبيل المثال ، Purdy et al. ، 2018 ؛ Yao et al. ، 2019 ؛ Callan & Foster ، 2021). من المعروف أن قياس بنيات كامنة مجردة إلى حد ما مع عنصر واحد فقط يأتي بتكاليف سيكومترية شديدة (Furr ، 2011): من المحتمل أن تكون العناصر الفردية غير دقيقة للغاية ولا تستحوذ على اتساع البنية الكاملة. ربما الأهم من ذلك ، أن العديد من التقنيات لتقييم جودة المقياس غير متوفرة أو صعبة مع عنصر واحد. 2 لهذه الأسباب ، توصي الإرشادات السيكومترية المعمول بها عمومًا من 4 إلى 6 عناصر لكل بنية لتقييم وقياس ميتومتومتر موثوق (على سبيل المثال ، Hinkins et al. ، 1998).
لقد وضعت الأدوات الموجودة بشكل واضح الأساس لتقييم جودة وطبيعة القصص التي تنشئها الذكاء الاصطناعى. ولكن كما رأينا في القسم السابق ، فإنهم يقومون بذلك حاليًا لخطر إنتاج نتائج متحيزة ورؤى نظرية مضللة. على الرغم من أنني لا أرغب في الابتعاد عن عملهم ، إلا أنني أعتقد أنهم سيستفيدون من التحقق من صحة أكثر شمولاً ضد مبادئ القياسات النفسية المعمول بها.
تم تطوير الأداة المقترحة لتقييم القصص التي تم إنشاؤها من الذكاء الاصطناعى وفقًا لأفضل الممارسات لبناء المقياس: مقياس قصة الذكاء الاصطناعى (AISS). إنه حاليًا الاستبيان الوحيد لتصنيف القصص التي تم إنشاؤها بواسطة الذكاء الاصطناعي على أساس التحليل التجريبي. يجب أن يوفر أداة قوية لفهم كيف تؤثر نماذج اللغة المختلفة ومقاطعات فرعية على تجربة الأشخاص في إخراج القصة الناتج. يمكنك العثور على الأداة هنا.
سأحاول تحسين هذا المقياس وتوسيعه ببطء مع بيانات جديدة. 3 روابط لدراستي على AISS:
الدراسة الأولية لصياغة العناصر الخاصة بـ AISS ، واستكشاف هيكلها العامل. بناءً على نتائج هذه الدراسة ، قمت ببناء نسخة AISS.
كما أنه يحتوي على بعض إثبات تحليلات المفاهيم لإظهار كيف يمكن استخدام AISS لاكتساب فهم أكثر تفصيلاً لكيفية أن تؤدي إعدادات التوليد المختلفة إلى أنواع مختلفة من القصص.
انتقل إلى الصفحة الرئيسية لإعادة الريبو إذا لم تكن هناك بالفعل ، وانظر إلى الحقل إلى الحقل "حول". انقر فوق السطر الذي يقول "استشهد بهذا المستودع".
هذا ليس ما قلته. قلت لا توجد موازين تم التحقق من صحتها النفسية . أنا على دراية ببعض الأدوات التي تم استخدامها لتقييم القصص التي تم إنشاؤها من الذكاء الاصطناعى. ومع ذلك ، لم يتم تقييم أي منهم لجودتها السيكومترية. لا نعرف المعايير التي يستخدمها معظم الناس عند الإجابة على الأسئلة من هذه المقاييس ، وإذا كانت هذه المعايير تتطابق مع نوايا مؤلفي المقياس المعني. نحن لا نعرف مدى موثوقية النتائج من المقاييس. هذه مشكلة خطيرة ، لأنها تعني أنه لا يمكننا التأكد من أن النتائج التي نحصل عليها من هذه الأدوات ذات معنى فعليًا. للحصول على تمهيدي حول هذه القضية ، أعد قراءة هذا القسم وإلقاء نظرة على المراجع التي ربطتها.
بالطبع ، إذا كنت مخطئًا وتم التحقق من صحة بعض الحجم بشكل نفسي لأبحاث الذكاء الاصطناعي ، فسأكون سعيدًا بسماع ذلك. من فضلك ، من فضلك ، واسمحوا لي أن أعرف!
تمثل المقارنات الزوجية تصميمًا مختلفًا للبحث مع نقاط ضعف ونقاط قوة مختلفة. وبالتالي ، فإن الاختيار بين تصميم المقارنة الزوجية مقابل تقييمات القصص الفردية يجب أن يعتمد على سؤال البحث المطروح. لكن تقديم المشورة للمقارنات الزوجية فقط ، يبدو أنه سيئسي للغاية بالنسبة لي.
ستمنحك المقارنات الزوجية بيانات ثنائية التفرع (القصة المختارة؟ A/B). تحتوي البيانات ثنائية التفرع بحكم التعريف على معلومات أقل من اختيار ، على سبيل المثال ، مقياس Likert المكون من 5 نقاط. هذا يعني أنه يتعين عليك بالضرورة التضحية ببعض القوة الإحصائية بمثل هذا التصميم (أو بالأحرى ، سوف تقتصر على طرق التحليل ذات القوة الإحصائية المنخفضة).
علاوة على ذلك ، من الصعب التحقيق في خيارات المقارنة بين الزوجين للبنيات الأساسية التي تشرح الإجابات. لماذا اختار المشاركون قصة واحدة على الآخر؟ ما هي المعايير التي استخدموها؟ ما الذي أعجبهم في قصة واحدة ويكرهون الآخر؟ هذه أسئلة يصعب الإجابة عليها عندما يكون كل ما لديك هو اختيار واحد للقصة مقابل القصة ب.
أريد أيضًا أن أشير إلى أنه لمجرد أنك تستخدم تصميم المقارنة الزوجية ، فإن هذا لا يعفيك بطريقة أو بأخرى من واجب التحقق من تقييم التقييمات البشرية. وهذا يعني أن القياسات السيكومترية لا تزال بحاجة إلى التحقق من صلاحيتها وموثوقيتها إذا كنت تأمل في إجراء البحوث مع أي قطعة من الصرامة العلمية. ما هي العوامل الكامنة التي تحدد اختيار القصة أ القصة ب؟ هل هذا يتطابق مع ما تنوي قياسه (الصلاحية)؟ ما مدى موثوقية النتائج؟ هل يتفق المقيمون عمومًا على نفس القصة أفضل من الآخر (الموثوقية)؟ قد يكون من الصعب للغاية التحقق من صحة تصميم المقارنة الزوجية ، في حين يمكن التحكم في الموثوقية بسهولة نسبيًا مع مقاييس موثوقية بين المياه (يمكن حساب معظم هذه التدابير باليد إذا لزم الأمر). ومع ذلك ، لم أواجه ورقة واحدة من أبحاث الذكاء الاصطناعى والتي أبلغت عن أي تحليل سيكومتري لأداةهم.
بالطبع ، أنا لا أقول أنه يجب ألا تستخدم أبدًا تصميمات المقارنة الزوجية. هناك نقاط قوة لمثل هذه التصميمات: التدابير أقرب إلى مقياس "سلوكي" ، حيث اختار الناس بالفعل قصة واحدة على الآخر. هذه ميزة إذا كنت مهتمًا بالدراسة أو التنبؤ بالسلوك (مثل اختيار نموذج على الآخر). ومع ذلك ، فإن العديد من النظريات ستقدم العديد من الافتراضات الصريحة أو الضمنية حول السمات الأساسية للقصص التي تؤدي إلى مثل هذا الاختيار. إذا كنت ترغب في اختبار هذه النظريات ، فيجب أن تكون قادرًا على قياس هذه السمات. غالبًا ما لا تكون المقارنات الزوجية هي تصميم الدراسة المثالي لهذا الغرض.
إذا كنت ترغب في دراسة التناقضات المنطقية داخل مقتطفات قصيرة ، فاستخدم مقتطفات قصيرة. أنا مهتم بمزيد من الانطباعات العالمية من النصوص التي أنشأتها الذكاء الاصطناعى. لذلك ، استخدمت في البداية مقتطفات أطول.
لا أوافق على الرغم من أن الناس سيئون في الحصول على صورة كبيرة من القصص. أعتقد أنه إذا سمحت للأشخاص بقراءة مقتطف أطول إلى حد ما (مثل القراءة لمدة 5 دقائق) من قصة كتبها نموذج اللغة ، فسوف يبتعدون عن انطباع معين عن هذا النص. سيختلف هذا الانطباع اعتمادًا على خصوصيات النموذج المستخدم لإنشاء المقتطف. أعتقد أن هذه الاختلافات مثيرة للاهتمام وذات مغزى للدراسة ، وسيكون من المؤسف أن هذه الاختلافات لم تتم دراستها أبدًا لأن كل ما يتم النظر إليه على الإطلاق هو قصاصات قصيرة.
أود أن أزعم أن بياناتي تتفق معي ، راجع للشغل: لتقييم مقتطفات القصة الأطول ، وجدت الكثير من التباين في البيانات التي تتجمع بشكل مفيد حول عوامل القصة.
يُعرف هذا النموذج من القياس بنموذج القياس العاكس: يُفترض أن التركيبات تسبب مؤشرات (ردود على الأسئلة). سيكون الجانب الآخر نموذج قياس التكويني. ومع ذلك ، فإنني أعتبر أن نموذج القياس العاكس أكثر ملاءمة للافتراضات التي ينطوي عليها الباحثون عند جمع التقييمات البشرية ، وبالتالي لن أعطي المزيد من الدراسة لنموذج القياس التكويني. ↩
من المسلم به أن هذا لا يهم كثيرًا في هذه الحالة ، حيث لم يتم فحص أي من هذه العناصر من أي وقت مضى لجودتها السيكومترية. ↩
ومع ذلك ، عندما أقول "بطيئة" ، أعني بطيئًا حقًا - هذا لا يزال مشروع هواية لي! ↩