ด้วยการพัฒนาอย่างรวดเร็วของเทคโนโลยีปัญญาประดิษฐ์วิธีการประเมินและเปรียบเทียบความแข็งแกร่งของแบบจำลอง AI ที่แตกต่างกันอย่างมีประสิทธิภาพได้กลายเป็นปัญหาที่เกี่ยวข้องอย่างมาก วิธีการเปรียบเทียบ AI แบบดั้งเดิมจะค่อยๆเปิดเผยข้อ จำกัด ของพวกเขาและด้วยเหตุนี้นักพัฒนา AI จึงสำรวจวิธีการประเมินที่เป็นนวัตกรรมมากขึ้นอย่างแข็งขัน
เมื่อเร็ว ๆ นี้มีเว็บไซต์ที่เรียกว่า "Minecraft Benchmark" (MC-BENCH) เกิดขึ้น ความเป็นเอกลักษณ์ของมันคือการใช้เกม "Minecraft" ของ Microsoft เป็นแพลตฟอร์มเพื่อให้ผู้ใช้ประเมินประสิทธิภาพของพวกเขาโดยเปรียบเทียบโมเดล AI ตามพรอมต์ สิ่งที่น่าแปลกใจคือผู้สร้างแพลตฟอร์มนวนิยายนี้กลายเป็นนักเรียนในเกรด 12

เว็บไซต์ MC-BENCH เป็นวิธีที่ใช้งานง่ายและน่าสนใจในการประเมินโมเดล AI นักพัฒนาเข้าสู่การแจ้งเตือนที่แตกต่างกันในโมเดล AI ที่เข้าร่วมในการทดสอบและแบบจำลองจะสร้างอาคาร Minecraft ที่สอดคล้องกัน ผู้ใช้สามารถลงคะแนนในอาคารเหล่านี้โดยไม่ทราบว่างานใดที่สร้างขึ้นโดยรุ่น AI ที่จะเลือกสิ่งที่พวกเขาคิดว่าสอดคล้องกับพรอมต์และดีกว่า หลังจากการโหวตสิ้นสุดลงแล้วผู้ใช้จะเห็น "ผู้สร้าง" ที่อยู่เบื้องหลังแต่ละอาคาร กลไก "การเลือกคนตาบอด" นี้ได้รับการออกแบบมาเพื่อสะท้อนความสามารถในการสร้างที่แท้จริงของแบบจำลอง AI
Adi Singh กล่าวว่า Minecraft ได้รับเลือกให้เป็นแพลตฟอร์มการเปรียบเทียบไม่เพียงเพราะความนิยมของเกมเอง - มันเป็นวิดีโอเกมที่ขายดีที่สุดในประวัติศาสตร์ ที่สำคัญกว่านั้นความนิยมอย่างกว้างขวางของเกมนี้และความคุ้นเคยของสไตล์การมองเห็นทำให้มันค่อนข้างง่ายสำหรับผู้ที่ไม่เคยเล่นเกมนี้เพื่อบอกว่าสับปะรดที่ทำจากกำลังสองนั้นดูสมจริงมากขึ้น เขาเชื่อว่า "Minecraft ทำให้ผู้คนเห็นความคืบหน้าของ [การพัฒนา AI]" ง่ายขึ้นซึ่งเป็นวิธีการประเมินภาพที่น่าเชื่อถือมากกว่าการวัดที่เป็นข้อความ
ปัจจุบัน MC-BENCH ส่วนใหญ่ดำเนินงานอาคารที่ค่อนข้างง่ายเช่นขอให้โมเดล AI เขียนโค้ดเพื่อสร้างโครงสร้างเกมที่สอดคล้องกันตามเคล็ดลับเช่น "King of Frost" หรือ "กระท่อมร้อนที่มีสีสันบนชายหาดดั้งเดิม" นี่เป็นเกณฑ์มาตรฐานการเขียนโปรแกรม แต่ความฉลาดคือผู้ใช้ไม่จำเป็นต้องเจาะลึกลงไปในรหัสที่ซับซ้อนและสามารถตัดสินคุณภาพของงานตามเอฟเฟกต์ภาพที่ใช้งานง่ายซึ่งช่วยปรับปรุงการมีส่วนร่วมของโครงการและศักยภาพในการรวบรวมข้อมูลอย่างมาก
ปรัชญาการออกแบบของ MC-BENCH คือการอนุญาตให้ประชาชนรู้สึกถึงระดับการพัฒนาของเทคโนโลยี AI “ การจัดอันดับปัจจุบันสอดคล้องกับประสบการณ์ส่วนตัวของฉันกับโมเดลเหล่านี้ซึ่งแตกต่างจากมาตรฐานข้อความธรรมดาหลายอย่าง” ซิงห์กล่าว เขาเชื่อว่า MC-BENCH อาจให้การอ้างอิงที่มีค่าสำหรับ บริษัท ที่เกี่ยวข้องเพื่อช่วยให้พวกเขาตัดสินว่าการวิจัยและพัฒนา AI ของพวกเขาถูกต้องหรือไม่
แม้ว่า Mc-Bench จะเริ่มต้นโดย Adi Singh แต่ก็รวบรวมกลุ่มผู้มีส่วนร่วมอาสาสมัครที่อยู่เบื้องหลัง เป็นเรื่องที่ควรค่าแก่การกล่าวถึงว่า บริษัท AI ชั้นนำหลายแห่งรวมถึงมานุษยวิทยา Google, Openai และ Alibaba ได้ให้เงินอุดหนุนสำหรับโครงการเพื่อใช้ผลิตภัณฑ์ของตนเพื่อใช้งานมาตรฐาน อย่างไรก็ตามเว็บไซต์ของ Mc-Bench ระบุว่า บริษัท เหล่านี้ไม่เกี่ยวข้องกับโครงการ
ซิงห์ยังเต็มไปด้วยโอกาสสำหรับอนาคตของ MC-BENCH เขากล่าวว่าการก่อสร้างที่เรียบง่ายในปัจจุบันกำลังดำเนินการอยู่เป็นเพียงจุดเริ่มต้นและอาจขยายไปถึงการวางแผนระยะยาวและงานที่มุ่งเน้นเป้าหมายในอนาคต เขาเชื่อว่าการเล่นเกมอาจกลายเป็นสื่อที่ปลอดภัยและควบคุมได้สำหรับการทดสอบความสามารถของ "ตัวแทน" ของ AI ซึ่งเป็นเรื่องยากที่จะบรรลุในชีวิตจริงดังนั้นจึงมีข้อได้เปรียบในการทดสอบ
นอกเหนือจาก MC-BENCH แล้วเกมอื่น ๆ เช่น Street Fighter และคุณวาดและฉันคิดว่ายังถูกใช้เป็นมาตรฐานการทดลองสำหรับ AI ซึ่งสะท้อนให้เห็นว่ามาตรฐาน AI เป็นพื้นที่ที่มีทักษะมากในตัวเอง การประเมินมาตรฐานแบบดั้งเดิมมักจะมี "ความได้เปรียบในบ้านในบ้าน" เนื่องจากโมเดล AI ได้รับการปรับให้เหมาะสมสำหรับปัญหาบางประเภทในระหว่างการฝึกอบรมโดยเฉพาะอย่างยิ่งในประเด็นที่ต้องใช้หน่วยความจำในการท่องจำหรือการอนุมานพื้นฐาน ตัวอย่างเช่น GPT-4 ของ OpenAi ได้รับผลลัพธ์ที่ยอดเยี่ยม 88% ในการสอบ LSAT แต่ไม่สามารถบอกได้ว่ามี "R" กี่คำในคำว่า "สตรอเบอร์รี่"

Claude 3.7Sonnet ของมานุษยวิทยาประสบความสำเร็จ 62.3% ในมาตรฐานวิศวกรรมซอฟต์แวร์มาตรฐาน แต่ก็ไม่ดีเท่าเด็กอายุห้าขวบส่วนใหญ่เมื่อพูดถึงการเล่นโปเกมอน
การเกิดขึ้นของ MC-BENCH ให้มุมมองที่แปลกใหม่และง่ายต่อการทำความเข้าใจสำหรับการประเมินความสามารถของแบบจำลอง AI แบบกำเนิด ด้วยการใช้ประโยชน์จากแพลตฟอร์มการเล่นเกมที่รู้จักกันดีมันจะเปลี่ยนความสามารถด้านเทคโนโลยี AI ที่ซับซ้อนให้เป็นการเปรียบเทียบภาพที่ใช้งานง่ายทำให้ผู้คนมีส่วนร่วมในการประเมิน AI และกระบวนการทางปัญญามากขึ้น แม้ว่ามูลค่าที่แท้จริงของวิธีการประเมินผลนี้ยังอยู่ภายใต้การสนทนา แต่ก็ไม่ต้องสงสัยเลยว่าเรามีหน้าต่างใหม่เพื่อสังเกตการพัฒนาของ AI
ทางเข้าโครงการ: https://top.aibase.com/tool/mc-bench