ทีม DeepMind ของ Google เพิ่งเปิดตัวชุดข้อมูล Webli-100B ซึ่งมีคู่ข้อความภาพ 100 พันล้านคู่ซึ่งเป็นจุดเริ่มต้นที่สำคัญในด้านของรูปแบบภาษาภาพประดิษฐ์ปัญญาประดิษฐ์ เป้าหมายหลักของชุดข้อมูลนี้คือการปรับปรุงประสิทธิภาพของโมเดล AI อย่างมีนัยสำคัญในการจัดการกับงานทางวัฒนธรรมและหลายภาษาที่แตกต่างกันผ่านแหล่งข้อมูลที่หลากหลายซึ่งจะส่งเสริมความครอบคลุมและความหลากหลายของเทคโนโลยีปัญญาประดิษฐ์

รูปแบบภาษาภาพ (VLMS) เป็นสะพานเชื่อมต่อรูปภาพและข้อความและมีการใช้กันอย่างแพร่หลายในงานเช่นการสร้างคำบรรยายภาพคำถามและคำตอบ ประสิทธิภาพของโมเดลเหล่านี้ขึ้นอยู่กับระดับคุณภาพและปริมาณของข้อมูลการฝึกอบรม ในอดีตนักวิจัยได้พึ่งพาชุดข้อมูลขนาดใหญ่เช่นคำอธิบายภาพแนวคิดและ LAIN เป็นหลัก ความต้องการ.
การเปิดตัวชุดข้อมูล Webli-100b นั้นมีความแม่นยำในการแก้ปัญหาปัญหาคอขวดนี้ ซึ่งแตกต่างจากชุดข้อมูลก่อนหน้า Webli-100b ไม่ได้ใช้กลไกการกรองที่เข้มงวดอีกต่อไปซึ่งมักจะกำจัดรายละเอียดทางวัฒนธรรมที่สำคัญ แต่จะมุ่งเน้นไปที่การขยายความครอบคลุมของข้อมูลโดยเฉพาะอย่างยิ่งในด้านต่าง ๆ เช่นภาษาที่มีทรัพยากรต่ำและการแสดงออกทางวัฒนธรรมที่หลากหลาย ทีมวิจัยได้ทำการฝึกอบรมแบบจำลองล่วงหน้าเกี่ยวกับชุดย่อยที่แตกต่างกันของ Webli-100b เพื่อวิเคราะห์ผลกระทบของมาตราส่วนข้อมูลอย่างลึกซึ้งต่อประสิทธิภาพของโมเดล
ผลการทดลองแสดงให้เห็นว่าแบบจำลองที่ผ่านการฝึกอบรมด้วยชุดข้อมูล Webli-100b เต็มรูปแบบทำงานได้ดีขึ้นอย่างมีนัยสำคัญในงานทางวัฒนธรรมและหลายภาษามากกว่าที่ได้รับการฝึกฝนในชุดข้อมูลขนาดเล็กแม้จะมีทรัพยากรคอมพิวเตอร์เดียวกัน นอกจากนี้การศึกษาพบว่าการขยายชุดข้อมูลจาก 10b เป็น 100b มีผลกระทบน้อยกว่าต่อการวัดผลแบบตะวันตกเป็นศูนย์กลาง แต่นำการปรับปรุงที่สำคัญในงานความหลากหลายทางวัฒนธรรมและการดึงภาษาที่มีทรัพยากรต่ำ
กระดาษ: https://arxiv.org/abs/2502.07617
ประเด็นสำคัญ:
** ชุดข้อมูลใหม่เอี่ยม **: Webli-100b เป็นชุดข้อมูลขนาดใหญ่ที่มีคู่ข้อความภาพ 100 พันล้านคู่ออกแบบมาเพื่อเพิ่มความหลากหลายทางวัฒนธรรมและการพูดได้หลายภาษาของโมเดล AI
** การปรับปรุงประสิทธิภาพของโมเดล **: โมเดลที่ผ่านการฝึกอบรมด้วยชุดข้อมูล Webli-100b ทำงานได้ดีกว่าชุดข้อมูลก่อนหน้าในงานหลากหลายและหลายภาษา
** ลดอคติ **: ชุดข้อมูลของ Webli-100b หลีกเลี่ยงการกรองที่เข้มงวดรักษารายละเอียดทางวัฒนธรรมมากขึ้นและปรับปรุงความมีส่วนร่วมและความแม่นยำของแบบจำลอง