Multimodal AI กำหนดนิยามใหม่ของการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-03-17 12:00:04

ปัญญาประดิษฐ์ (AI) จะมีลักษณะอย่างไรในอนาคต? ลองจินตนาการว่าพวกเขาสามารถเข้าใจและทำงานที่ซับซ้อนได้ด้วยคำสั่งง่ายๆ นอกจากนี้ พวกเขายังสามารถจับภาพการแสดงออกและการเคลื่อนไหวของผู้ใช้เพื่อกำหนดสถานะทางอารมณ์ของพวกเขาได้ นี่ไม่ใช่ฉากในภาพยนตร์นิยายวิทยาศาสตร์ฮอลลีวูดอีกต่อไป แต่เป็น "AI หลายรูปแบบ" ที่ค่อยๆ เข้าสู่ความเป็นจริง

ตามรายงานล่าสุดจากเว็บไซต์ "Forbes" ของสหรัฐอเมริกา ยักษ์ใหญ่เช่น Metaverse Platform Company, OpenAI และ Google ต่างได้เปิดตัวระบบ AI หลายรูปแบบของตนเอง และไม่ละความพยายามในการเพิ่มการลงทุนในการวิจัยและพัฒนาระบบดังกล่าว และมุ่งมั่น เพื่อปรับปรุงโมเดลต่างๆ เพื่อปรับปรุงความแม่นยำของเอาต์พุตเนื้อหาแบบไดนามิก ซึ่งจะช่วยปรับปรุงประสบการณ์การโต้ตอบระหว่าง AI และผู้ใช้

Multimodal AI ถือเป็นการเปลี่ยนแปลงกระบวนทัศน์ มันจะเปลี่ยนโฉมหน้าของอุตสาหกรรมต่างๆ อย่างลึกซึ้งและปรับโฉมโลกดิจิทัล

ให้ความสามารถ "หลายประสาทสัมผัส" ของ AI

มนุษย์เข้าใจโลกได้อย่างไร? เราพึ่งพาประสาทสัมผัสที่หลากหลาย เช่น การมองเห็น การได้ยิน และการสัมผัส เพื่อรับข้อมูลจากแหล่งนับไม่ถ้วน สมองของมนุษย์ผสานรวมรูปแบบข้อมูลที่ซับซ้อนเหล่านี้เพื่อสร้าง "ภาพ" ของความเป็นจริงที่สดใส

เว็บไซต์อย่างเป็นทางการของ IBM ให้คำจำกัดความของ AI หลายรูปแบบดังนี้ โดยสามารถรวมและประมวลผลโมเดลการเรียนรู้ของเครื่องจากรูปแบบต่างๆ (ประเภทข้อมูล) รวมถึงการป้อนข้อมูลในรูปแบบข้อความ รูปภาพ เสียง วิดีโอ ฯลฯ มันเหมือนกับการให้ความรู้สึกทั้งชุดแก่ AI เพื่อให้สามารถรับรู้และเข้าใจข้อมูลที่ป้อนเข้าจากหลายมุม

ความสามารถนี้ในการทำความเข้าใจและสร้างข้อมูลในรูปแบบต่างๆ ได้เหนือกว่า AI แบบโมดัลเดี่ยวก่อนหน้านี้ที่มุ่งเน้นไปที่การบูรณาการและประมวลผลแหล่งข้อมูลเฉพาะ และได้รับความนิยมจากยักษ์ใหญ่ด้านเทคโนโลยีรายใหญ่

ในการประชุมการสื่อสารเคลื่อนที่ประจำปีนี้ Qualcomm ได้ปรับใช้โมเดลหลายรูปแบบขนาดใหญ่ที่พัฒนาบนโทรศัพท์ Android เป็นครั้งแรก ไม่ว่าผู้ใช้จะป้อนรูปภาพ เสียง หรือข้อมูลอื่นๆ ก็สามารถสื่อสารกับผู้ช่วย AI ได้อย่างราบรื่น เช่นผู้ใช้สามารถถ่ายรูปอาหารและถามผู้ช่วย AI ว่าส่วนผสมเหล่านี้คืออะไร? ทำอาหารอะไรได้บ้าง? แต่ละจานมีกี่แคลอรี่? ผู้ช่วย AI สามารถให้คำตอบโดยละเอียดตามข้อมูลภาพถ่าย

ในเดือนพฤษภาคมของปีนี้ OpenAI ได้เปิดตัวรุ่น multi-modal GPT-4o ซึ่งรองรับอินพุตและเอาต์พุตของข้อความ เสียง และรูปภาพผสมกัน ต่อจากนั้น Google ยังได้เปิดตัวผลิตภัณฑ์ AI หลากหลายรูปแบบล่าสุด Gemini 1.5 Pro ในวันถัดไป

เมื่อวันที่ 25 กันยายน บริษัท Metaverse Platform ได้เปิดตัว Llama 3.2 รุ่นภาษาขนาดใหญ่โอเพ่นซอร์สล่าสุด Mark Zuckerberg ซีอีโอของบริษัทกล่าวในปาฐกถาพิเศษว่า นี่เป็นโมเดลโอเพ่นซอร์สหลายรูปแบบตัวแรกของบริษัทที่สามารถประมวลผลข้อความและข้อมูลภาพไปพร้อมๆ กัน ถือเป็นความก้าวหน้าที่สำคัญของ AI ในการทำความเข้าใจสถานการณ์การใช้งานที่ซับซ้อนมากขึ้น

ส่งเสริมการเปลี่ยนแปลงในด้านต่างๆ อย่างเงียบๆ

Multimodal AI กำลังเปลี่ยนโฉมหน้าของหลายสาขาอย่างเงียบๆ

ในด้านการดูแลสุขภาพ "Watson Health" ของไอบีเอ็มกำลังวิเคราะห์ข้อมูลภาพของผู้ป่วย ข้อความเวชระเบียน และข้อมูลทางพันธุกรรมอย่างครอบคลุม เพื่อช่วยให้แพทย์วินิจฉัยโรคได้แม่นยำยิ่งขึ้น และสนับสนุนแพทย์ในการกำหนดแผนการรักษาเฉพาะบุคคลสำหรับผู้ป่วย

อุตสาหกรรมสร้างสรรค์ก็อยู่ระหว่างการเปลี่ยนแปลงเช่นกัน ผู้เชี่ยวชาญด้านการตลาดดิจิทัลและผู้สร้างภาพยนตร์ใช้ประโยชน์จากเทคโนโลยีนี้เพื่อสร้างเนื้อหาที่ปรับแต่งเอง ลองจินตนาการว่าระบบ AI สามารถเขียนสคริปต์ที่น่าสนใจ สร้างสตอรี่บอร์ด (ชุดภาพประกอบที่จัดเรียงไว้ด้วยกันเพื่อสร้างเรื่องราวด้วยภาพ) สร้างเพลงประกอบ และแม้แต่สร้างฉากตัดเบื้องต้นได้ด้วยคำแนะนำหรือแนวคิดง่ายๆ

สาขาการศึกษาและการฝึกอบรมกำลังมุ่งสู่การเรียนรู้ส่วนบุคคลด้วยความช่วยเหลือของ AI แบบหลายรูปแบบ แพลตฟอร์มการเรียนรู้แบบปรับตัวที่พัฒนาโดย Newton Company ในสหรัฐอเมริกาสามารถใช้ AI หลายรูปแบบเพื่อวิเคราะห์พฤติกรรมการเรียนรู้ สำนวน และเสียงของนักเรียนอย่างลึกซึ้ง และปรับเนื้อหาการสอนและความยากในแบบเรียลไทม์ ข้อมูลการทดลองแสดงให้เห็นว่าวิธีนี้สามารถปรับปรุงประสิทธิภาพการเรียนรู้ของนักเรียนได้ 40%

การบริการลูกค้ายังเป็นหนึ่งในแอปพลิเคชันที่น่าตื่นเต้นของระบบ AI ต่อเนื่องหลายรูปแบบ แชทบอทไม่เพียงแต่สามารถตอบสนองต่อข้อความค้นหาเท่านั้น แต่ยังเข้าใจน้ำเสียงของลูกค้า วิเคราะห์การแสดงออกทางสีหน้า และตอบสนองด้วยภาษาและภาพที่เหมาะสมอีกด้วย การสื่อสารที่เหมือนมนุษย์มากขึ้นนี้สัญญาว่าจะปฏิวัติวิธีที่ธุรกิจโต้ตอบกับลูกค้า

ความท้าทายด้านจริยธรรมด้านเทคโนโลยียังคงต้องได้รับการแก้ไข

อย่างไรก็ตาม การพัฒนา AI หลายรูปแบบยังเผชิญกับความท้าทายมากมาย

Henry Idel ผู้ก่อตั้งบริษัทที่ปรึกษา AI Hidden Space กล่าวว่าพลังของ AI ต่อเนื่องหลายรูปแบบอยู่ที่ความสามารถในการรวมข้อมูลหลายประเภทเข้าด้วยกัน อย่างไรก็ตาม วิธีการรวมข้อมูลเหล่านี้อย่างมีประสิทธิภาพยังคงเป็นปัญหาทางเทคนิค

นอกจากนี้ โมเดล AI แบบหลายโมดัลมักใช้ทรัพยากรการประมวลผลจำนวนมากระหว่างการดำเนินการ ซึ่งทำให้ต้นทุนแอปพลิเคชันเพิ่มขึ้นอย่างไม่ต้องสงสัย

ข้อมูลต่อเนื่องหลายรูปแบบมีข้อมูลส่วนบุคคลมากกว่า เมื่อระบบ AI หลายรูปแบบสามารถระบุใบหน้า เสียง และแม้กระทั่งสถานะทางอารมณ์ได้อย่างง่ายดาย จะแน่ใจได้อย่างไรว่าความเป็นส่วนตัวจะได้รับการเคารพและปกป้อง และจะใช้มาตรการที่มีประสิทธิภาพเพื่อป้องกันไม่ให้มีการใช้เพื่อสร้าง "ดีพเฟค" หรือเนื้อหาที่ทำให้เข้าใจผิดอื่น ๆ ได้อย่างไร นี่เป็นคำถามทั้งหมดที่ควรค่าแก่การไตร่ตรอง