كيف سيبدو الذكاء الاصطناعي (AI) في المستقبل؟ تخيل أنهم يستطيعون فهم المهام المعقدة وتنفيذها بمجرد أمر بسيط؛ كما يمكنهم أيضًا التقاط تعبيرات المستخدم وحركاته بصريًا لتحديد حالته العاطفية. لم يعد هذا مشهدًا من أفلام الخيال العلمي في هوليوود، بل أصبح "ذكاءً اصطناعيًا متعدد الوسائط" يدخل إلى الواقع تدريجيًا.
وفقًا لتقرير حديث لموقع "فوربس" الأمريكي، فإن عمالقة مثل Metaverse Platform Company وOpenAI وGoogle أطلقوا جميعهم أنظمة الذكاء الاصطناعي متعددة الوسائط الخاصة بهم ولا يدخرون جهدًا لزيادة الاستثمار في البحث والتطوير لمثل هذه الأنظمة والسعي لتحسين النماذج المختلفة لتحسين دقة إخراج المحتوى الديناميكي، وبالتالي تحسين التجربة التفاعلية بين الذكاء الاصطناعي والمستخدمين.
يمثل الذكاء الاصطناعي متعدد الوسائط تغييراً نموذجيًا. وسوف يغير وجه العديد من الصناعات بشكل عميق ويعيد تشكيل العالم الرقمي.
منح الذكاء الاصطناعي قدرات "متعددة الحواس".
كيف يفهم الإنسان العالم؟ نحن نعتمد على حواس متعددة مثل البصر والسمع واللمس لتلقي المعلومات من مصادر لا حصر لها. يدمج العقل البشري أنماط البيانات المعقدة هذه لرسم "صورة" حية للواقع.
يحدد الموقع الرسمي لشركة IBM الذكاء الاصطناعي متعدد الوسائط على النحو التالي: يمكنه دمج ومعالجة نماذج التعلم الآلي من طرائق متعددة (أنواع البيانات)، بما في ذلك المدخلات في شكل نص وصور وصوت وفيديو وما إلى ذلك. إنه يشبه إعطاء الذكاء الاصطناعي مجموعة كاملة من الحواس حتى يتمكن من إدراك وفهم المعلومات المدخلة من زوايا متعددة.
لقد تجاوزت هذه القدرة على فهم المعلومات وإنشائها عبر طرائق مختلفة الذكاء الاصطناعي أحادي النمط السابق الذي ركز على دمج ومعالجة مصادر بيانات محددة، وقد نالت استحسان عمالقة التكنولوجيا الكبار.
في مؤتمر الاتصالات المتنقلة لهذا العام، نشرت شركة Qualcomm النموذج الكبير متعدد الوسائط الذي طورته على هاتف Android لأول مرة. سواء كان المستخدمون يقومون بإدخال الصور أو الصوت أو غيرها من المعلومات، يمكنهم التواصل بسلاسة مع مساعد الذكاء الاصطناعي. على سبيل المثال، يمكن للمستخدمين التقاط صورة للطعام وسؤال مساعد الذكاء الاصطناعي: ما هي هذه المكونات؟ ما الأطباق التي يمكن تحضيرها؟ كم عدد السعرات الحرارية في كل طبق؟ يمكن لمساعد الذكاء الاصطناعي تقديم إجابات مفصلة بناءً على معلومات الصورة.
في مايو من هذا العام، أصدرت OpenAI النموذج متعدد الوسائط GPT-4o، والذي يدعم الإدخال والإخراج لأي مجموعة من النصوص والصوت والصور. وبعد ذلك، أطلقت Google أيضًا أحدث منتجات الذكاء الاصطناعي متعدد الوسائط Gemini 1.5 Pro في اليوم التالي.
في 25 سبتمبر، أصدرت شركة Metaverse Platform أحدث نموذج لغة كبير مفتوح المصدر Llama 3.2. قال الرئيس التنفيذي للشركة مارك زوكربيرج في الخطاب الرئيسي أن هذا هو أول نموذج متعدد الوسائط مفتوح المصدر للشركة يمكنه معالجة البيانات النصية والمرئية في وقت واحد، مما يمثل تقدمًا كبيرًا للذكاء الاصطناعي في فهم سيناريوهات التطبيقات الأكثر تعقيدًا.
تعزيز التغييرات بهدوء في مختلف المجالات
يعمل الذكاء الاصطناعي متعدد الوسائط على تغيير وجه العديد من المجالات بهدوء.
في مجال الرعاية الصحية، يقوم برنامج "Watson Health" التابع لشركة IBM بتحليل بيانات التصوير الخاصة بالمرضى ونصوص السجلات الطبية والبيانات الجينية بشكل شامل لمساعدة الأطباء على تشخيص الأمراض بشكل أكثر دقة ودعم الأطباء بقوة في صياغة خطط علاج شخصية للمرضى.
كما تشهد الصناعات الإبداعية تحولاً. يستفيد خبراء التسويق الرقمي وصانعو الأفلام من هذه التكنولوجيا لإنشاء محتوى مخصص. فقط تخيل، من خلال فكرة أو مفهوم بسيط، يمكن لنظام الذكاء الاصطناعي كتابة نص مقنع، وإنشاء لوحة عمل (سلسلة من الرسوم التوضيحية مرتبة معًا لتكوين قصة مرئية)، وإنشاء مقطع صوتي، وحتى إنتاج مقاطع أولية من المشهد.
يتجه مجال التعليم والتدريب أيضًا نحو التعلم الشخصي بمساعدة الذكاء الاصطناعي متعدد الوسائط. يمكن لمنصة التعلم التكيفي التي طورتها شركة Newton Company في الولايات المتحدة استخدام الذكاء الاصطناعي متعدد الوسائط لتحليل سلوكيات التعلم لدى الطلاب وتعبيراتهم وأصواتهم بعمق، وضبط محتوى التدريس وصعوبة ذلك في الوقت الفعلي. تظهر البيانات التجريبية أن هذه الطريقة يمكن أن تحسن كفاءة تعلم الطلاب بنسبة 40%.
تعد خدمة العملاء أيضًا أحد التطبيقات المثيرة لأنظمة الذكاء الاصطناعي متعددة الوسائط. لا تستطيع روبوتات الدردشة الاستجابة للاستعلامات النصية فحسب، بل يمكنها أيضًا فهم نبرة صوت العميل، وتحليل تعابير وجهه، والرد باللغة المناسبة والإشارات المرئية. يعد هذا التواصل الشبيه بالإنسان بإحداث ثورة في طريقة تفاعل الشركات مع العملاء.
لا تزال هناك حاجة للتغلب على تحديات أخلاقيات التكنولوجيا
ومع ذلك، فإن تطوير الذكاء الاصطناعي متعدد الوسائط يواجه أيضًا العديد من التحديات.
قال هنري إيدل، مؤسس شركة استشارات الذكاء الاصطناعي Hidden Space، إن قوة الذكاء الاصطناعي متعدد الوسائط تكمن في قدرته على دمج أنواع بيانات متعددة. ومع ذلك، فإن كيفية دمج هذه البيانات بشكل فعال لا تزال مشكلة فنية.
بالإضافة إلى ذلك، غالبًا ما تستهلك نماذج الذكاء الاصطناعي متعددة الوسائط كمية كبيرة من موارد الحوسبة أثناء التشغيل، مما يزيد بلا شك من تكاليف تطبيقاتها.
والجدير بالذكر أن البيانات متعددة الوسائط تحتوي على المزيد من المعلومات الشخصية. عندما تتمكن أنظمة الذكاء الاصطناعي متعددة الوسائط من التعرف بسهولة على الوجوه والأصوات وحتى الحالات العاطفية، فكيف نضمن احترام الخصوصية الشخصية وحمايتها؟ وكيف يمكن اتخاذ تدابير فعالة لمنع استخدامها لإنشاء "تزييف عميق" أو محتوى مضلل آخر؟ هذه كلها أسئلة تستحق التأمل.