أصدرت NVIDIA مخططًا جديدًا للفيديو من الذكاء الاصطناعي ومخططه تحليل الفيديو. يعتمد هذا الحل على بنية الخدمات الصغيرة NVIDIA NIM. واجهة API البسيطة. وتشمل مكوناتها الأساسية معالجات الدفق ، و Nemo Basslails ، وخطوط أنابيب VLM استنادًا إلى NVIDIA Deepstream SDK ، وقواعد بيانات المتجهات ، ووحدات خرقة واعية للسياق ، ووحدات الرسم البياني ، وتنفيذ عملية تحليل فيديو فعالة.
أصدرت NVIDIA مؤخرًا بحثًا جديدًا عن مقطع الفيديو من الذكاء الاصطناعي ومخطط ملخص (مخطط AI للبحث عن الفيديو وتلخيصه) ، وهو حل تقني يغير تمامًا القيود المفروضة على تحليل الفيديو التقليدي. على عكس النموذج الثابت الذي تم التعرف عليه فقط الكائنات المسبقة في الماضي ، يحقق الحل الجديد فهمًا عميقًا وتفاعلًا طبيعيًا لمحتوى الفيديو من خلال الجمع بين الذكاء الاصطناعي ، ونموذج اللغة البصرية (VLM) ونموذج اللغة الكبير (LLM).
تم تصميم هذا النظام على بنية Nvidia Nim Microservice ، وصالحه الأساسية تكمن في إمكانياتها القوية لفهم الفيديو. من خلال الجمع بين التقنيات عضويا مثل معالجة تجزئة الفيديو ، الوصف المكثف للإنشاء وبناء الرسم البياني للمعرفة ، يمكن للنظام فهم محتوى الفيديو الطويل للغاية وتحليله. يمكن للمستخدمين استخدام واجهة REST API بسيطة لتحقيق توليد ملخص الفيديو ، و Q&A التفاعلي ، ومراقبة الأحداث المخصصة لتيارات الفيديو في الوقت الفعلي.

من البنية التقنية ، يتضمن هذا الحل مكونات رئيسية متعددة: يضمن معالج الدفق المسؤول عن التفاعل والمتزامنة بين المكونات ؛ المتجهات تخزن قاعدة البيانات النتائج الوسيطة ؛

في التطبيقات العملية ، يقوم النظام أولاً بتقسيم الفيديو إلى شرائح أصغر ، ويولد أوصافًا مكثفة من خلال VLM ، ثم يستخدم LLM لتلخيص النتائج وتحليلها. بالنسبة للتيارات المباشرة ، يمكن للنظام معالجة مقاطع الفيديو بشكل مستمر وإنشاء ملخص في الوقت الفعلي. في الوقت نفسه ، من خلال بناء رسم بياني للمعرفة ، يمكن للنظام التقاط معلومات معقدة بدقة في الفيديو ودعم تفاعلات أسئلة وأجوبة أعمق.
سيؤدي هذا الاختراق التكنولوجي إلى إحداث تغييرات ثورية في المصانع والمستودعات ومتاجر البيع بالتجزئة والمطارات ومراكز النقل. يمكن لفرق العمليات الحصول على رؤى تحليلات الفيديو الأكثر ثراءً من خلال التفاعلات اللغوية الطبيعية لاتخاذ قرارات أكثر ذكاءً.
في الوقت الحاضر ، فتحت Nvidia تطبيقات الوصول المبكر لهذا البرنامج الفني. يمكن للمطورين اختيار النماذج المناسبة من خلال دليل API الذي توفره NVIDIA ، إما باستخدام الخدمات المستضافة NVIDIA أو اختيار حلول النشر المحلية. سيساعد خيار النشر المرن هذا المؤسسات على إنشاء حلول مخصصة لتحليل الفيديو بناءً على الاحتياجات الفعلية.
مع التقدم المستمر لتكنولوجيا الذكاء الاصطناعى ، نشهد تغييرات هزلية في مجال تحليل الفيديو. إن إطلاق NVIDIA ، وهو أحدث حل فني ، سيسارع بلا شك تنفيذ تحليل الفيديو الذكي في مختلف الصناعات.
التفاصيل: https://developer.nvidia.com/blog/build-a-vide-search-and-summarization-agent-with-nvidia-ai-blueprint
باختصار ، يوفر البحث عن الفيديو والمخطط الملخص في NVIDIA حلًا قويًا ومرنًا لتحليل الفيديو ، مما يجعل قدرات معالجة بيانات الفيديو أكثر ذكاءً وفعالية لجميع الصناعات ، وتسريع تنفيذ تكنولوجيا الذكاء الاصطناعي في التطبيقات العملية. يوفر الوصول المفتوح لهذا الحل أيضًا للمطورين المزيد من الاحتمالات ويتطلعون إلى رؤية تطبيقات أكثر ابتكارًا بناءً على هذه التكنولوجيا في المستقبل.