أداة الترجمة التوضيحية المرئية، Visual Captions هي أداة ترجمة قوية تم إطلاقها حديثًا يمكنها تحسين عرض المزيد من الترجمات لاجتماعات عمل المستخدمين وجعل الاتصالات المكتبية أكثر ملاءمة. يمكن للمستخدمين المحتاجين القدوم والانضمام إلينا.
عرضت Google نظامًا، Visual Captions، في ACM CHI (مؤتمر العوامل البشرية في أنظمة الحوسبة)، وهو المؤتمر الأعلى حول التفاعل بين الإنسان والحاسوب، حيث قدم حلاً مرئيًا جديدًا في الاجتماعات عن بعد يمكنه إنشاء أو استرجاع الصور في سياق المحادثة لتحسين أداء الطرف الآخر. معرفة المفاهيم المعقدة أو غير المألوفة.
يعتمد نظام Visual Captions على نموذج لغة دقيق وواسع النطاق يمكنه التوصية بشكل استباقي بالعناصر المرئية ذات الصلة في محادثات المفردات المفتوحة، وقد تم دمجه في مشروع ARChat مفتوح المصدر.
في استطلاع رأي المستخدمين، دعا الباحثون 26 مشاركًا في المختبر و10 مشاركين من خارج المختبر لتقييم النظام. وافق أكثر من 80% من المستخدمين بشكل أساسي على أن مقاطع الفيديو التوضيحية يمكن أن توفر تعليقات فيديو في سيناريوهات مختلفة تكون مفيدة وذات معنى ، وتعزيز تجربة الاتصال.
قبل التطوير، دعا الباحثون أولاً 10 مشاركين داخليين، بما في ذلك مهندسي البرمجيات والباحثين ومصممي تجربة المستخدم والفنانين البصريين والطلاب وغيرهم من الممارسين ذوي الخلفيات التقنية وغير التقنية، لمناقشة الاحتياجات والمتطلبات المحددة لخدمات التحسين البصري في الوقت الفعلي. يتوقع.
بعد اجتماعين، استنادًا إلى نظام تحويل النص إلى صورة الحالي، تم إنشاء التصميم الأساسي لنظام النموذج الأولي المتوقع، والذي يتضمن بشكل أساسي ثمانية أبعاد (يشار إليها بـ D1 إلى D8).
D1: التوقيت، يمكن عرض نظام التحسين البصري بشكل متزامن أو غير متزامن مع الحوار
D2: الموضوع الذي يمكن استخدامه للتعبير عن محتوى الكلام وفهمه
D3: مرئي، يستخدم نطاقًا واسعًا من المحتوى المرئي والأنواع المرئية والمصادر المرئية
D4: النطاق، قد تختلف التحسينات المرئية حسب حجم الاجتماع
D5: المساحة، سواء كان مؤتمر الفيديو في مكان مشترك أو في مكان بعيد
د6: الخصوصية، تؤثر هذه العوامل أيضًا على ما إذا كان يجب عرض العناصر المرئية بشكل خاص، أو مشاركتها بين المشاركين، أو إتاحتها للجميع
D7: الحالة الأولية، حدد المشاركون أيضًا الطرق المختلفة التي يرغبون في التفاعل مع النظام عند المشاركة في محادثة، على سبيل المثال، مستويات مختلفة من "المبادرة" حيث يمكن للمستخدمين تحديد بشكل مستقل متى يتدخل النظام في الدردشة D8: التفاعل، المشاركون تصور طرق تفاعل مختلفة، مثل الإدخال باستخدام الصوت أو الإيماءات