Visual Captions Untertitel-Tool, Visual Captions ist ein neu eingeführtes leistungsstarkes Untertitel-Tool, das die Anzeige von mehr Untertiteln für Arbeitsbesprechungen der Benutzer verbessern und die Bürokommunikation komfortabler gestalten kann. Benutzer in Not können zu uns kommen.
Google demonstrierte auf der ACM CHI (Conference on Human Factors in Computing Systems), der führenden Konferenz zur Mensch-Computer-Interaktion, ein System, Visual Captions, und stellte eine neue visuelle Lösung für Remote-Meetings vor, mit der Bilder im Kontext generiert oder abgerufen werden können Gespräch, um die Leistung der anderen Partei zu verbessern. Kenntnisse über komplexe oder unbekannte Konzepte.
Das Visual Captions-System basiert auf einem fein abgestimmten groß angelegten Sprachmodell, das relevante visuelle Elemente in Gesprächen mit offenem Vokabular proaktiv empfehlen kann und wurde in das Open-Source-Projekt ARChat integriert.
In der Benutzerumfrage luden die Forscher 26 Teilnehmer im Labor und 10 Teilnehmer außerhalb des Labors ein, um das System zu bewerten. Mehr als 80 % der Benutzer waren sich grundsätzlich einig, dass Videountertitel in verschiedenen Szenarien nützliche und aussagekräftige Videountertitel liefern können und verbessern Sie das Kommunikationserlebnis.
Vor der Entwicklung luden die Forscher zunächst 10 interne Teilnehmer ein, darunter Softwareentwickler, Forscher, UX-Designer, bildende Künstler, Studenten und andere Praktiker mit technischem und nichttechnischem Hintergrund, um die spezifischen Bedürfnisse und Anforderungen für visuelle Verbesserungsdienste in Echtzeit zu besprechen. erwarten.
Nach zwei Besprechungen wurde auf der Grundlage des vorhandenen Text-zu-Bild-Systems der grundlegende Entwurf des erwarteten Prototypsystems festgelegt, der hauptsächlich acht Dimensionen umfasste (bezeichnet als D1 bis D8).
D1: Timing, das visuelle Verbesserungssystem kann synchron oder asynchron mit dem Dialog angezeigt werden
D2: Thema, das zum Ausdrücken und Verstehen von Sprachinhalten genutzt werden kann
D3: Visuell, unter Verwendung einer breiten Palette an visuellen Inhalten, visuellen Typen und visuellen Quellen
D4: Skalierung, visuelle Verbesserungen können je nach Meetinggröße variieren
D5: Raum, unabhängig davon, ob die Videokonferenz am selben Ort oder in einer entfernten Umgebung stattfindet
D6: Datenschutz: Diese Faktoren beeinflussen auch, ob Bildmaterial privat angezeigt, unter den Teilnehmern geteilt oder allen zugänglich gemacht werden soll
D7: Ausgangszustand: Die Teilnehmer identifizierten auch unterschiedliche Arten, wie sie mit dem System interagieren möchten, wenn sie sich an einem Gespräch beteiligen, zum Beispiel verschiedene Ebenen der „Initiative“, bei denen Benutzer autonom bestimmen können, wann das System in den Chat eingreift. D8: Interaktion, Teilnehmer stellten sich verschiedene Interaktionsmethoden vor, beispielsweise die Eingabe per Sprache oder Gesten