VSP-LLM: ビデオ内の人の口の形を観察して口唇言語を認識します
VSP-LLMは、ビデオ内の人の口の形を観察して音声内容を理解して翻訳する技術で、主に口唇言語を認識するために使用されます。 VSP-LLM は、唇の動きをテキストに変換し、ターゲット言語に翻訳することにより、高度な視覚音声認識および大規模な言語モデルと組み合わせることで、効率的な処理を可能にします。自己教師あり学習、冗長な情報の削除、マルチタスクの実行、および低
2025-02-05













