VSP-LLM: จดจำภาษาริมฝีปากโดยการสังเกตรูปปากของผู้คนในวิดีโอ
VSP-LLM เป็นเทคโนโลยีที่เข้าใจและแปลเนื้อหาคำพูดโดยการสังเกตรูปปากของบุคคลในวิดีโอ โดยส่วนใหญ่จะใช้เพื่อจดจำภาษาริมฝีปาก ด้วยการแปลงการเคลื่อนไหวของริมฝีปากให้เป็นข้อความและแปลเป็นภาษาเป้าหมาย ผสมผสานกับการรู้จำเสียงพูดด้วยภาพขั้นสูงและโมเดลภาษาขนาดใหญ่ V
2025-02-05













