ใหม่ Open Source Audio Model Hertz-Dev: เวลาแฝงที่ต่ำเป็นพิเศษบทสนทนา AI แบบเรียลไทม์-บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-16 23:16:01

ในช่วงไม่กี่ปีที่ผ่านมา AI การสนทนาแบบเรียลไทม์ได้รับความสนใจอย่างมาก แต่ปัญหาของความล่าช้านั้นเป็นปัจจัยสำคัญที่ จำกัด การพัฒนา เวลารอคอยในระยะยาวส่งผลกระทบต่อประสบการณ์ผู้ใช้อย่างจริงจังและลดการใช้งานจริงของ AI เพื่อแก้ปัญหานี้ Standard Intelligence Lab ได้เปิดตัวโมเดลเสียงพารามิเตอร์โอเพนซอร์ส 850 ล้านตัวที่เรียกว่า Hertz-Dev ซึ่งคาดว่าจะเปลี่ยนภูมิทัศน์ของ AI การสนทนาแบบเรียลไทม์อย่างสมบูรณ์และให้เครื่องมือที่สะดวกและมีประสิทธิภาพมากขึ้น

ในคลื่นของเทคโนโลยีในปัจจุบันปัญญาประดิษฐ์การสนทนา (AI) ได้กลายเป็นส่วนสำคัญในชีวิตของเรา อย่างไรก็ตามการโต้ตอบที่รวดเร็วมีประสิทธิภาพและเรียลไทม์ยังคงเป็นความท้าทายที่ยิ่งใหญ่ โดยเฉพาะอย่างยิ่งปัญหาการหน่วงเวลาหมายถึงความแตกต่างของเวลาระหว่างการป้อนข้อมูลและการตอบสนองซึ่งมักจะทำให้ประสบการณ์ของหุ่นยนต์บริการลูกค้าและผู้ช่วยเสมือนช้าลงส่งผลกระทบต่อประสบการณ์ของผู้ใช้

เพื่อเติมเต็มช่องว่างนี้เมื่อเร็ว ๆ นี้ Standard Intelligence Lab ได้เปิดตัว Hertz-Dev ซึ่งเป็นโมเดลเสียงพารามิเตอร์โอเพนซอร์ส 850 ล้านตัวที่ออกแบบมาเพื่อให้ได้การก้าวกระโดดใน AI การสนทนาแบบเรียลไทม์

ไฮไลท์ที่ใหญ่ที่สุดของ Hertz-Dev คือตัวชี้วัดประสิทธิภาพที่ยอดเยี่ยมโดยมีเวลาแฝงทางทฤษฎีเพียง 80 มิลลิวินาทีและ 120 มิลลิวินาทีในการใช้งานจริงซึ่งทั้งหมดต้องใช้การ์ดกราฟิก Nvidia RTX4090 เท่านั้น แบบจำลองที่มีประสิทธิภาพนี้ช่วยให้นักพัฒนาและนักวิจัยได้สัมผัสกับเทคโนโลยี AI ขั้นสูงโดยไม่จำเป็นต้องมีโครงสร้างพื้นฐานขนาดใหญ่ทำให้เทคโนโลยีการสร้างแบบจำลองเสียงที่ซับซ้อนอยู่ในระดับสูง

เป็นมูลค่าการกล่าวขวัญว่าสถาปัตยกรรมของ Hertz-Dev ใช้เทคโนโลยีการเพิ่มประสิทธิภาพแบบใหม่ที่หลากหลายเพื่อให้แน่ใจว่าคุณภาพการส่งออกยังคงสูงในขณะที่ลดภาระการคำนวณ ประสิทธิภาพการดำเนินงานช่วยให้นักพัฒนาอิสระผู้เริ่มต้นและองค์กรขนาดใหญ่สามารถบรรลุแอพพลิเคชั่นประสิทธิภาพสูงในขณะที่ควบคุมต้นทุน ประสิทธิภาพของโมเดลนี้เป็นการปฏิวัติทำให้การมีปฏิสัมพันธ์ระหว่างมนุษย์และเครื่องจักรเป็นธรรมชาติมากขึ้นเกือบจะเทียบได้กับการสื่อสารระหว่างมนุษย์

การประมวลผลเสียงแบบเรียลไทม์มีโอกาสในการใช้งานที่หลากหลายรวมถึงการสนับสนุนลูกค้าอัตโนมัติพันธมิตร AI แบบโต้ตอบและเครื่องมือเสริมที่สะดวกสำหรับผู้ใช้ที่มีความต้องการพิเศษ Hertz-Dev ช่วยปรับปรุงการโต้ตอบของ AI โดยการควบคุมความล่าช้าให้น้อยกว่า 120 มิลลิวินาทีทำให้ประสบการณ์แบบโต้ตอบแทบจะมองไม่เห็น การทดสอบเบื้องต้นแสดงให้เห็นว่า Hertz-Dev สามารถลดเวลาตอบสนองได้มากถึง 40% เมื่อเทียบกับรุ่นโอเพนซอร์สก่อนหน้านี้ ความยืดหยุ่นนี้ทำให้เหมาะสำหรับสถานการณ์ที่หลากหลายตั้งแต่การควบคุมเสียงในบ้านอัจฉริยะไปจนถึงระบบอัตโนมัติของการบริการลูกค้า

การเปิดตัว Standard Intelligence Lab ของ Hertz-Dev อย่างไม่ต้องสงสัยนำความหวังใหม่มาสู่อนาคตของ AI การสนทนาแบบเรียลไทม์ มันไม่เพียง แต่เป็นแบบจำลองโอเพนซอร์สที่มีพารามิเตอร์สูงและมีประสิทธิภาพสูง แต่ยังเปิดโอกาสให้นักพัฒนาและนักวิจัยได้มากขึ้นในการสำรวจความเป็นไปได้ที่ไม่มีที่สิ้นสุดของการสนทนากับ AI ด้วยการใช้อย่างกว้างขวางของ Hertz-Dev เราสามารถตั้งตารอการมาถึงของยุคปัญญาประดิษฐ์ที่เร็วขึ้นและมีความเป็นมนุษย์มากขึ้น

ทางเข้าโครงการ: https://github.com/standard-intelligence/hertz-dev

รายละเอียด: https://si.inc/hertz-dev/

ประเด็นสำคัญ:

Hertz-Dev เป็นโมเดลเสียงพารามิเตอร์โอเพนซอร์ส 850 ล้านตัวที่มีความล่าช้าทางทฤษฎีเพียง 80 มิลลิวินาทีและความล่าช้าจริง 120 มิลลิวินาที

รุ่นนี้ช่วยให้นักพัฒนาอิสระและนักวิจัยสามารถใช้เทคโนโลยี AI การสนทนาแบบเรียลไทม์ขั้นสูงได้อย่างง่ายดายโดยไม่จำเป็นต้องมีการสนับสนุนฮาร์ดแวร์ขนาดใหญ่

การประยุกต์ใช้อย่างกว้างขวางของ Hertz-Dev จะส่งเสริมการพัฒนาปัญญาประดิษฐ์ในหลายสาขาเช่นการสนับสนุนลูกค้าและบ้านอัจฉริยะทำให้มีปฏิสัมพันธ์กับเครื่องจักรที่เป็นธรรมชาติมากขึ้น

การเกิดขึ้นของ Hertz-Dev เป็นเหตุการณ์สำคัญใหม่สำหรับเทคโนโลยี AI การสนทนาแบบเรียลไทม์ ประสิทธิภาพที่มีประสิทธิภาพและลักษณะโอเพ่นซอร์สจะส่งเสริมการใช้งานและการพัฒนาเทคโนโลยี AI อย่างมากในทุกช่วงชีวิตและมีส่วนช่วยในการสร้างอนาคตที่ชาญฉลาดและสะดวกสบายยิ่งขึ้น