บรรณาธิการของ Downcodes ได้เรียนรู้ว่า Fish Agent V0.13B โมเดลการประมวลผลคำพูดล่าสุดที่ออกโดยบริษัท Fish Audio ได้สร้างกระแสในด้านคำพูดของ AI ด้วยความสามารถในการสร้างและประมวลผลคำพูดที่มีประสิทธิภาพและแม่นยำ โมเดลนี้เก่งเป็นพิเศษในการจำลองและโคลนเสียงต่างๆ ปรับปรุงความเที่ยงตรงและความเร็วในการตอบสนองของผู้ช่วยเสียง AI อย่างมีนัยสำคัญ และมอบประสบการณ์การโต้ตอบด้วยเสียงที่เป็นธรรมชาติและราบรื่นยิ่งขึ้นแก่ผู้ใช้ สถาปัตยกรรมที่เป็นนวัตกรรมใหม่ช่วยให้การโคลนเสียงและการแปลงข้อความเป็นคำพูด "ทันที" ด้วยเวลาการแปลงเพียง 200 มิลลิวินาที ซึ่งช่วยให้สามารถแสดงศักยภาพที่ยอดเยี่ยมในแอปพลิเคชันสร้างเสียงแบบเรียลไทม์ เช่น ผู้ช่วยด้านเสียงและการบริการลูกค้าแบบอัตโนมัติ

ด้วยสถาปัตยกรรมที่เป็นนวัตกรรมนี้ Fish Agent V0.13B จึงสามารถสร้างคำพูดคุณภาพสูงได้อย่างรวดเร็วและเป็นธรรมชาติ บรรลุการโคลนคำพูดและการแปลงข้อความเป็นคำพูด "ทันที" ด้วยเวลาการแปลงข้อความเป็นเสียง (TTFA) ที่ เพียง 200 มิลลิวินาที คุณสมบัตินี้ทำให้เหมาะสำหรับสถานการณ์แอปพลิเคชันที่ต้องใช้การสร้างคำพูดแบบเรียลไทม์ เช่น ผู้ช่วยเสียง การบริการลูกค้าแบบอัตโนมัติ และสถานการณ์อื่นๆ ที่ต้องใช้เสียงตอบรับที่รวดเร็ว
รุ่น Fish Agent V0.13B รองรับหลายภาษา รวมถึงอังกฤษ จีน เยอรมัน ญี่ปุ่น ฝรั่งเศส สเปน เกาหลี และอารบิก และได้รับการฝึกอบรมโดยใช้ข้อมูลเสียงหลายภาษาประมาณ 700,000 ชั่วโมง ซึ่งหมายความว่าสามารถจัดการภาษาและบริบทได้หลายภาษา และสร้างคำพูดที่เป็นธรรมชาติมากขึ้นและใกล้เคียงกับสิ่งที่คนจริงจะออกเสียงมากขึ้น
นอกเหนือจากความสามารถในการสร้างคำพูดเป็นคำพูดและความสามารถในการแปลงข้อความเป็นคำพูดแล้ว Fish Agent V0.13B ยังมีคุณสมบัติที่สำคัญดังต่อไปนี้:
การโคลนเสียงแบบไม่มีตัวอย่าง: การโคลนเสียงสามารถทำได้โดยไม่ต้องมีการฝึกอบรม
พารามิเตอร์ 3B ที่ปรับปรุงใหม่: ใช้พารามิเตอร์ 3 พันล้านตัวเพื่ออำนวยความสะดวกในการพัฒนา
รองรับการป้อนข้อมูลข้อความและเสียง: วิธีการป้อนข้อมูลหลายวิธีที่ยืดหยุ่น
ปัจจุบัน Fish Audio ได้เปิดซอร์สโมเดล Fish Agent V0.13B และจัดเตรียมเวอร์ชันสาธิตเบื้องต้นให้ผู้ใช้ได้สัมผัส การเปิดตัวโมเดลนี้จะส่งเสริมการพัฒนาเทคโนโลยีเสียง AI และนำความเป็นไปได้มาสู่แอปพลิเคชันต่างๆ เช่น ผู้ช่วยด้านเสียงและมนุษย์เสมือน
GitHub: https://github.com/fishaudio/fish-speech
การสาธิตตัวแทนปลา: https://huggingface.co/spaces/fishaudio/fish-agent
ดาวน์โหลดโมเดล: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
รายงานทางเทคนิค: https://arxiv.org/abs/2411.01156
การเปิดตัวโอเพ่นซอร์สของ Fish Agent V0.13B ถือเป็นก้าวใหม่ของเทคโนโลยีเสียง AI โดยมอบเครื่องมืออันทรงพลังให้กับนักพัฒนาและนักวิจัย และยังบ่งชี้ว่าแอปพลิเคชันเสียงของ AI จะสมบูรณ์ยิ่งขึ้นและสะดวกสบายยิ่งขึ้นในอนาคต เราหวังเป็นอย่างยิ่งว่า Fish Audio จะนำเสนอนวัตกรรมเพิ่มเติมในด้านเสียง AI!