Fish Audio ได้เปิดตัวรูปแบบการประมวลผลเสียงใหม่ Fish Agent V0.13B ซึ่งเป็นรุ่นเสียงที่น่าประทับใจซึ่งสามารถสร้างและประมวลผลคำพูดได้อย่างมีประสิทธิภาพและแม่นยำและดีในการจำลองและโคลนเสียงที่แตกต่างกัน แบบจำลองได้รับการฝึกอบรมล่วงหน้าตาม Qwen-2.5-3b-Instruct และใช้ชุดข้อมูลขนาดใหญ่ที่มีโทเค็นพูดและข้อความ 200 พันล้าน นวัตกรรมของมันอยู่ในการใช้สถาปัตยกรรม "ความหมายแบบไม่ใช้โทเค็น" ซึ่งประมวลผลเสียงโดยตรงในระดับเสียงซึ่งจะช่วยเพิ่มความเร็วและประสิทธิภาพโดยตระหนักถึงการโคลนเสียง "ทันที" และการแปลงข้อความเป็นคำพูดซึ่งใช้เวลาเพียง 200 มิลลิวินาที โมเดลรองรับหลายภาษาและเป็นโอเพ่นซอร์สนำความเป็นไปได้ใหม่ ๆ มาสู่การพัฒนาเทคโนโลยีเสียง AI
เมื่อเร็ว ๆ นี้ Fish Audio เปิดตัวโมเดลการประมวลผลเสียงใหม่ Fish V0.13b ซึ่งหมายความว่าเราอยู่ใกล้กับการมีผู้ช่วย AI ที่เป็นธรรมชาติและตอบสนองได้ดีขึ้น
โมเดลตัวแทนปลา V0.13B ได้รับการฝึกอบรมล่วงหน้าตาม QWEN-2.5-3B-Instruct และใช้ชุดข้อมูลขนาดใหญ่ที่มีคำพูดและโทเค็นข้อความ 200 พันล้าน ซึ่งแตกต่างจากโมเดลดั้งเดิมที่ต้องเปลี่ยนคำพูดครั้งแรกเป็นการเข้ารหัสความหมายที่ซับซ้อน Agent V0.13B ใช้สถาปัตยกรรมที่เรียกว่า "โทเค็นไร้ความหมาย" เพื่อประมวลผลและสร้างคำพูดโดยตรงในระดับเสียง การประมวลผลโดยตรงนี้ไม่เพียง แต่ทำให้โครงสร้างโมเดลง่ายขึ้นเท่านั้น แต่ยังช่วยเพิ่มความเร็วและประสิทธิภาพการตอบสนองของแบบจำลอง

ด้วยสถาปัตยกรรมที่เป็นนวัตกรรมนี้ Agent Fish V0.13B สามารถสร้างเสียงที่มีคุณภาพสูงได้อย่างรวดเร็วและเป็นธรรมชาติทำให้การโคลนเสียง "ทันที" และการแปลงข้อความเป็นคำพูดพร้อมเวลาแปลงเป็นข้อความถึง Audio (TTFA) ในเวลาเพียง 200 มิลลิวินาที . คุณลักษณะนี้ทำให้เหมาะสำหรับสถานการณ์แอปพลิเคชันที่ต้องใช้การสร้างเสียงแบบเรียลไทม์เช่นผู้ช่วยเสียงการบริการลูกค้าอัตโนมัติและสถานการณ์อื่น ๆ ที่ต้องมีการตอบรับด้วยเสียงที่รวดเร็ว

รุ่น Fish V0.13B รองรับหลายภาษารวมถึงภาษาอังกฤษ, จีน, เยอรมัน, ญี่ปุ่น, ฝรั่งเศส, สเปน, เกาหลีและอาหรับและใช้ข้อมูลเสียงหลายภาษาประมาณ 700,000 ชั่วโมงสำหรับการฝึกอบรม ซึ่งหมายความว่ามันสามารถจัดการกับหลายภาษาและบริบทและสร้างการออกเสียงที่เป็นธรรมชาติและใกล้ชิดยิ่งขึ้นกับคนจริง
นอกเหนือจากการสร้างเสียงด้วยเสียงและฟังก์ชั่นการแปลงข้อความเป็นคำพูดแล้ว Agent Agent V0.13B ยังมีคุณสมบัติสำคัญต่อไปนี้:
การโคลนเสียงแบบไม่มีตัวอย่าง: การโคลนเสียงสามารถทำได้โดยไม่ต้องฝึกซ้อม
พารามิเตอร์ 3B ที่ง่ายขึ้น: ใช้พารามิเตอร์ 3 พันล้านเพื่อการพัฒนาที่ง่าย
รองรับอินพุตข้อความและเสียง: วิธีการหลายอินพุตที่ยืดหยุ่น
ปัจจุบัน Fish Audio ได้เปิดตัวรุ่น Fish Agent V0.13B และให้รุ่นสาธิตเบื้องต้นสำหรับประสบการณ์ผู้ใช้ การเปิดตัวรุ่นนี้จะส่งเสริมการพัฒนาเทคโนโลยีเสียง AI และนำความเป็นไปได้มากขึ้นมาสู่แอพพลิเคชั่นเช่นผู้ช่วยเสียงและคนเสมือนจริง
GitHub: https://github.com/fishaudio/fish-speech
การสาธิตตัวแทนปลา: https://huggingface.co/spaces/fishaudio/fish-agent
ดาวน์โหลดรุ่น: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
รายงานทางเทคนิค: https://arxiv.org/abs/2411.01156
การเปิดตัวโอเพ่นซอร์สของ Fish Agent V0.13B จะนำความก้าวหน้าใหม่มาสู่การวิจัยและการประยุกต์ใช้ AI Voice Field และมันก็คุ้มค่าที่จะรอบทบาทในการพัฒนาเทคโนโลยีเสียงในอนาคต ฉันหวังว่านักพัฒนาซอฟต์แวร์จะเข้าร่วมและส่งเสริมความก้าวหน้าของเทคโนโลยีเสียง AI ได้มากขึ้น