ToucanTTS: “Raja Sepuluh Ribu Bahasa” di bidang sintesis ucapan, mendukung lebih dari 7.000 bahasa

Penulis：Eve Cole Waktu Pembaruan：2025-02-28 05:00:02

Saat ini, dengan pesatnya perkembangan kecerdasan buatan, alat sintesis ucapan yang dapat menangani berbagai bahasa dengan lancar sangatlah penting. Para peneliti dari Universitas Stuttgart telah meluncurkan ToucanTTS, model text-to-speech (TTS) luar biasa yang mendukung lebih dari 7.000 bahasa, mencakup hampir semua bahasa standar ISO-639-3. Hal ini tidak diragukan lagi akan sangat mendorong komunikasi dan pemahaman antara berbagai bahasa di seluruh dunia, membuka kemungkinan baru untuk komunikasi lintas budaya dan penerapan kecerdasan buatan. Kemunculan ToucanTTS menandai tonggak baru dalam teknologi sintesis ucapan.

Di dunia dengan segala jenis bahasa yang aneh ini, apakah rasanya lebih sulit menemukan asisten sintesis ucapan yang bisa menguasai semua bahasa di dunia? Jangan khawatir, para mahasiswa terbaik di Universitas Stuttgart punya hadirkan langkah besar-ToucanTTS, model Text-to-speech (TTS) yang dapat digunakan dalam lebih dari 7.000 bahasa!

ToucanTTS, nama yang terdengar dinamis ini, berada di balik teknologi hitam IMS. Ini mendukung hampir semua bahasa standar ISO-639-3, yang berarti secara teoritis dapat berbicara lebih banyak bahasa daripada yang Anda tahu. Potensi hal ini dalam skala global tidak terbatas.

Fungsi inti:

Dukungan multi-bahasa: ToucanTTS mendukung hampir semua bahasa standar ISO-639-3 dan secara teoritis dapat mencakup lebih dari 7.000 bahasa. Saat ini model TTS yang mendukung sebagian besar bahasa.

Berbagai gaya sintesis ucapan: Mendukung simulasi ritme, tekanan, dan intonasi pembicara yang berbeda, memberikan keragaman gaya dan penyesuaian suara.

Sintesis ucapan yang dapat dikontrol: Pengguna dapat mengontrol parameter ucapan seperti nada, kecepatan berbicara, dan emosi untuk menghasilkan ucapan dengan emosi atau gaya berbeda.

Pembuatan ucapan berkualitas tinggi: Memanfaatkan kerangka kerja PyTorch dan teknologi pembelajaran mendalam untuk memastikan ketepatan tinggi dan kealamian dalam pembuatan ucapan.

Fungsi pengeditan manusia: Berisi fungsi pengeditan human-in-the-loop, cocok untuk penelitian sastra dan tugas membaca puisi.

Aligner mandiri: Aligner yang mencakup pelatihan CTC dan rekonstruksi spektogram untuk meningkatkan akurasi dan kualitas sintesis ucapan.

Alat prapemrosesan data: Menyediakan alat prapemrosesan data untuk menyederhanakan persiapan data pelatihan.

Seseorang memiliki ribuan wajah, dan suaranya juga dapat "mengubah wajahnya"

ToucanTTS tidak hanya dapat berbicara dalam berbagai bahasa, tetapi juga dapat mensimulasikan gaya pembicara yang berbeda, baik itu intonasi, tekanan, atau ritme, Anda dapat dengan mudah mengontrolnya. Ini adalah berita bagus untuk aplikasi yang memerlukan keragaman suara.

Toolkit ini juga memungkinkan pengguna mengontrol berbagai parameter ucapan, seperti nada, kecepatan, emosi, dan banyak lagi. Apakah Anda ingin kenyamanan lembut atau dorongan penuh semangat? ToucanTTS dapat memberikannya kepada Anda.

Suara berkualitas tinggi, sealami orang sungguhan berbicara

Menggunakan framework PyTorch dan teknologi deep learning, kualitas ucapan yang dihasilkan oleh ToucanTTS sangat tinggi sehingga bisa saja palsu. Pelatihan dan inferensi menyeluruh memungkinkannya menangani tugas sintesis ucapan yang kompleks dengan mudah.

ToucanTTS juga memiliki fungsi pengeditan human-in-the-loop, yang sangat cocok untuk penelitian sastra dan membaca puisi. Pengguna dapat menyesuaikan suara yang disintesis sesuai dengan preferensi mereka sendiri, sehingga mesin dapat memahami hati Anda dengan lebih baik.

Aligner mandiri membuat sintesis ucapan lebih akurat

Aligner bawaan, yang dilatih menggunakan CTC dan rekonstruksi spektogram, semakin meningkatkan akurasi dan kualitas sintesis ucapan.

ToucanTTS juga menyediakan seperangkat alat prapemrosesan data yang lengkap untuk menyederhanakan persiapan data pelatihan dan membuat sintesis ucapan lebih efisien.

Alamat proyek: https://github.com/DigitalPhonetics/IMS-Toucan

Demo daring: https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

Secara keseluruhan, ToucanTTS telah membawa terobosan revolusioner dalam bidang sintesis ucapan dengan dukungan multi-bahasa yang kuat, pembuatan ucapan berkualitas tinggi, dan kemudahan pengoperasian, serta prospek penerapannya di masa depan yang beragam. Kami berharap ToucanTTS dapat digunakan secara luas di berbagai bidang dan menghadirkan pengalaman suara yang lebih nyaman dan cerdas bagi pengguna di seluruh dunia.