Dans le champ de podcast, la plate-forme de podcastle a récemment annoncé le lancement de son nouveau modèle de texte à dispection d'IA, AsyncFlow v1.0. Ce modèle innovant offre aux utilisateurs plus de 450 voix d'IA différentes, couvrant plusieurs langues et intonations, enrichissant considérablement la sélection de voix. De plus, Podcastle ouvre également une interface API aux développeurs, ce qui leur permet d'intégrer facilement cette fonction de texte vocale dans leurs applications, améliorant ainsi l'expérience utilisateur.

Arto Yeritsyan, fondateur de Podcastle, a déclaré que la société voulait longtemps développer un modèle de texte vocale de haute qualité, mais cet objectif n'a pas été atteint en raison des coûts de formation et des données de formation élevés dans le passé. Cependant, avec le développement rapide de la technologie du modèle de langue à grande échelle ces dernières années, Podcastle a finalement fait une percée majeure l'année dernière et a pu construire des modèles vocaux de haute qualité sans nécessiter une grande quantité de données. Yeritsyan a également mentionné que la R&D de Podcastle était soutenue par un financement de la série A de 13,5 millions de dollars l'année dernière, qui fournit un solide soutien financier pour son innovation technologique.
En termes de prix, le service de texte à la voix de Podcastle est au prix d'environ 40 $ par 500 minutes, ce qui est plus compétitif que les 99 $ des rivaux Elevenlabs. En plus du modèle de texte vocal, la fonction de clonage vocale de Podcastle a également été considérablement mise à niveau. Dans le passé, les utilisateurs ont dû lire 70 phrases différentes pour former le modèle de prononciation, mais maintenant, ce processus a été considérablement raccourci en enregistrements qui ne prennent que quelques secondes. Cette amélioration est grâce à la technologie Magic Dust AI de Podcastle lancée l'année dernière, ce qui améliore considérablement la qualité de l'enregistrement audio et rend le clonage vocal plus efficace et précis.
Dans les tests réels, bien que la voix nouvellement générée semble un peu robotique, elle imite toujours bien le ton et le rythme de l'orateur. Podcastle a déclaré qu'avec la progression continue de la technologie, cette fonctionnalité sera progressivement améliorée et que les utilisateurs peuvent également former des effets sonores plus naturels et divers en fournissant différents échantillons d'enregistrement.
Yeritsyan note qu'en plus des avantages des coûts, Podcastle intègre également des outils narratifs audio, vidéo, podcast et AI dans un site Web redessiné, une décision qui distinguera le podcastle de la concurrence féroce du marché. Il a mentionné que bien que la plupart des utilisateurs utilisent encore principalement des podcastle pour la création de contenu audio, la demande de production vidéo augmente également progressivement, indiquant que Podcastle étend sa portée de service à plusieurs champs.
Entrée: https://podcastle.ai/ai-voices
Points clés:
Podcastle lance le modèle AsyncFlow V1.0, offrant plus de 450 voix d'IA.
La plate-forme facture 40 $ par 500 minutes de texte à voix, ce qui est inférieur à la tarification du concurrent.
La fonction de clonage vocale a été mise à niveau, le temps de formation a été considérablement raccourci et l'expérience utilisateur a été continuellement optimisée.