A voz AI está "em um passo"! Etapa de código aberto 130b Modelo de voz dominante, diálogo em tempo real + clonagem emocional, explosão está chegando - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-05-15 03:25:02

O campo da tecnologia de interação de voz recentemente deu início a um grande avanço. A Step Audio, uma empresa de IA doméstica líder, anunciou o código aberto de um modelo de voz super grande com 130 bilhões de parâmetros. Essa conquista inovadora atraiu atenção generalizada na indústria e é aclamada como um marco no desenvolvimento da tecnologia Voice AI. Este modelo não é apenas o primeiro sistema de diálogo de voz em tempo real que integra o controle de compreensão e geração de fala, mas também indica que a tecnologia de interação de voz passará para uma nova altura com suas funções abrangentes e tecnologia avançada.

O destaque central desse modelo de código aberto é seu design integrado e poderosos recursos de controle. Ele não apenas entende com precisão os comandos de voz do usuário, mas também controla com flexibilidade o processo de geração de voz, fornecendo aos usuários uma experiência interativa personalizada sem precedentes. Esse design torna a interação de voz mais natural e suave, melhorando bastante a experiência do usuário.

Em termos de suporte ao idioma, este modelo demonstra excelentes recursos multilíngues de processamento, pode alternar suavemente entre chinês, inglês, japonês e outros idiomas e lidar facilmente com cenários de comunicação em língua cruzada. Além disso, suporta profundamente uma variedade de dialetos, como cantonês, dialeto sichuan etc., tornando a interação de voz mais próxima da vida diária e mais humana.

Além dos recursos de processamento de idiomas, esse modelo também possui funções de controle de emoções de voz finas. Os usuários podem definir o tom emocional de voz de acordo com suas necessidades, como felicidade, tristeza etc., para tornar a expressão da IA mais infecciosa. Ao mesmo tempo, a velocidade da fala e o estilo ritmo também podem ser ajustados de acordo com as necessidades da cena para atender às diversas necessidades de expressão. O mais surpreendente é que o modelo também suporta formas de voz mais criativas, como rap e zumbido, fornecendo possibilidades ilimitadas para a criação de conteúdo.

Além disso, esse modelo também possui função de clonagem de voz e os usuários podem criar um assistente de voz muito personalizado por meio dessa tecnologia e até perceber a "réplica" e "herança" do som. Esta função traz mais cenários de aplicativos e possibilidades para a tecnologia de interação de voz.

O código aberto de Jieyue, um modelo de voz tão poderoso, sem dúvida promoverá bastante o progresso tecnológico e a inovação de aplicações em todo o setor. Ele não apenas reduz muito o limiar de aplicação da tecnologia AI de voz, mas também indica que a interação da voz se tornará mais inteligente, natural e personalizada no futuro, realmente integrando -se ao diário das pessoas.

Endereço do projeto: https://github.com/stepfun-ai/step-audio/tree/main