O Elevenlabs, como pioneiro no campo da clonagem e geração de voz de inteligência artificial, lançou recentemente seu mais recente modelo de voz a texto-Scribe V1. Esse modelo inovador demonstra excelente precisão em vários idiomas e pode ser experimentado pelos usuários por meio de seu site oficial.

De acordo com os benchmarks do Elevenlabs, o Scribe ultrapassa o gemini2.0flash do Google, o Whisper V3 do OpenAi e o Deepgram Nova-3 em termos de precisão na conversão da linguagem falada em texto, alcançando taxas de erro sem precedentes. O modelo suporta transcrição de alta precisão em 99 idiomas, incluindo alguns idiomas anteriormente negligenciados, como sérvio, cantonês e malaiala.
Flavio Schneider, pesquisador -chefe da Elevenlabs, disse na plataforma social X que o Scribe é o "Modelo de Compreensão de Áudio mais inteligente" que a empresa lançou até agora. Ele explicou ainda que o Scribe não é apenas uma ferramenta de transcrição, mas também pode entender o conteúdo de áudio, detectar eventos não verbais (como risos, efeitos sonoros, música e ruído de fundo) e analisar o conteúdo de áudio de longo prazo em ambientes complexos para uma distinção precisa do alto-falante. Vale a pena mencionar particularmente que o Scribe é capaz de identificar e isolar até 32 alto -falantes diferentes no mesmo arquivo de áudio.

O Elevenlabs lembra aos usuários que o Scribe é "mais adequado para ocasiões em que a transcrição de alta precisão é necessária, em vez da transcrição em tempo real". A empresa também planeja lançar uma versão de baixa latência para expandir seu uso em aplicativos em tempo real.
De acordo com os resultados da Benchmark de Fleurs e Common Voice, o Scribe teve um bom desempenho ao lidar com desafios de áudio do mundo real, especialmente em termos de taxas de erro de palavras em italiano (precisão de 98,7%) e inglês (precisão de 96,7%).
O Scribe agora está disponível no site oficial do Elevenlabs, ao preço de US $ 0,40 por hora para entrada de áudio e terá um desconto de 50% nas próximas seis semanas. Além disso, versões de baixa latência para aplicativos em tempo real também estão em desenvolvimento.
Para os tomadores de decisão corporativos, o Scribe fornece uma ferramenta escalável para a transcrição de alta precisão para indústrias que exigem documentação automatizada, transcrição da conferência e acessibilidade do conteúdo. O processamento de alta precisão do modelo de vários idiomas também beneficiará empresas multinacionais, empresas de mídia e aplicativos de suporte ao cliente.
Vale a pena notar que o lançamento do Scribe foi realizado no mesmo dia em que o lançamento de seu modelo de texto para fala, um concorrente Hume. O Octave é uma ferramenta de texto em fala com base em grandes modelos de idiomas, onde os usuários podem personalizar sons gerados pela IA com base em necessidades emocionais, projetadas para criação de conteúdo, como audiolivros, podcasts e dublagem de videogame. Embora o Scribe e o Octave tenham recursos diferentes, os lançamentos dos dois refletem a competição cada vez mais feroz em modelos de áudio orientados a IA.
Portal do produto: https://elevenlabs.io/blog/meet-ncrib
Pontos -chave:
O Scribe V1 é o mais recente modelo de voz a texto do Elevenlabs, com uma taxa de precisão recorde em multilíngues.
Suporta 99 idiomas, pode distinguir até 32 alto -falantes diferentes e se adaptar a ambientes de áudio complexos.
Atualmente, ao preço de US $ 0,40 por hora, desfrute de um desconto de 50% nas próximas seis semanas e a versão de baixa latência está em desenvolvimento.