
View Demo • Introdução • Recursos de solicitação •
O Projeto Sábado é uma caixa de ferramentas para computação vocal. Ele fornece ferramentas para criar interfaces vocais elegantes para os LLMs modernos. O objetivo deste projeto é promover uma comunidade de indivíduos semelhantes que desejam trazer à tona a tecnologia que nos foi prometida em filmes de ficção científica há décadas. Ele pretende ser altamente modular e flexível, mantendo -se dissociado de modelos específicos de IA. Isso permite atualizações perfeitas quando a nova tecnologia de IA é lançada.
O projeto de sábado é composto por ferramentas. Uma ferramenta é uma abstração que encapsula uma parte específica da pilha de computação vocal. Existem 2 construções principais que compõem uma ferramenta:
MOTOR - Um motor encapsula a funcionalidade específica do domínio de uma ferramenta. Essa lógica deve permanecer a mesma, independentemente do back -end de inferência usado. Por exemplo, no caso da ferramenta STT, o mecanismo contém o algoritmo de detecção de atividades de voz, juntamente com alguma lógica de buffer personalizada. Isso permite que o back-end seja facilmente alterado sem a necessidade de reescrever o código.
Back -end - Um back -end é o que realmente executa a inferência da IA. Geralmente, isso é um invólucro fino, mas permite mais flexibilidade e facilidade de atualização. Um back-end também pode ser gravado para interface com um servidor HTTP para permitir a entre-op para uma linguagem fácil.
Este projeto contém três tipos principais de ferramentas. As três ferramentas principais são STT, TTT e TTS.
As ferramentas STT são os ouvidos do sistema e executam a inferência de fala em texto no áudio recebido.
As ferramentas TTT são o cérebro do sistema e executam a inferência de texto em texto depois que o áudio for transformado em texto.
As ferramentas TTS são a boca do sistema e executam a inferência de texto em fala no texto comprovado pela ferramenta TTT.
Aqui está um diagrama de como a demo principal funciona atualmente.

A demonstração que vem neste repositório é seu próprio Jarvis pessoal e auto-hospedado como assistente.
Isenção de responsabilidade : eu apenas testei isso nos processadores M1 Pro e Max. Estamos fazendo muita inferência local, então a demonstração exige um pouco de poder de processamento. Sua milhagem pode muito em diferentes sistemas operacionais e hardware. Se você tiver problemas, abra um problema.
Para executar a demonstração, existem alguns pré-requisitos.
Para executar a demonstração, Golang, Python, Make e um C Complier são necessários.
Existem três processos que precisam estar em execução para a demonstração:
pkg-config e opus . No MacOS, eles podem ser instalados com Brew: brew install opus pkg-configmecab e espeak . No MacOS, eles podem ser instalados com Brew: brew install mecab espeakNota : Por enquanto, a ordem em que você inicia os processos é importante. Você deve iniciar o servidor RTC e o servidor TTS antes de iniciar o cliente.
Da raiz do projeto Run make rtc
make rtcConfiguração pela primeira vez : quando você executa o servidor TTS pela primeira vez, precisará instalar as dependências. Considere usar um ambiente virtual para isso.
cd tts/servers/coqui-tts
pip install -r requirements.txt Da raiz do projeto Run make tts
O cliente requer whisper.cpp e o uso do cgo , no entanto, o script de fabricação deve cuidar disso para você.
Da raiz do projeto make client
make clientA principal coisa do roteiro agora é obter a inferência de TTT para correr localmente com algo como llama.cpp. No momento da publicação, não tenho uma ótima internet e não posso baixar os pesos do modelo necessários para fazer isso funcionar.
O segundo maior item do meu roteiro continua a melhorar o processo de configuração e configuração.
A última coisa no meu roteiro é continuar construindo aplicativos com o sábado, espero que mais pessoas construam junto comigo, pois essa é a maneira número 1 de melhorar o projeto e descobrir novos recursos que precisam ser adicionados.
Junte -se à discórdia para se manter atualizado!
Este projeto foi construído com os seguintes pacotes de código aberto:
Eu sou muito do perfeito e é provável que haja bugs e coisas que eu ignorei no processo de instalação. Por favor, adicione problemas e sinta -se à vontade para alcançar se algo não estiver claro. Além disso, temos uma discórdia.
As contribuições são o que tornam a comunidade de código aberto um lugar tão incrível para aprender, inspirar e criar. Quaisquer contribuições que você faz são muito apreciadas .
git checkout -b feature/AmazingFeaturegit commit -m 'Add some AmazingFeature'git push origin feature/AmazingFeatureMit
Se você gosta do projeto e deseja apoiá -lo financeiramente, fique à vontade para me comprar um café
Github @grvydev · Twitter @grvyDev · Envie um e -mail para [email protected]