Download de BlahST - Download de código fonte de BlahST

BlahST

Código-Fonte de IA

Multilingual BlahST

Baixar

Blá

O peech-to ton Blah permite que você tenha um texto de entrada de bla (h) st da Speech no Linux, com atalhos de teclado e sussurro.cpp. Inicie seu microfone e execute o reconhecimento de fala multilíngue de alta qualidade. Estendido com LLMs locais, torna -se uma ferramenta potente para conversar com o seu computador Linux.

Blahst é provavelmente a ferramenta de entrada de fala para texto mais enxuta para Linux, sentada em cima do sussurro.cpp.

Transcrição rápida com Whisper.cpp local, ou envie áudio para um servidor Whisper.cpp para uma transcrição de rede ainda mais rápida.
Capaz de selecionar a linguagem de entrada de fala e traduzir da linha de comando com o script wsiml dedicado
Em vez de compilar sussurro.cpp, pode usar um executável do Baixar WhisperFile, basta usar a bandeira da linha de comando '-w' ao definir suas teclas de atalho
NOVO: Interação com LLMs locais via llama.cpp ou um llamafile, produzindo respostas ou traduções textuais, que são faladas de volta e disponíveis na área de transferência. Essa funcionalidade atualizada está no script WSIAI, que também faz tudo o que o WSI faz. (TODO: Uma seção de documentação dedicada descrevendo as funções de assistente de IA)
Experimental: O utilitário blooper permite a entrada ou ditado de fala "sem mãos" contínuos, com loop de colagem automática, usando XDOTOOL ou YDOTOOL. Em silêncio mais longo, o script sairá e pode ser reativado com uma tecla de atalho.
Quente, experimental: Adicionado revisor de IA, que corrige (erros de digitação, gramática etc.) qualquer texto editável selecionado em qualquer janela. Acionado no texto selecionado por fala: "Computador, revisão ... ou computador, seja como gramática ..". Depois de um tempo, o texto selecionado deve ser substituído automaticamente pelo LLM.

Usando ferramentas de linha de comando com baixo resistência e compensação, a entrada de texto falada acontece muito rápido. Aqui está um vídeo de demonstração (por favor, somente o áudio) com alguns recursos locais do LLM (assistente de AI, tradutor, agendamento, guia da CLI em estágio de teste):

Blá-ai-demo.mp4

No vídeo acima, o áudio começa com o sistema que anula a screencasting (minha extensão Gnome "volúvel" fala em voz alta todas as notificações da área de trabalho do Gnome), seguidas de várias voltas de entrada/reconhecimento de fala. Demonstrado no final é uma das "funções de IA" de concurso que usa o texto transcrito por Blahst (sussurro.cpp), formata -o em um prompt de LLM e o envia para um LLM multilíngue local (llama.cpp ou llamafile) que retorna a tradução chinesa como texto e também fala usando um neural. Orquestrar isso na linha de comando com os executáveis enxuta deixa o sistema surpreendentemente ágil (no vídeo, você pode ver que o PC mal quebra qualquer suor - as temperaturas permanecem baixas.)

Blooper-Demo.mp4

O vídeo acima (somente por favor) demonstra o uso de Blooper, modificado do WSI para transcrever em um loop, até que o usuário encerre a entrada de fala com uma pausa mais longa (~ 3seg conforme predefinido). Com o uso do XDOTOOL (ou YDOTOOL para usuários de Wayland), o texto é colado automaticamente em qualquer pausa (ou na interrupção da tecla de atalho). Para o vídeo acima, o discurso é gerado com uma voz sintético e coletado pelo microfone. Isso me permite editar o texto simultaneamente (multitarefa, não tente isso em casa :). No final, o ícone do microfone de barra superior deve desaparecer, indicando a saída do programa. Isso não acontece no vídeo porque o utilitário Screencast também tem uma reclamação no ícone.

Princípio da operação ( a melhor interface do usuário não é uma interface do usuário. )

A idéia com Blahst é ser o software livre de interface do usuário equivalente a um ataque mongol; A explosão curta e poderosa da ação da CPU/GPU e, em seguida, desapareceu completamente, com apenas traços textuais na área de transferência e na paz relativa da área de trabalho. Basta usar um par de teclas de atalho para iniciar e parar de gravar no microfone e enviar o discurso gravado para sussurrar.cpp [servidor] que despeja o texto transcrito para a área de transferência (a menos que você o passe por um LLM local antes disso). Uma abordagem universal que deve funcionar na maioria dos ambientes e distribuições do Linux Desktop.

O trabalho é feito por um dos scripts:

WSI para entrada de fala geral,
WSIML para usuários multilíngues,
WSIAI para usuários que também desejam falar com um modelo de idioma grande local usando llama.cpp ou um llamafile.

O reconhecimento de fala é realizado pelo Whisper.cpp, que deve ser pré -compilado no seu sistema Linux ou disponível como uma instância do servidor na sua LAN ou localhost. Alternindively, você pode optar por simplesmente baixar e usar um executável portátil (com um modelo de sussurro incorporado) WhisperFile, agora parte do repositório do Llamafile.

Quando a entrada da fala é iniciada com uma tecla de atalho, um indicador de microfone aparece na barra superior (pelo menos no GNOME) e é mostrado durante a duração da gravação (pode ser interrompido com outra tecla de atalho). O desaparecimento do ícone do microfone da barra superior indica a conclusão e o texto transcrito pode ser colado na área de transferência. Em sistemas mais lentos, pode haver um pequeno atraso após o ícone do microfone desaparecer e antes que o texto atinja a prancha devido ao tempo de transcrição mais longo. No meu computador, através da API do servidor Whisper.CPP, é menos de 150 ms (300 ms com Whisper.cpp local) para um parágrafo médio de texto falado.

Para operação somente para o teclado, com o CTRL+V padrão, por exemplo, a área de transferência padrão será usada em X11 e Wayland ( wsi ou wsiml ), enquanto wsi -p (ou wsiml -p ) usa a venda e o texto primário é colado com o botão do meio do mouse do meio). Para a pasta à esquerda, a gravação de fala pode ser relegada às teclas de calor acionadas com a mão direita. ** Por exemplo, eu configurei as teclas não utilizadas "+" (comece a gravar) e "inserir" (parar de gravar) no teclado numérico.

Diagramas de fluxo de dados

Script WSIAI (interação W Sample LLM)

WSIAI DataFlow

Blooper (entrada de fala em um loop)

Blooper Dataflow

Configuração do sistema

Pré -requisitos:

Instalação do shell da linha de comando ZSH ou Bash em um sistema Linux executando qualquer ambiente moderno de desktop.
Trabalhando Whisper.cpp Instalação ou um servidor Whisper.CPP de audição no seu LAN/localhost (consulte a seção de transcrição de rede) ou, opcionalmente, um Whisperfile baixado.
A ferramenta Orchestrator WSI , WSIAI ou WSIML deste repositório deve ser colocada em seu $ home/.local/bin/pasta ou em qualquer outro lugar no seu caminho $ (o script de instalação install-wsi lida com a maioria deles).
Versões recentes de 'Sox', 'xsel' (ou 'WL-Copy' em Wayland) Ferramentas da linha de comando dos repositórios do seu sistema.
Um microfone em funcionamento

Isenção de responsabilidade: o autor não recebe crédito nem assume nenhuma responsabilidade por qualquer resultado que possa ou não resultar da interação com o conteúdo deste documento. As ações e automações propostas (por exemplo, locais de instalação etc.) são apenas sugestões e são baseadas na escolha e opinião do autor. Como eles podem não se encaixar no sabor ou na situação específica de todos, por favor, ajuste conforme necessário.

INSTALAÇÃO

Em uma pasta de sua escolha, clone o repositório Blahst e escolha um método de instalação abaixo:

 git clone https://github.com/QuantiusBenignus/BlahST.git
cd ./BlahST

Usando o script de instalação

Execute o script `install-wsi` na pasta do repositório clonado e siga os prompts. Ele moverá os scripts e os tornará executáveis, criará um link para sussurrar. O script de instalação também lida com a configuração da transcrição da rede, mas o IP e a porta para o servidor Whisper.cpp devem ser definidos manualmente em `wsi` e/ou` wsiai`, `wsiml 'execute a linha de comando` wsi` ou `wsiai`wsiml` diretamente da linha de comando primeiro para verificar a operação. Mais tarde, ele será invocado apenas com [Hotkeys] (https://github.com/quantiusbenignus/blahst/#gui-setup-of-hotkeys) para velocidade e conveniência.

Instalação manual

(Assumindo que o sussurro.cpp está instalado e o executável "principal" compilado com 'make' no sussurro clonado.cpp repo. Veja a seção Pré -requisitos)

Coloque o script wsi e/ou wsiai , wsiml em $ home/.local/bin/

Fazer com que seja executável

 cd $HOME/.local/bin; chmod +x wsi wsiAI wsiml

Execute uma vez a partir da linha de comando para deixar os scripts verificarem as dependências necessárias
Se estiver usando o Whisper.cpp local, crie um link simbólico (o código espera 'transcrever' no seu $ PATH) para o executável "principal" compilado no diretório Whisper.cpp. Por exemplo, crie -o em seu $HOME/.local/bin/ (parte do seu $ path) com

 ln -s /full/path/to/whisper.cpp/main $HOME/.local/bin/transcribe

Se a transcrição não estiver no seu $ PATH, edite a chamada no WSI para incluir o caminho absoluto ou adicione sua localização à variável $ PATH. Caso contrário, o script falhará. Se você preferir não compilar Whisper.cpp, ou além disso, faça o download e defina o sinalizador executável de um WhisperFile adequado, por exemplo:

 cd $HOME/.local/bin
wget https://huggingface.co/Mozilla/whisperfile/resolve/main/whisper-tiny.en.llamafile
chmod +x whisper-tiny.en.llamafile

CONFIGURAÇÃO

Dentro do script wsi , wsiAI , wsiml ou blooper , perto do início, há uma seção claramente marcada, chamada "Bloco de configuração do usuário" , onde todas as variáveis configuráveis pelo usuário foram coletadas. A maioria pode ser deixada como é, mas as importantes são a localização dos arquivos de modelo (Whisper, LLM, TTS) que você gostaria de usar durante a transcrição (ou o número IP e da porta para o servidor Whisper.cpp). Se estiver usando um WhisperFile, defina a variável WhisperFile como o nome do arquivo do WhisperFile executável baixado anteriormente, ou seja, WHISPERFILE=whisper-tiny.en.llamafile (deve estar no caminho $).

Configuração da GUI de teclas de atalho

Para iniciar e interromper a entrada da fala, para instalação manual e automática

Caso 1: Gnome

Tecla de atalho para começar a gravar o discurso

Abra as configurações do seu sistema GNOME e encontre "teclado".
Em "Atalhos de teclado", "Veja e personalize atalhos"
Na nova janela, role para baixo até "atalhos personalizados" e pressione -a.
Pressione "+" para adicionar um novo atalho e dar um nome: "Comece a gravar discurso"
No campo "Command" Type /home/yourusername/.local/bin/wsi -p para usar o botão do mouse do meio ou altere -o para .../wsi para usar a área de transferência.
(Para os usuários dos modelos multilíngues, substitua wsi acima pelo wsiml e, se estiver usando um shisperfile, adicione a bandeira -w , ou seja, /home/yourusername/.local/bin/wsi -w ). Finalmente, para provar as funções do LLM, substitua wsi por wsiAI .
Em seguida, pressione "Definir atalho" e selecione uma combinação de teclas (não utilizada). Por exemplo, uma combinação de chave como Ctrl+Alt+A ou uma única chave não utilizada como KP+ (teclado+).
Clique em Adicionar e você terminou.

O script do orquestrador possui um filtro de detecção de silêncio na chamada para Sox (REC) e parou de gravar (na melhor das hipóteses) em 2 segundos de silêncio. Além disso, se não se quiser esperar ou tiver problemas com o limite de detecção de silêncio:

Interupção de gravação de fala manual (fortemente recomendada)

Para aqueles que desejam ser capazes de interromper a gravação manualmente com uma combinação de chave, no espírito de grandes hacks, usaremos os recursos internos do sistema:

Abra as configurações do seu sistema GNOME e, novamente, encontre "teclado".
Em "Atalhos de teclado", "Veja e personalize atalhos"
Na nova janela, role para baixo até "atalhos personalizados" e pressione -a.
Pressione "+" para adicionar um novo atalho e dar um nome: "Entrada interrupta de fala!"
No tipo "Command" Type pkill --signal 2 rec
Em seguida, pressione "Definir atalho" e selecione uma combinação de teclas (não utilizada). Por exemplo, uma combinação de chave como Ctrl+Alt+X ou uma única tecla não utilizada como Kp- (teclado -).
Clique em Adicionar e você terminou.

Tão simples. Apenas certifique-se de que a nova ligação de chaves ainda não tenha sido configurada para outra coisa. Agora, quando o script está gravando o discurso, ele pode ser interrompido com a nova combinação de chaves e a transcrição começará imediatamente.

Caso 2: XFCE4

Isso é simalr para a configuração do Gnome acima (para referência, consulte suas instruções mais detalhadas)

Abra o XFCE4 Settings Manager.
Navegue até o teclado → atalhos de aplicativos.
Clique no botão Adicionar para criar um novo atalho.
Digite o nome do atalho e o comando, por exemplo, /home/yourusername/.local/bin/wsi -p ou .../wsi para usar a prancha.
(Para os usuários dos modelos multilíngues, substitua wsi acima pelo wsiml e, se estiver usando um shisperfile, adicione a bandeira -w , ou seja, /home/yourusername/.local/bin/wsi -w ). Finalmente, para provar as funções do LLM, substitua wsi por wsiAI .
Pressione as chaves que você deseja atribuir ao atalho.
Clique em OK para salvar o atalho. A chave de atalho para interromper a gravação da fala deve ser feita da mesma forma com outra combinação chave e o comando pkill --signal 2 rec .

Caso 3: KDE (Plasma)

Isso é semelhante à configuração do Gnome acima (para referência, consulte suas instruções mais detalhadas)

Abra o aplicativo Configurações do sistema.
Navegue para atalhos e depois atalhos personalizados.
Clique em Editar e, em seguida, novo para criar um novo grupo para seus atalhos, se necessário.
Sob o grupo recém -criado, clique em New Again e selecione Global Shortcut -> Command/URL.
Dê um nome ao seu novo atalho.
Escolha a combinação de teclas de atalho desejada clicando no botão ao lado de "Nenhum" e pressionando as teclas que você deseja atribuir ao atalho.
Na guia Trigger, especifique o comando a ser executado quando o atalho for acionado. por exemplo, /home/yourusername/.local/bin/wsi ou .../wsi -p
(Para os usuários dos modelos multilíngues, substitua wsi acima pelo wsiml e, se estiver usando um shisperfile, adicione a bandeira -w , ou seja, /home/yourusername/.local/bin/wsi -w ). Finalmente, para provar as funções do LLM, substitua wsi por wsiAI .
Verifique se a caixa de seleção ativada é verificada para ativar o atalho.
Aplique as alterações clicando em aplicar ou OK. A chave de atalho para interromper a gravação da fala deve ser feita da mesma forma com outra combinação chave e o comando pkill --signal 2 rec .

Observe que pode haver pequenas variações nas etapas acima, dependendo da versão instalada no seu sistema. Para muitos outros ambientes, como Mate, Cinnamon, LXQT, Deepin , etc. As etapas devem ser um pouco semelhantes aos exemplos acima. Consulte a documentação para o seu ambiente de desktop de seus sistemas.

PENDÊNCIA

Script de instalação compatível com POSIX
Scripts de orquestração compatíveis com Posix

RESUMO

No pressionamento de uma combinação de teclas de atalho, o script wsi -p gravará a fala (parada com uma tecla de atalho ou por detecção de silêncio), use uma cópia local do sussurro.cpp e envie o texto transcrito para a seleção primária sob, X11 ou Wayland. Então tudo o que se tem que fazer é colá -lo com o botão do mouse do meio em qualquer lugar que desejar. (Para as pessoas que seguram o rato com a mão direita, a fala que registra teclas de atalho para a mão esquerda faria sentido.)
Se estiver usando wsi sem sinalizadores (as abordagens podem coexistir, basta configurar diferentes conjuntos de teclas de atalho), o texto transcrito é enviado para a área de transferência (não a seleção primária) em X11 ou Wayland. Em seguida, a coleta acontece com o CTRL+V ( CTRL+SHIFT+V para o terminal GNOME) ou as teclas de SHIFT+INSert como de costume. (Para a maioria das pessoas, as teclas de atalho da mão direita funcionariam bem.)
Se transcrever pela rede com wsi -n (selecionado com uma tecla de atalho própria), o script tentará enviar o áudio gravado para um servidor Whisper.cpp definido corretamente (na LAN ou localhost ). Em seguida, ele coletará a resposta textual e a formará para colar com as teclas CTRL+V ( CTRL+SHIFT+V para Terminal GNOME) ou SHIFT+INSert (para colar com o botão do mouse médio usar wsi -n -p ).
Se estiver usando um sussurro em vez de, ou além de um sussurro compilado.cpp, invocar com wsi -w ... e o script usará o predefinido executável portátil com o modelo de escolha de sussurro incorporado.
Para usuários multilíngues, além dos recursos do WSI, wsiml fornece a capacidade de especificar um idioma, por exemplo -l fr e a opção de traduzir para o inglês com -t . O usuário pode, em princípio, atribuir várias teclas de hot aos vários idiomas de que transcrevem ou traduzem. Por exemplo, duas teclas de atalho adicionais podem ser definidas, uma para transcrição e outra para traduzir do francês, atribuindo os comandos wsiml -l fr e wsiml -l fr -t correspondentemente.
Experimental: os usuários podem usar o Blooper de Scripts fornecido para obter entrada automática contínua de fala para texto (não há necessidade de pressionar Ctrl+V ou clicar no botão do mouse do meio.) Isso é demonstrado no segundo vídeo acima. Observe que a área de transferência é usada por padrão, o texto será ampliado automaticamente sob o teclado Carret, mas, em princípio, a seleção primária pode ser configurada, um clique do botão do mouse do meio será simulado e o texto colado na posição atual do ponteiro do mouse no (um pouco arbitrar) o tempo está disponível. Observe que isso se baseia na detecção de silêncio, que depende do seu ambiente físico. Em ambientes barulhentos, use a chave quente para parar de gravar.

Dicas e truques

O Sox está gravando no formato WAV a 16k, o único atualmente aceito pelo sussurro.cpp. Isso é feito em ** wsi ** com este comando: `Rec -t WAV $ RAMF Taxa 16K Silence 1 0,1 3% 1 2,0 6%` Tentará parar no silêncio de 2s com o limite de nível de sinal de 6%. Um ambiente muito barulhento impedirá a detecção de silêncio e a gravação (de ruído) continuará. Este é um problema e um remédio que pode não funcionar em todos os casos é ajustar o limite de duração e silêncio no filtro Sox no script `wsi`. Obviamente, pode -se usar o método de interrupção manual, se preferir.

Não podemos aumentar o limiar arbitrariamente porque, se alguém diminuir consistentemente sua voz (Fadeout) no final da fala, ela pode ser cortada se o limiar for alto. Abaixe nesse caso para alguns %.
É melhor tentar tornar a fala distinguível do ruído por amplitude (fale claramente, próximo ao microfone), minimizando o ruído externo (localização protegida do microfone, hardware de cancelamento de ruído etc.) com um bom nível de sinal de fala, o limiar pode ser mais eficaz, uma vez que SNR (discurso-noise :-) é efetivamente aumentado.

Depois que o discurso for capturado, ele será passado para transcribe (sussurro.cpp) para reconhecimento de fala. Isso acontecerá mais rápido que o tempo real (especialmente com uma CPU rápida ou se o seu sussurro.cpp a instalação usar CUDA). Pode -se ajustar o número de threads de processamento usados adicionando -tn aos parâmetros da linha de comando de transcrição (por favor, consulte a documentação do sussurro.cpp). O script analisará o texto para remover artefatos que não são de fala, formate-o e o enviarão para a seleção primária (quadro de transferência) usando as ferramentas X11 ou Wayland.

Em princípio, o sussurro (sussurro.cpp) é multilíngue e, com o arquivo de modelo correto, este aplicativo produzirá texto UTF-8 transcrito no idioma correto. O script wsiml é dedicado ao uso multilingual e, com ele, o usuário pode escolher o idioma para entrada de fala (usando o sinalizador -l LC onde LC é o código do idioma) e também pode traduzir o discurso no idioma de entrada escolhido para o inglês com o sinalizador -t . O usuário pode atribuir várias teclas de atalho aos vários idiomas dos quais desejam transcrever ou traduzir. Por exemplo, duas teclas de atalho adicionais podem ser definidas, uma para transcrição e outra para traduzir do francês, atribuindo os comandos wsiml -l fr e wsiml -l fr -t correspondentemente.

Observe que, ao usar o modo de servidor, agora você tem 2 opções. Você pode ter o servidor Whisper.cpp pré -compilado ou o WhisperFile baixado (no modo servidor) ouça no host e número da porta prematurados. O script do orquestrador se aproxima deles da mesma maneira.

Diretório temporário e arquivos

A transcrição de fala para texto é uma tarefa intensiva em memória e CPU e armazenamento rápido para acesso a leitura e gravação só pode ajudar. É por isso que o WSI armazena arquivos temporários e de recursos na memória, para velocidade e para reduzir o SSD/HDD "Retinging": TEMPD='/dev/shm' . Esse ponto de montagem do tipo "TMPFS" é criado na RAM (vamos supor que você tenha o suficiente, digamos, pelo menos 8 GB) e é disponibilizado pelo kernel para aplicativos de espaço de usuário. Quando o computador é desligado, ele é eliminado automaticamente, o que é bom, pois não precisamos dos arquivos intermediários. De fato, para alguns tipos de aplicações (olhando para você Electron), seria benéfico (IMHO) ter o ponto de montagem em todo o sistema /TMP também mantido na RAM. Mover /TMP para RAM pode acelerar um pouco a inicialização do aplicativo. Uma aceleração de boas -vindas para qualquer aplicativo Electron. Na sua forma mais simples, essa transição é fácil, basta executar:

echo "tmpfs /tmp tmpfs rw,nosuid,nodev" | sudo tee -a /etc/fstab e reinicie seu computador Linux. Pelas razões acima mencionadas, especialmente se o HDD for o principal mídia de armazenamento, também é possível mover os arquivos do modelo ASR necessários para o sussurro.cpp no mesmo local (/dev/shm). Estes são arquivos grandes, que podem ser transferidos para este local no início de uma sessão de terminal (ou na inicialização do sistema). Isso pode ser feito usando seu arquivo .profile colocando algo assim nele:

 ([ -f /dev/shm/ggml-base.en.bin ] || cp /path/to/your/local/whisper.cpp/models/ggml* /dev/shm/)

cliblurt.mp4

Créditos

ABERE AI (para sussurro)
Georgi Gerganov e Comunidade (para a porta c/c ++ da Whisper Whisper.cpp)
Justine Tunney, CJ Pais e a Comunidade Llamafile (para Llamafile e Whisperfile)
Os desenvolvedores do Sox (para a venerável "faca do exército suíço de ferramentas de processamento de som")
Os criadores e mantenedores de utilitários da CLI, como Xsel, WL-Copy, Curl, JQ, XDotool e outros que fazem do ambiente Linux (CLI e GUI) um paradigma tão poderoso.

Expandir

Informações adicionais

Versão Multilingual BlahST
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 36.82KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos