Este é o principal repositório do Stage Whisper-um aplicativo de transcrição de áudio gratuito, de código aberto e fácil de usar. O Stage Whisper usa o modelo de aprendizado de máquina Whisper do OpenAI para produzir transcrições muito precisas de arquivos de áudio e também permite que os usuários armazenem e editem transcrições usando uma interface de usuário gráfica simples e intuitiva.
O Stage Whisper consiste em dois componentes conectados:
A eventual lançamento 1.0 do Stage Whisper (idealmente) não exigirá nenhum software adicional. Por enquanto, porém, você precisará do seguinte instalado em sua máquina para desenvolver o Stage Whisper. Atualmente, é possível trabalhar separadamente na interface eletrônica ou no back -end do Python; portanto, se você planeja trabalhar apenas em um ou outro, só precisará instalar os requisitos específicos para esse componente.
Há várias maneiras de instalar todas essas dependências em sua estação de trabalho, mas aqui está um exemplo de como você pode instalar todas as opções acima em um Mac (pule qualquer etapa para algo que você já instalou):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Instale dependências:
cd backend
poetry installEmbora o objetivo principal do back -end seja executar como um serviço para o aplicativo Electron se conectar, ele também pode ser executado como um script independente. Para fazer isso, corra:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devNo início deste ano, o OpenAI lançou o Whisper, seu sistema automático de reconhecimento de fala (ASR) que é treinado em "680.000 horas de dados supervisionados multilíngues e multitarefa coletados na Web". Você pode aprender mais lendo o artigo [PDF] ou analisando os exemplos no site da OpenAI.
Como Dan Nguyen observou no Twitter, isso pode ser uma "Deus para as redações".
O único problema, como @Petersterne apontou, é que nem todos os jornalistas (ou outros que poderiam se beneficiar desse tipo de ferramenta de transcrição) se sentem confortáveis com a linha de comando e a instalação das dependências necessárias para executar o Whisper.
Nosso objetivo é empacotar sussurros de uma maneira mais fácil de usar, para que usuários menos técnicos possam aproveitar essa rede neural.
Peter veio com o nome do projeto, Stage Whisper.
O @Petersterne e o @FilMGirl (Christina Warren) criaram o projeto, e @harrislapiroff e @crazy4pi314 (Sarah Kaiser) estão liderando o desenvolvimento com @ENU (Adam Newton-Blows).
Gostaríamos de colaborar com qualquer pessoa que tenha idéias sobre como poderíamos empacotar mais facilmente e facilitar o uso de usuários não técnicos.
O projeto está atualmente nos estágios iniciais do desenvolvimento. Temos um protótipo de funcionamento que usa as estruturas de elétrons e Mantine para criar um aplicativo que permita aos usuários inserir arquivos de áudio, transcrevê -los usando o Whisper e, em seguida, gerenciar e editar as transcrições resultantes. O aplicativo estará disponível para macOS, Windows e Linux. No momento, estamos trabalhando na implementação de grandes melhorias e esperamos lançar uma versão beta em breve.
Qualquer código que distribuímos será de origem aberta e seguirá os termos da licença de qualquer um dos projetos que estamos usando. O Whisper é licenciado pelo MIT, mas algumas de suas dependências (FFMPEG) são licenciadas em termos diferentes. Certificaremos de aderir a todos os termos de licenciamento e, caso não possamos agrupar o FFMPEG com o Stage Whisper, tornaremos o mais fácil de obter possível para o usuário final. Qualquer código específico do Whisper Stage será licenciado sob a licença do MIT.