Это основное репо для сценического шепота-бесплатное приложение с открытым исходным кодом и простое в использовании приложение для транскрипции аудио. Stage Whisper использует модель Whisper Machine Learning Openai для создания очень точных транскрипций аудиофайлов, а также позволяет пользователям хранить и редактировать транскрипции с использованием простого и интуитивно понятного графического пользовательского интерфейса.
Шепот сцены состоит из двух подключенных компонентов:
Возможный выпуск 1.0 сценического шепота (в идеале) не требует дополнительного программного обеспечения. На данный момент, однако, вам понадобится следующее, установленное на вашей машине для разработки сценического шепота. В настоящее время можно отдельно работать над электронным интерфейсом или бэкэндом Python, поэтому, если вы планируете работать только на одном или другом, вам нужно только установить требования, специфичные для этого компонента.
Есть какое -либо количество способов установить все эти зависимости на вашей рабочей станции, но вот один из примеров того, как вы можете установить все вышеперечисленное на Mac (пропустите любой шаг для того, что вы уже установили):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Установить зависимости:
cd backend
poetry installХотя основной целью бэкэнда будет работать в качестве услуги для подключения к электрону, его также можно запустить в качестве автономного сценария. Для этого беги:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devРанее в этом году Openai выпустила Whisper, его автоматическую систему распознавания речи (ASR), которая обучена «680 000 часов многоязычных и многозадачных данных, собранных в Интернете». Вы можете узнать больше, прочитав статью [PDF] или просмотрев примеры на веб -сайте Openai.
Как отметил Дэн Нгуен в Твиттере, это может быть «находкой для новостей».
Единственная проблема, как отметил @petersterne, заключается в том, что не все журналисты (или другие, которые могут извлечь выгоду из этого типа инструмента транскрипции), удобны для командной строки и устанавливают зависимости, необходимые для запуска шепота.
Наша цель состоит в том, чтобы упаковать шепот, проще в использовании, чтобы меньше технических пользователей могли воспользоваться этой нейронной сетью.
Питер придумал название проекта, сценический шепот.
@Petersterne и @filmgirl (Кристина Уоррен) создали проект, а @harrislapiroff и @crazy4pi314 (Сара Кайзер) возглавляют разработку с помощью разработки @oenu (Адам Ньютон-Блоуз).
Мы хотели бы сотрудничать со всеми, у кого есть идеи о том, как мы могли бы легче упаковать шепот и облегчить его использованию для нетехнических пользователей.
Проект в настоящее время находится на ранних стадиях развития. У нас есть рабочий прототип, который использует электронные и мантинские фреймворки для создания приложения, которое позволяет пользователям вводить аудиофайлы, транскрибировать их с помощью шепота, а затем управлять и редактировать полученные транскрипции. Приложение будет доступно для MacOS, Windows и Linux. В настоящее время мы работаем над внедрением значительных улучшений и надеемся выпустить бета -версию в ближайшее время.
Любой код, который мы распределяем, будет открыт, и следуйте условиям лицензии любого из проектов, которые мы используем. Шепот лицензирован на MIT, но некоторые из его зависимостей (FFMPEG) лицензированы в разных терминах. Мы обязательно будем придерживаться любых/всех условий лицензирования, и в случае, если мы не сможем объединить ffmpeg с помощью сценического шепота, мы сделаем это как можно более легко получить для конечного пользователя. Любой сценический код, специфичный для шепота, будет лицензирован по лицензии MIT.