이것은 무료, 오픈 소스이며 사용하기 쉬운 오디오 전사 앱인 Stage Whisper의 주요 리포지토리입니다. Stage Whisper는 OpenAI의 Whisper Machine Learning 모델을 사용하여 오디오 파일의 매우 정확한 전사를 생성하며 사용자가 간단하고 직관적 인 그래픽 사용자 인터페이스를 사용하여 전사를 저장하고 편집 할 수 있습니다.
Stage Whisper는 두 가지 연결된 구성 요소로 구성됩니다.
Stage Whisper의 최종 1.0 릴리스에는 추가 소프트웨어가 필요하지 않습니다. 그러나 지금은 무대 속삭임을 개발하려면 컴퓨터에 다음과 같은 설치가 필요합니다. 현재 전자 인터페이스 또는 파이썬 백엔드에서 별도로 작업 할 수 있으므로, 하나 또는 다른 하나만 작업 할 계획이라면 해당 구성 요소에 특정한 요구 사항 만 설치하면됩니다.
워크 스테이션에 이러한 모든 종속성을 설치하는 방법에는 여러 가지가 있지만 여기에 위의 모든 것을 Mac에 설치하는 방법에 대한 예는 다음과 같습니다 (이미 설치 한 내용에 대한 단계를 건너 뛸 수 있음).
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -종속성 설치 :
cd backend
poetry install백엔드의 주요 목적은 전자 앱을 연결하기위한 서비스로 실행되는 것이지만 독립형 스크립트로도 실행할 수도 있습니다. 그렇게하려면 실행 :
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn dev올해 초 OpenAi는 "웹에서 수집 한 680,000 시간의 다국어 및 멀티 태스킹 감독 데이터"에 대한 교육을받은 자동 음성 인식 (ASR) 시스템 인 Whisper를 발표했습니다. 논문 [PDF]을 읽거나 OpenAI 웹 사이트의 예를 살펴보면 자세한 내용을 배울 수 있습니다.
Dan Nguyen이 트위터에서 언급했듯이, 이것은 "뉴스 룸의 신의 선수"일 수 있습니다.
@Petersterne이 지적했듯이 유일한 문제는 모든 언론인 (또는 이러한 유형의 전사 도구로부터 혜택을 누릴 수있는 다른 사람)이 명령 줄에 편안하고 Whisper를 실행하는 데 필요한 종속성을 설치하는 것은 아닙니다.
우리의 목표는 기술 사용자 가이 신경망을 활용할 수 있도록 사용하기 쉬운 방법으로 속삭임을 포장하는 것입니다.
Peter는 프로젝트 이름 인 Stage Whisper를 생각해 냈습니다.
@petersterne과 @filmgirl (Christina Warren)은 프로젝트를 만들었고 @HarrisLapiroff와 @crazy4pi314 (Sarah Kaiser)는 @oenu (Adam Newton-Blows)를 선도하는 프론트 엔드 개발을 이끌고 있습니다.
우리는 Whisper를보다 쉽게 포장하고 비 기술적 인 사용자가 쉽게 사용할 수있는 방법에 대한 아이디어가있는 사람과 협력하고 싶습니다.
이 프로젝트는 현재 개발 초기 단계에 있습니다. 전자 및 만틴 프레임 워크를 사용하여 사용자가 오디오 파일을 입력하고 Whisper를 사용하여 전사 한 다음 결과 전사를 관리하고 편집 할 수있는 앱을 만들 수있는 작업 프로토 타입이 있습니다. 이 앱은 MacOS, Windows 및 Linux에서 사용할 수 있습니다. 우리는 현재 주요 개선 사항을 구현하고 있으며 곧 베타 버전을 출시하기를 희망합니다.
우리가 배포하는 모든 코드는 공개 소스이며 사용중인 프로젝트의 라이센스 조건을 따릅니다. Whisper는 MIT 라이센스가 부여되지만 일부 의존성 (FFMPEG)은 다른 약관에 따라 라이센스가 부여됩니다. 우리는 모든 라이센스 조건을 준수하고 FFMPEG를 Stage Whisper로 번들로 묶을 수없는 경우 최종 사용자가 가능한 한 쉽게 얻을 수있게 해줄 것입니다. 모든 단계 Whisper 별 코드는 MIT 라이센스에 따라 라이센스가 부여됩니다.