Ini adalah repo utama untuk bisikan panggung-aplikasi transkripsi audio yang gratis, open-source, dan mudah digunakan. Tahap Whisper menggunakan model pembelajaran mesin bisikan openai untuk menghasilkan transkripsi file audio yang sangat akurat, dan juga memungkinkan pengguna untuk menyimpan dan mengedit transkripsi menggunakan antarmuka pengguna grafis yang sederhana dan intuitif.
Whisper panggung terdiri dari dua komponen yang terhubung:
Rilis 1.0 Tahap Whisper akhirnya akan (idealnya) tidak memerlukan perangkat lunak tambahan. Namun, untuk saat ini, Anda akan perlu diinstal berikut pada mesin Anda untuk mengembangkan Whisper panggung. Saat ini dimungkinkan untuk secara terpisah bekerja pada antarmuka elektron atau backend Python, jadi jika Anda berencana untuk hanya bekerja pada satu atau yang lain, Anda hanya perlu menginstal persyaratan khusus untuk komponen itu.
Ada sejumlah cara untuk menginstal semua dependensi ini di workstation Anda, tetapi berikut adalah salah satu contoh bagaimana Anda dapat menginstal semua hal di atas pada Mac (lewati langkah apa pun untuk sesuatu yang telah Anda instal):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -Instal dependensi:
cd backend
poetry installSementara tujuan utama backend adalah berjalan sebagai layanan untuk aplikasi elektron untuk terhubung, itu juga dapat dijalankan sebagai skrip mandiri. Untuk melakukannya, jalankan:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devAwal tahun ini, OpenAI merilis Whisper, sistem pengenalan wicara otomatis (ASR) yang dilatih pada "680.000 jam data yang diawasi multibahasa dan multibuual yang dikumpulkan dari web." Anda dapat mempelajari lebih lanjut dengan membaca makalah [PDF] atau melihat contoh -contoh di situs web Openai.
Seperti yang dicatat Dan Nguyen di Twitter, ini bisa menjadi "anugerah untuk ruang redaksi."
Satu -satunya masalah, seperti yang ditunjukkan oleh @petersterne, adalah bahwa tidak semua jurnalis (atau orang lain yang dapat mengambil manfaat dari jenis alat transkripsi ini) nyaman dengan baris perintah dan memasang dependensi yang diperlukan untuk menjalankan bisikan.
Tujuan kami adalah mengemas bisikan dengan cara yang lebih mudah digunakan sehingga lebih sedikit pengguna teknis dapat memanfaatkan jaring saraf ini.
Peter datang dengan nama proyek, Whisper panggung.
@Petersterne dan @filmgirl (Christina Warren) menciptakan proyek, dan @harrislapiroff dan @crazy4pi314 (Sarah Kaiser) memimpin pengembangan dengan @oenu (Adam Newton-Blows) memimpin pengembangan frontend.
Kami ingin berkolaborasi dengan siapa saja yang memiliki ide tentang bagaimana kami dapat dengan mudah mengemas bisikan dan membuatnya mudah digunakan untuk pengguna non-teknis.
Proyek ini sedang dalam tahap awal pengembangan. Kami memiliki prototipe kerja yang menggunakan kerangka kerja elektron dan mantin untuk membuat aplikasi yang memungkinkan pengguna untuk memasukkan file audio, menyalinnya menggunakan Whisper, dan kemudian mengelola dan mengedit transkripsi yang dihasilkan. Aplikasi ini akan tersedia untuk macOS, Windows, dan Linux. Kami saat ini sedang berupaya menerapkan peningkatan besar dan berharap untuk segera merilis versi beta.
Kode apa pun yang kami bagikan akan bersumber terbuka dan mengikuti ketentuan lisensi dari salah satu proyek yang kami gunakan. Whisper dilisensikan MIT, tetapi beberapa dependensi (FFMPEG) dilisensikan dengan istilah yang berbeda. Kami pasti akan mematuhi persyaratan lisensi/semua lisensi dan jika kami tidak dapat menggabungkan FFMPEG dengan Whisper panggung, kami akan membuatnya mudah diperoleh sebanyak mungkin untuk pengguna akhir. Kode spesifik Whisper-spesifik tahap apa pun akan dilisensikan di bawah lisensi MIT.