ดาวน์โหลด Stage Whisper - Stage Whisper Source Download

Stage Whisper

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เวที

นี่คือ repo หลักสำหรับ Stage Whisper ซึ่งเป็นแอพการถอดรหัสเสียงโอเพนซอร์ซฟรีและใช้งานง่าย Stage Whisper ใช้รูปแบบการเรียนรู้ของเครื่องจักรกระซิบของ OpenAI เพื่อสร้างการถอดรหัสไฟล์เสียงที่แม่นยำมากและยังช่วยให้ผู้ใช้สามารถจัดเก็บและแก้ไขการถอดรหัสโดยใช้อินเทอร์เฟซผู้ใช้กราฟิกที่เรียบง่ายและใช้งานง่าย

เร็ว

Stage Whisper ประกอบด้วยสององค์ประกอบที่เชื่อมต่อ:

แบ็กเอนด์ Python ที่เชื่อมต่อกับไลบรารี Whisper ของ Openai
อินเทอร์เฟซโหนด/อิเล็กตรอน

ข้อกำหนดเบื้องต้น

การเปิดตัว Stage Whisper Will (ดีที่สุด) ในที่สุดไม่จำเป็นต้องใช้ซอฟต์แวร์เพิ่มเติมใด ๆ อย่างไรก็ตามสำหรับตอนนี้คุณจะต้องติดตั้งต่อไปนี้บนเครื่องของคุณเพื่อพัฒนา Whisper Stage ขณะนี้เป็นไปได้ที่จะทำงานแยกต่างหากบนอินเตอร์เฟสอิเล็กตรอนหรือแบ็กเอนด์ Python ดังนั้นหากคุณวางแผนที่จะทำงานเพียงอย่างเดียวหรืออื่น ๆ คุณจะต้องติดตั้งข้อกำหนดเฉพาะสำหรับส่วนประกอบนั้น

โหนด (จำเป็นสำหรับอิเล็กตรอน)
เส้นด้าย (จำเป็นสำหรับอิเล็กตรอน)
Python 3.x (จำเป็นสำหรับแบ็กเอนด์)
สนิม (จำเป็นสำหรับแบ็กเอนด์)
ffmpeg (จำเป็นสำหรับแบ็กเอนด์)
บทกวี (จำเป็นสำหรับแบ็กเอนด์)

มีหลายวิธีในการติดตั้งการพึ่งพาเหล่านี้ทั้งหมดบนเวิร์กสเตชันของคุณ แต่นี่เป็นตัวอย่างหนึ่งของวิธีที่คุณอาจติดตั้งทั้งหมดข้างต้นบน Mac (ข้ามขั้นตอนใด ๆ สำหรับสิ่งที่คุณติดตั้งไว้แล้ว):

 # Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "

# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn

# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -

เรียกใช้แบ็กเอนด์ Python

ติดตั้งการพึ่งพา:

 cd backend
poetry install

ในขณะที่วัตถุประสงค์หลักของแบ็กเอนด์คือการทำงานเป็นบริการสำหรับแอพอิเล็กตรอนเพื่อเชื่อมต่อ แต่ก็สามารถเรียกใช้เป็นสคริปต์แบบสแตนด์อโลน ในการทำเช่นนั้นวิ่ง:

poetry run python stagewhisper --input /path/to/audio/file.mp3

รันอินเตอร์เฟสอิเล็กตรอน

 cd electron
yarn
yarn dev

เป้าหมาย

เมื่อต้นปีที่ผ่านมา Openai เปิดตัว Whisper ซึ่งเป็นระบบการรู้จำเสียงพูดอัตโนมัติ (ASR) ที่ได้รับการฝึกฝนเกี่ยวกับ "680,000 ชั่วโมงของข้อมูลหลายภาษาและมัลติทาสก์ที่รวบรวมจากเว็บ" คุณสามารถเรียนรู้เพิ่มเติมได้โดยการอ่านกระดาษ [PDF] หรือดูตัวอย่างในเว็บไซต์ของ OpenAI

ดังที่ Dan Nguyen กล่าวไว้ใน Twitter นี่อาจเป็น "สวรรค์สำหรับห้องข่าว"

ปัญหาเดียวที่ @Petersterne ชี้ให้เห็นว่าไม่ใช่นักข่าวทุกคน (หรือคนอื่น ๆ ที่สามารถได้รับประโยชน์จากเครื่องมือการถอดความประเภทนี้) รู้สึกสะดวกสบายกับบรรทัดคำสั่งและการติดตั้งการพึ่งพาที่จำเป็นในการเรียกใช้เสียงกระซิบ

เป้าหมายของเราคือการบรรจุกระซิบอย่างง่ายดายเพื่อให้ผู้ใช้ด้านเทคนิคน้อยลงสามารถใช้ประโยชน์จากระบบประสาทนี้

ปีเตอร์มาพร้อมกับชื่อโครงการ Whisper Stage

ใครมีส่วนร่วม

@Petersterne และ @filmgirl (Christina Warren) สร้างโครงการและ @harrislapiroff และ @crazy4pi314 (Sarah Kaiser) เป็นผู้นำการพัฒนาด้วย @Oenu (Adam Newton-Blows)

เราชอบที่จะร่วมมือกับทุกคนที่มีความคิดเกี่ยวกับวิธีที่เราสามารถบรรจุกระซิบได้ง่ายขึ้นและทำให้ง่ายต่อการใช้งานสำหรับผู้ใช้ที่ไม่ใช่ด้านเทคนิค

สถานะโครงการ

ปัจจุบันโครงการอยู่ในช่วงเริ่มต้นของการพัฒนา เรามีต้นแบบที่ใช้งานได้ซึ่งใช้เฟรมเวิร์กอิเล็กตรอนและ Mantine เพื่อสร้างแอพที่ช่วยให้ผู้ใช้ป้อนไฟล์เสียงถอดรหัสโดยใช้ Whisper จากนั้นจัดการและแก้ไขการถอดรหัสที่เกิดขึ้น แอพจะพร้อมใช้งานสำหรับ macOS, windows และ linux ขณะนี้เรากำลังดำเนินการเพื่อดำเนินการปรับปรุงที่สำคัญและหวังว่าจะเปิดตัวรุ่นเบต้าเร็ว ๆ นี้

ขอคุณสมบัติหรือถามคำถามเกี่ยวกับการอภิปรายโครงการเกี่ยวกับ GitHub
ค้นหาข้อผิดพลาด? เปิดปัญหาเพื่อให้เราสามารถดูว่าเราสามารถแก้ไขได้อย่างไร
ต้องการมีส่วนร่วม? ตรวจสอบปัญหาแรกที่ดีของเราและคู่มือการสนับสนุนของเรา
เข้าร่วมเซิร์ฟเวอร์ Discord ของเราเพื่อหารือเกี่ยวกับการวางแผนและการพัฒนาของโครงการ

ใบอนุญาต

รหัสใด ๆ ที่เราแจกจ่ายจะเปิดให้บริการและปฏิบัติตามข้อกำหนดใบอนุญาตของโครงการใด ๆ ที่เราใช้ Whisper ได้รับใบอนุญาต MIT แต่บางส่วนของการพึ่งพา (FFMPEG) ได้รับใบอนุญาตภายใต้ข้อกำหนดที่แตกต่างกัน เราจะต้องแน่ใจว่าจะปฏิบัติตามข้อกำหนดการออกใบอนุญาตใด ๆ/ทั้งหมดและในกรณีที่เราไม่สามารถรวมกลุ่ม FFMPEG ด้วย Whisper Stage เราจะทำให้ง่ายต่อการได้รับสำหรับผู้ใช้ปลายทาง รหัสเฉพาะขั้นตอนใด ๆ ของเสียงกระซิบจะได้รับอนุญาตภายใต้ใบอนุญาต MIT

ขยาย

ข้อมูลเพิ่มเติม