นี่คือ repo หลักสำหรับ Stage Whisper ซึ่งเป็นแอพการถอดรหัสเสียงโอเพนซอร์ซฟรีและใช้งานง่าย Stage Whisper ใช้รูปแบบการเรียนรู้ของเครื่องจักรกระซิบของ OpenAI เพื่อสร้างการถอดรหัสไฟล์เสียงที่แม่นยำมากและยังช่วยให้ผู้ใช้สามารถจัดเก็บและแก้ไขการถอดรหัสโดยใช้อินเทอร์เฟซผู้ใช้กราฟิกที่เรียบง่ายและใช้งานง่าย
Stage Whisper ประกอบด้วยสององค์ประกอบที่เชื่อมต่อ:
การเปิดตัว Stage Whisper Will (ดีที่สุด) ในที่สุดไม่จำเป็นต้องใช้ซอฟต์แวร์เพิ่มเติมใด ๆ อย่างไรก็ตามสำหรับตอนนี้คุณจะต้องติดตั้งต่อไปนี้บนเครื่องของคุณเพื่อพัฒนา Whisper Stage ขณะนี้เป็นไปได้ที่จะทำงานแยกต่างหากบนอินเตอร์เฟสอิเล็กตรอนหรือแบ็กเอนด์ Python ดังนั้นหากคุณวางแผนที่จะทำงานเพียงอย่างเดียวหรืออื่น ๆ คุณจะต้องติดตั้งข้อกำหนดเฉพาะสำหรับส่วนประกอบนั้น
มีหลายวิธีในการติดตั้งการพึ่งพาเหล่านี้ทั้งหมดบนเวิร์กสเตชันของคุณ แต่นี่เป็นตัวอย่างหนึ่งของวิธีที่คุณอาจติดตั้งทั้งหมดข้างต้นบน Mac (ข้ามขั้นตอนใด ๆ สำหรับสิ่งที่คุณติดตั้งไว้แล้ว):
# Install Homebrew
/bin/bash -c " $( curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh ) "
# Install Python, Node, Rust, ffmpeg, and Yarn
brew install python node rust ffmpeg yarn
# Install Poetry
curl -sSL https://install.python-poetry.org | POETRY_HOME=/etc/poetry python3 -ติดตั้งการพึ่งพา:
cd backend
poetry installในขณะที่วัตถุประสงค์หลักของแบ็กเอนด์คือการทำงานเป็นบริการสำหรับแอพอิเล็กตรอนเพื่อเชื่อมต่อ แต่ก็สามารถเรียกใช้เป็นสคริปต์แบบสแตนด์อโลน ในการทำเช่นนั้นวิ่ง:
poetry run python stagewhisper --input /path/to/audio/file.mp3 cd electron
yarn
yarn devเมื่อต้นปีที่ผ่านมา Openai เปิดตัว Whisper ซึ่งเป็นระบบการรู้จำเสียงพูดอัตโนมัติ (ASR) ที่ได้รับการฝึกฝนเกี่ยวกับ "680,000 ชั่วโมงของข้อมูลหลายภาษาและมัลติทาสก์ที่รวบรวมจากเว็บ" คุณสามารถเรียนรู้เพิ่มเติมได้โดยการอ่านกระดาษ [PDF] หรือดูตัวอย่างในเว็บไซต์ของ OpenAI
ดังที่ Dan Nguyen กล่าวไว้ใน Twitter นี่อาจเป็น "สวรรค์สำหรับห้องข่าว"
ปัญหาเดียวที่ @Petersterne ชี้ให้เห็นว่าไม่ใช่นักข่าวทุกคน (หรือคนอื่น ๆ ที่สามารถได้รับประโยชน์จากเครื่องมือการถอดความประเภทนี้) รู้สึกสะดวกสบายกับบรรทัดคำสั่งและการติดตั้งการพึ่งพาที่จำเป็นในการเรียกใช้เสียงกระซิบ
เป้าหมายของเราคือการบรรจุกระซิบอย่างง่ายดายเพื่อให้ผู้ใช้ด้านเทคนิคน้อยลงสามารถใช้ประโยชน์จากระบบประสาทนี้
ปีเตอร์มาพร้อมกับชื่อโครงการ Whisper Stage
@Petersterne และ @filmgirl (Christina Warren) สร้างโครงการและ @harrislapiroff และ @crazy4pi314 (Sarah Kaiser) เป็นผู้นำการพัฒนาด้วย @Oenu (Adam Newton-Blows)
เราชอบที่จะร่วมมือกับทุกคนที่มีความคิดเกี่ยวกับวิธีที่เราสามารถบรรจุกระซิบได้ง่ายขึ้นและทำให้ง่ายต่อการใช้งานสำหรับผู้ใช้ที่ไม่ใช่ด้านเทคนิค
ปัจจุบันโครงการอยู่ในช่วงเริ่มต้นของการพัฒนา เรามีต้นแบบที่ใช้งานได้ซึ่งใช้เฟรมเวิร์กอิเล็กตรอนและ Mantine เพื่อสร้างแอพที่ช่วยให้ผู้ใช้ป้อนไฟล์เสียงถอดรหัสโดยใช้ Whisper จากนั้นจัดการและแก้ไขการถอดรหัสที่เกิดขึ้น แอพจะพร้อมใช้งานสำหรับ macOS, windows และ linux ขณะนี้เรากำลังดำเนินการเพื่อดำเนินการปรับปรุงที่สำคัญและหวังว่าจะเปิดตัวรุ่นเบต้าเร็ว ๆ นี้
รหัสใด ๆ ที่เราแจกจ่ายจะเปิดให้บริการและปฏิบัติตามข้อกำหนดใบอนุญาตของโครงการใด ๆ ที่เราใช้ Whisper ได้รับใบอนุญาต MIT แต่บางส่วนของการพึ่งพา (FFMPEG) ได้รับใบอนุญาตภายใต้ข้อกำหนดที่แตกต่างกัน เราจะต้องแน่ใจว่าจะปฏิบัติตามข้อกำหนดการออกใบอนุญาตใด ๆ/ทั้งหมดและในกรณีที่เราไม่สามารถรวมกลุ่ม FFMPEG ด้วย Whisper Stage เราจะทำให้ง่ายต่อการได้รับสำหรับผู้ใช้ปลายทาง รหัสเฉพาะขั้นตอนใด ๆ ของเสียงกระซิบจะได้รับอนุญาตภายใต้ใบอนุญาต MIT