Scribe เป็นสคริปต์ Python ที่ถอดความไฟล์เสียงโดยใช้ OpenAI Whisper และส่งออกการถอดความเป็นเอกสาร PDF ซึ่งได้รับการปรับปรุงโดย GPT-3.5-turbo API รองรับรูปแบบไฟล์ MP3, M4A และ MP4 เป็นอินพุตและสร้างไฟล์ PDF ด้วยข้อความการถอดความที่จัดรูปแบบบนหน้าขนาด A4 สคริปต์ยังใช้โมเดล GPT-3.5-turbo ของ OpenAI เพื่อสร้างชื่อเรื่องสำหรับการถอดความ
ฟีเจอร์แปลงไฟล์ MP3, M4A และ MP4 เป็นรูปแบบ WAV สำหรับการถอดความไฟล์เสียงการถอดความโดยใช้โมเดล ASR Whisper สร้างชื่อสำหรับการถอดความโดยใช้โมเดล GPT-3.5-turbo ของ OpenAI สร้างไฟล์ PDF ด้วยการถอดความข้อความที่จัดรูปแบบบนหน้าขนาด A4
การใช้งาน: Python Scribev4.py <put_file>
แทนที่ <put_file> ด้วยพา ธ ไปยังไฟล์ mp3, mp3, m4a หรือ mp4 ของคุณ
สคริปต์จะถอดความไฟล์เสียงสร้างชื่อและสร้างไฟล์ PDF ในไดเรกทอรีเดียวกับไฟล์อินพุตที่มีชื่อเดียวกัน แต่เป็นส่วนขยาย. pdf
สิ่งที่ต้องทำล่วงหน้า:
ติดตั้ง Whisper: PIP ติดตั้ง git+https: //github.com/openai/whisper.git
ตรวจสอบโมเดลที่ได้รับการฝึกอบรมล่วงหน้าที่แตกต่างกันและประสิทธิภาพของพวกเขาใน GitHub ของ Whisper: https://github.com/openai/whisper
ติดตั้งการพึ่งพาอื่น ๆ : pydub openai reportlab moviepy
Diet Scribe ใช้ OpenAI API และส่งออก txt
ตั้งค่าคีย์ API ของคุณ
ติดตั้งการพึ่งพาที่จำเป็นทั้งหมด: PyDub, MoviePy, Openai
Run: Python diet-cribe.py <put_file>