| สารบัญ | คำอธิบาย |
|---|---|
| คำเตือน | สิ่งที่ควรรู้/ข้อจำกัดความรับผิดชอบ/คำเตือน/ฯลฯ |
| รายการสิ่งที่ต้องทำ | สิ่งที่ต้องทำ |
| ผู้มีส่วนร่วม | ผู้ที่ช่วยเหลือโครงการหรือมีส่วนร่วมในโครงการ |
| การติดตั้ง/ตั้งค่า | วิธีการติดตั้งและตั้งค่าเครื่องมือ |
| ผิด | อาร์กิวเมนต์การใช้งานและไฟล์ - ตัวอย่าง - เว็บเซิร์ฟเวอร์ |
| การแก้ไขปัญหา | ปัญหาทั่วไปและวิธีการแก้ไข |
| ข้อมูลเพิ่มเติม | ข้อมูลเพิ่มเติมเกี่ยวกับเครื่องมือ |
| การสาธิตวิดีโอ | การสาธิตวิดีโอของเครื่องมือ |
| หมายเหตุเพิ่มเติม | หมายเหตุเพิ่มเติมเกี่ยวกับเครื่องมือ |
เครื่องมือการแปลที่ขับเคลื่อนด้วย AI นี้กำลังทำงานอยู่ในระหว่างดำเนินการและกำลังได้รับการพัฒนาอย่างแข็งขันเพื่อปรับปรุงความแม่นยำและการทำงานของมันเมื่อเวลาผ่านไป ผู้ใช้ควรทราบว่าในขณะที่เครื่องมือทำงานได้อย่างมีประสิทธิภาพในหลาย ๆ สถานการณ์ แต่ก็ไม่สมบูรณ์แบบและอาจสร้างข้อผิดพลาดหรือข้อบกพร่องในการแปลเป็นครั้งคราว ปัญหาเหล่านี้ได้รับการแก้ไขอย่างต่อเนื่องหากเป็นไปได้และการอัปเดตจะถูกเปิดตัวเพื่อปรับปรุงประสิทธิภาพของเครื่องมือ ตัวอย่างเช่นคุณอาจพบสถานการณ์ที่การแปลถูกปิดเล็กน้อยหรือเกิดข้อบกพร่องทางเทคนิค แต่สิ่งเหล่านี้คาดว่าจะลดลงเมื่อมีการปรับปรุง
ความแม่นยำของการแปลจะสูงขึ้นอย่างมีนัยสำคัญเมื่อคำพูดอินพุตชัดเจนและช้า หากผู้พูดพูดเร็วเกินไปหรือพึมพำเครื่องมืออาจดิ้นรนเพื่อให้การแปลที่ถูกต้องแม้ว่ามันจะยังคงพยายามเสนอผลลัพธ์ที่เป็นประโยชน์ ตัวอย่างเช่นเมื่อใช้เครื่องมือในสภาพแวดล้อมที่เงียบสงบด้วยการพูดที่ชัดเจนและรอบคอบผลลัพธ์มักจะแม่นยำยิ่งขึ้น อย่างไรก็ตามในการตั้งค่าที่มีเสียงดังหรือเมื่อคำพูดรีบเร่งคุณอาจเห็นความแม่นยำลดลง เสียงรบกวนพื้นหลังเช่นเพลงดังสามารถรบกวนความสามารถของเครื่องมือในการแปลได้อย่างมีประสิทธิภาพ
เป็นสิ่งสำคัญที่จะต้องทราบว่าเครื่องมือนี้ได้รับการออกแบบมาเพื่อการใช้งานแบบไม่เป็นทางการและไม่ใช่มืออาชีพ มันเหมาะสำหรับวัตถุประสงค์เช่นการเรียนรู้ภาษามีส่วนร่วมในการสนทนาอย่างไม่เป็นทางการหรือทำความเข้าใจเนื้อหาต่างประเทศเพื่อความบันเทิง อย่างไรก็ตามมันไม่ได้มีไว้สำหรับการเดิมพันสูงหรือการแปลระดับมืออาชีพเช่นเอกสารทางกฎหมายข้อความทางการแพทย์หรือการสื่อสารอย่างเป็นทางการ ตัวอย่างเช่นในขณะที่เครื่องมือสามารถสนุกและให้ความรู้สำหรับการเรียนรู้ภาษาใหม่หรือดูสื่อต่างประเทศ แต่ก็ไม่ควรพึ่งพางานเฉพาะหรือที่สำคัญซึ่งความแม่นยำเป็นสิ่งสำคัญยิ่ง
ในฐานะผู้ใช้คุณมีหน้าที่รับผิดชอบในการตรวจสอบให้แน่ใจว่าเครื่องมือนี้ถูกใช้อย่างมีจริยธรรมและไม่ใช่เพื่อจุดประสงค์เช่นการแพร่กระจายข้อมูลที่ผิดหรือคำพูดแสดงความเกลียดชัง หากมีความแตกต่างระหว่างการแปลและคำพูดดั้งเดิมเป็นสิ่งสำคัญที่คุณต้องตรวจสอบผลลัพธ์ก่อนที่จะแบ่งปันกับผู้อื่น ตัวอย่างเช่นหากเครื่องมือสร้างการแปลที่ทำให้เข้าใจผิดเป็นความรับผิดชอบของคุณในการตรวจสอบเนื้อหาก่อนที่จะใช้หรือแจกจ่ายเพิ่มเติมอีกครั้ง
ผู้ใช้ควรทราบว่าพวกเขากำลังใช้เครื่องมือที่มีความเสี่ยงของตนเอง เจ้าของที่เก็บไม่สามารถรับผิดชอบต่อความเสียหายปัญหาหรือผลที่ไม่ได้ตั้งใจที่เกิดขึ้นจากการใช้เครื่องมือนี้ ตัวอย่างเช่นหากเครื่องมือทำงานผิดปกติหรือให้การแปลที่ไม่ถูกต้องซึ่งนำไปสู่ความเข้าใจผิดผู้พัฒนา จะไม่รับผิดชอบต่อผลลัพธ์ใด ๆ ที่เกิดขึ้นจากสิ่งนี้ คุณในฐานะผู้ใช้รับผิดชอบทั้งหมดสำหรับการกระทำของคุณในขณะที่ใช้เครื่องมือ
เครื่องมือนี้ไม่ได้มีวัตถุประสงค์เพื่อแทนที่นักแปลของมนุษย์โดยเฉพาะอย่างยิ่งสำหรับเนื้อหาที่ซับซ้อนหรือพิเศษ แม้ว่ามันอาจจะเป็นประโยชน์สำหรับการใช้งานทั่วไปและการใช้งานในชีวิตประจำวันนักแปลมืออาชีพควรได้รับการพิจารณาสำหรับงานที่ซับซ้อนมากขึ้นเช่นการแปลข้อตกลงทางกฎหมายหรือคู่มือทางเทคนิค ตัวอย่างเช่นหากคุณต้องการการแปลสัญญาทางธุรกิจที่แม่นยำขอแนะนำให้ขอความช่วยเหลือจากนักแปลที่มีคุณสมบัติเหมาะสมแทนที่จะพึ่งพาเครื่องมือนี้เท่านั้น
ในแง่ของประสิทธิภาพประสิทธิภาพของเครื่องมืออาจแตกต่างกันไปขึ้นอยู่กับการตั้งค่าฮาร์ดแวร์ของคุณ CPU หรือ GPU ที่เร็วขึ้นจะนำไปสู่ผลลัพธ์ที่ดีขึ้นในขณะที่ระบบที่ช้ากว่าอาจมีความล่าช้าหรือลดประสิทธิภาพ อย่างไรก็ตามปัจจัยอื่น ๆ เช่นความเร็วการเชื่อมต่ออินเทอร์เน็ตหรือคุณภาพไมโครโฟนมีผลต่อการทำงานน้อยที่สุด ตัวอย่างเช่นหากคุณใช้เครื่องมือบนคอมพิวเตอร์ที่มีประสิทธิภาพสูงคุณจะได้สัมผัสกับการแปลที่ราบรื่นเมื่อเทียบกับการใช้งานบนเครื่องที่เก่ากว่าและช้ากว่า
สุดท้ายสิ่งสำคัญคือต้องจำไว้ว่านี่เป็น เครื่องมือ ไม่ใช่บริการ หากใช้มันละเมิดข้อกำหนดในการให้บริการของแพลตฟอร์มหรือทำให้เกิดปัญหาใด ๆ ความรับผิดชอบจะตกอยู่กับผู้ใช้เท่านั้น ตัวอย่างเช่นหากเครื่องมือการใช้งานส่งผลให้เกิดกฎการละเมิดบนแพลตฟอร์ม - เช่นการใช้เครื่องมือในการแปลภาษาที่ไม่เหมาะสม - คุณต้องรับผิดชอบต่อบทลงโทษหรือข้อ จำกัด ใด ๆ ที่กำหนด
| สิ่งที่ต้องทำ | งานย่อย | สถานะ |
|---|---|---|
| เพิ่มการสนับสนุนสำหรับ AMD GPU | การสนับสนุน ROCM - WSL 2.0/Linux เท่านั้น | |
| การสนับสนุน OpenCl - Linux เท่านั้น | ||
| เพิ่มการเข้าถึง API รองรับ | ||
| เว็บเซิร์ฟเวอร์ LocalHost ที่กำหนดเอง | ||
| เพิ่มการแปลย้อนกลับ | ||
| แปลสคริปต์เป็นภาษาอื่น ๆ (จะเกิดขึ้นหลังจากการแปลย้อนกลับ) | ||
| การสนับสนุนพจนานุกรมที่กำหนดเอง | ||
| GUI. | ||
| การสร้างชื่อย่อย | ||
| การสนับสนุน Linux | ||
| ปรับปรุงประสิทธิภาพ | ||
| รูปแบบรุ่นบีบอัดสำหรับผู้ใช้ RAM ที่ต่ำกว่า | ||
| ความเร็วในการโหลดรุ่นใหญ่ที่ดีกว่า | ||
| แยกโมเดลเป็นหลาย ๆ ชิ้นตามการใช้งาน | ||
| สตรีมเสียงจาก URL | ||
| เพิ่มความแม่นยำในการแลกเปลี่ยนแบบจำลอง | ||
| ไม่จำเป็นต้องใช้ไมโครโฟน | โมดูลสตรีมมิ่ง | |
| แผงควบคุมเซิร์ฟเวอร์ | ขณะนี้อยู่ระหว่างการทำงานจะออกมาในอนาคต ฉันต้องการที่จะนำสิ่งนี้ออกมาโดยเร็วที่สุด แต่ฉันก็วิ่งเข้าไปในบล็อกถนน นี่คือคุณสมบัติ PRIO ที่สูงขึ้นโปรดจับตาดูบล็อก dev ในอนาคตในรายละเอียดและตัวอย่างเพิ่มเติม! | - |
| GPU ที่รองรับ | คำอธิบาย |
|---|---|
| กราฟิกเฉพาะของ Nvidia | ที่ได้รับการสนับสนุน |
| กราฟิกรวม Nvidia | ทดสอบ - ไม่รองรับ |
| AMD/ATI | * ตรวจสอบ Linux |
| Arc Intel | ไม่รองรับ |
| Intel HD | ไม่รองรับ |
| intel igpu | ไม่รองรับ |
คุณสามารถค้นหารายการเต็มของ Nvida GPU ที่รองรับได้ที่นี่:
| ความต้องการ | ขั้นต่ำสุด | ปานกลาง | ที่แนะนำ | ประสิทธิภาพที่ดีที่สุด |
|---|---|---|---|---|
| คอร์ CPU | 2 | 6 | 8 | 16 |
| ความเร็วสัญญาณนาฬิกา CPU (GHz) | 2.5 หรือสูงกว่า | 3.0 หรือสูงกว่า | 3.5 หรือสูงกว่า | 4.0 หรือสูงกว่า |
| RAM (GB) | 4 หรือสูงกว่า | 8 หรือสูงกว่า | 16 หรือสูงกว่า | 16 หรือสูงกว่า |
| GPU VRAM (GB) | 2 หรือสูงกว่า | 6 หรือสูงกว่า | 8 หรือสูงกว่า | 12 หรือสูงกว่า |
| พื้นที่ดิสก์ฟรี (GB) | 15 หรือสูงกว่า | 15 หรือสูงกว่า | 15 หรือสูงกว่า | 15 หรือสูงกว่า |
| GPU (แนะนำ) ตราบใดที่ GPU ที่คุณมีอยู่ในข้อมูลจำเพาะของ VRAM ก็ควรทำงานได้ดี | Nvidia GTX 1050 หรือสูงกว่า | Nvidia GTX 1660 หรือสูงกว่า | Nvidia RTX 3070 หรือสูงกว่า | Nvidia RTX 3090 หรือสูงกว่า |
บันทึก:
เครื่องมือจะทำงานกับระบบใด ๆ ที่ตรงตามข้อกำหนดขั้นต่ำ เครื่องมือจะทำงานได้ดีขึ้นในระบบที่ตรงตามข้อกำหนดที่แนะนำ เครื่องมือจะทำงานได้ดีที่สุดในระบบที่ตรงตามข้อกำหนดด้านประสิทธิภาพที่ดีที่สุด คุณสามารถผสมและจับคู่ข้อกำหนดเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด ตัวอย่างเช่นคุณสามารถมี CPU ที่ตรงตามข้อกำหนดด้านประสิทธิภาพที่ดีที่สุดและ GPU ที่ตรงตามข้อกำหนดระดับปานกลาง เครื่องมือจะทำงานได้ดีที่สุดในระบบที่ตรงตามข้อกำหนดด้านประสิทธิภาพที่ดีที่สุด
--stream สตรีมเพื่อสตรีมเสียงจากสตรีม HLS ดูตัวอย่างสำหรับข้อมูลเพิ่มเติมsetup.batsetup.bashgcc และติดตั้ง portaudio19-dev (หรือ portaudio-devel สำหรับบางเครื่อง)สคริปต์นี้ใช้ ArgParse เพื่อยอมรับอาร์กิวเมนต์บรรทัดคำสั่ง มีตัวเลือกต่อไปนี้:
| ธง | คำอธิบาย |
|---|---|
--ram | เปลี่ยนปริมาณ RAM ที่จะใช้ ค่าเริ่มต้นคือ 4GB ตัวเลือกคือ "1GB", "2GB", "4GB", "6GB", "12GB-V2", "12GB-V3" |
--ramforce | ใช้ธงนี้เพื่อบังคับให้สคริปต์ใช้ VRAM ที่ต้องการ อาจทำให้สคริปต์ขัดข้องหากมี VRAM ไม่เพียงพอ |
--fp16 | สิ่งนี้ช่วยให้ข้อมูลที่แม่นยำยิ่งขึ้นถูกส่งผ่านไปยังกระบวนการ สิ่งนี้จะช่วยให้อัลสามารถประมวลผลข้อมูลเพิ่มเติมได้ด้วยค่าใช้จ่าย คุณจะไม่เห็นผลกระทบอย่างหนักต่อฮาร์ดแวร์ที่แข็งแกร่ง รวมธง 12GB-V3 + FP16 (โหมดความแม่นยำบน GUI) สำหรับประสบการณ์สูงสุด |
--energy_threshold | ตั้งค่าระดับพลังงานสำหรับไมโครโฟนเพื่อตรวจจับ ค่าเริ่มต้นคือ 100 เลือกจาก 1 ถึง 1,000; สิ่งใดที่สูงกว่าจะยากที่จะทริกเกอร์การตรวจจับเสียง |
--mic_calibration_time | ระยะเวลาในการปรับเทียบไมค์เป็นเวลาไม่กี่วินาที หากต้องการข้ามประเภทอินพุตผู้ใช้ 0 และเวลาจะถูกตั้งค่าเป็น 5 วินาที |
--record_timeout | กำหนดเวลาเป็นวินาทีสำหรับการบันทึกแบบเรียลไทม์ ค่าเริ่มต้นคือ 2 วินาที |
--phrase_timeout | ตั้งค่าเวลาเป็นวินาทีสำหรับพื้นที่ว่างระหว่างการบันทึกก่อนพิจารณาบรรทัดใหม่ในการถอดความ ค่าเริ่มต้นคือ 1 วินาที |
--translate | แปลการถอดความเป็นภาษาอังกฤษ เปิดใช้งานการแปล |
--transcribe | ถอดเสียงให้เป็นภาษาเป้าหมายที่ตั้งไว้ จำเป็นต้องมีธงภาษาเป้าหมาย |
--target_language | เลือกภาษาเพื่อแปล ตัวเลือกที่มีอยู่คือรายการภาษาในรูปแบบ ISO 639-1 รวมถึงชื่อภาษาอังกฤษของพวกเขา |
--language | เลือกภาษาเพื่อแปลจาก ตัวเลือกที่มีอยู่คือรายการภาษาในรูปแบบ ISO 639-1 รวมถึงชื่อภาษาอังกฤษของพวกเขา |
--auto_model_swap | สลับโมเดลโดยอัตโนมัติตามภาษาที่ตรวจพบ เปิดใช้งานการแลกเปลี่ยนโมเดลอัตโนมัติ |
--device | เลือกอุปกรณ์ที่จะใช้สำหรับรุ่น ค่าเริ่มต้นคือ "cuda" ถ้ามี ตัวเลือกที่มีอยู่คือ "CPU" และ "CUDA" เมื่อตั้งค่าเป็น CPU คุณสามารถเลือกขนาด RAM ใด ๆ ตราบเท่าที่คุณมี RAM เพียงพอ ตัวเลือก CPU ได้รับการปรับให้เหมาะสมสำหรับมัลติเธรดดังนั้นหากคุณมี 16 คอร์, 32 เธรดคุณสามารถเห็นผลลัพธ์ที่ดี |
--cuda_device | เลือกอุปกรณ์ CUDA เพื่อใช้สำหรับรุ่น ค่าเริ่มต้นคือ 0 |
--discord_webhook | ตั้งค่า discord webhook เพื่อส่งการถอดความไป |
--list_microphones | แสดงรายการไมโครโฟนและออก |
--set_microphone | ตั้งค่าไมโครโฟนเริ่มต้นที่จะใช้ คุณสามารถตั้งค่าชื่อหรือหมายเลข ID จากรายการ |
--microphone_enabled | เปิดใช้งานการใช้ไมโครโฟน เพิ่ม true หลังจากธง |
--auto_language_lock | ล็อคภาษาโดยอัตโนมัติตามภาษาที่ตรวจพบหลังจากการตรวจจับ 5 ครั้ง เปิดใช้งานการล็อคภาษาอัตโนมัติ จะช่วยลดเวลาแฝง ใช้ธงนี้หากคุณใช้ไม่ใช่ภาษาอังกฤษและหากคุณไม่ทราบภาษาพูดปัจจุบัน |
--model_dir | ตำแหน่งเริ่มต้นคือโฟลเดอร์ "รุ่น" คุณสามารถใช้อาร์กิวเมนต์นี้เพื่อเปลี่ยนตำแหน่ง |
--use_finetune | |
--no_log | ทำให้เป็นเพียงสิ่งสุดท้ายที่แปล/ถอดความจะแสดงรายการสไตล์บันทึก |
--updatebranch | ตรวจสอบสาขาใดจาก repo เพื่อตรวจสอบการอัปเดต ค่าเริ่มต้นคือ มาสเตอร์ ตัวเลือกคือการทดสอบ หลัก และ การทดสอบ และ การทำงานของเลือดต่ำกว่า ในการปิดการตรวจสอบการอัปเดตใช้ การปิด ใช้งาน Bleeding-under-work เป็นการเปลี่ยนแปลงล่าสุดและสามารถหยุดพักได้ตลอดเวลา |
--keep_temp | เก็บไฟล์เสียงไว้ใน โฟลเดอร์ สิ่งนี้จะใช้พื้นที่ว่างเมื่อเวลาผ่านไป |
--portnumber | ตั้งค่าหมายเลขพอร์ตสำหรับเว็บเซิร์ฟเวอร์ หากไม่มีการตั้งค่าหมายเลขเว็บเซิร์ฟเวอร์จะไม่เริ่ม |
--retry | ลองการแปลและการถอดความหากพวกเขาล้มเหลว |
--about | แสดงเกี่ยวกับแอพ |
--save_transcript | บันทึกการถอดเสียงไปยังไฟล์ข้อความ |
--save_folder | ตั้งค่าโฟลเดอร์เพื่อบันทึกการถอดเสียงเป็น |
--stream | สตรีมเสียงจากสตรีม HLS |
--stream_language | ภาษาของสตรีม ค่าเริ่มต้นคือภาษาอังกฤษ |
--stream_target_language | ภาษาในการแปลสตรีมเป็น ค่าเริ่มต้นคือภาษาอังกฤษ จำเป็นสำหรับ --stream_transcribe |
--stream_translate | แปลกระแส |
--stream_transcribe | ถอดความกระแสเป็นภาษาต่าง ๆ ใช้ --stream_target_language เพื่อเปลี่ยนเอาต์พุต |
--stream_original_text | แสดงข้อความต้นฉบับที่ตรวจพบ |
--stream_chunks | มีกี่ชิ้นที่จะแยกกระแสออกเป็น ค่าเริ่มต้นคือ 5 แนะนำให้อยู่ระหว่าง 3 ถึง 5 สตรีม YouTube ควรเป็น 1 หรือ 2, Twitch ควรเป็น 5 ถึง 10 ยิ่งมีจำนวนที่สูงขึ้นเท่าไหร่ก็ยิ่งแม่นยำมากขึ้น แต่ก็ช้าลงและช้าลงการแปลกระแสและการถอดความ |
--cookies | ชื่อไฟล์คุกกี้เช่น Twitch, YouTube, Twitchacc1, Twitchacczed |
--makecaptions | ตั้งค่าโปรแกรมเป็นโหมดคำอธิบายภาพต้องใช้ file_input, file_output, file_output_name |
--file_input | ตำแหน่งของไฟล์สำหรับอินพุตเพื่อสร้างคำอธิบายภาพสำหรับรูปแบบวิดีโอ/เสียงเกือบทั้งหมดที่รองรับ (ใช้ FFMPEG) |
--file_output | ตำแหน่งของโฟลเดอร์เพื่อส่งออกคำบรรยาย |
--file_output_name | ชื่อไฟล์เพื่อส่งออกโดยไม่ต้องขยาย |
--ignorelist | การใช้งานคือ " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | จะช่วยให้โมเดลทำซ้ำตัวเอง แต่อาจทำให้กระบวนการช้าลง |
--remote_hls_password_id | รหัสรหัสผ่านสำหรับเว็บเซิร์ฟเวอร์ มักจะชอบ 'id' หรือ 'คีย์' คีย์เป็นค่าเริ่มต้นสำหรับโปรแกรมดังนั้นเมื่อขอ ID/รหัสผ่าน SynthalingUA จะเป็น key=000000 - key = id - 0000000 = password 16 ตัวอักษรยาว |
--remote_hls_password | รหัสผ่านสำหรับเว็บเซิร์ฟเวอร์ HLS |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" ด้วย Flag --ignorelist ตอนนี้คุณสามารถโหลดรายการวลีหรือคำที่จะละเว้นในเอาท์พุท API และหน้าต่างคำบรรยาย รายการนี้เต็มไปด้วยวลีทั่วไปที่ AI จะคิดว่ามันได้ยิน คุณสามารถปรับรายการนี้ตามที่คุณได้โปรดหรือเพิ่มคำหรือวลีเพิ่มเติม
สตรีมบางตัวอาจต้องตั้งค่าคุกกี้คุณจะต้องบันทึกคุกกี้เป็นรูปแบบ NetScape ลงในโฟลเดอร์ cookies เป็นไฟล์. txt หากไม่มีโฟลเดอร์อยู่ให้สร้าง คุณสามารถบันทึกคุกกี้โดยใช้ https://cookie-editor.com/ หรือตัวแก้ไขคุกกี้อื่น ๆ แต่ต้องอยู่ในรูปแบบ Netscape
ตัวอย่างการใช้งาน --cookies twitchacc1 ไม่ รวมส่วนขยายไฟล์. txt
สิ่งที่คุณเคยตั้งชื่อไฟล์ข้อความในโฟลเดอร์คุกกี้คุณจะต้องใช้ชื่อนั้นเป็นอาร์กิวเมนต์
ด้วยธงคำสั่ง --port 4000 คุณสามารถใช้พารามิเตอร์แบบสอบถามเช่น ?showoriginal ,? ?showtranslation และ ?showtranscription เพื่อแสดงองค์ประกอบเฉพาะ หากมีการใช้พารามิเตอร์การสืบค้นอื่นหรือไม่มีการระบุพารามิเตอร์การสืบค้นองค์ประกอบทั้งหมดจะแสดงโดยค่าเริ่มต้น คุณสามารถเลือกหมายเลขอื่นนอกเหนือจาก 4000 หากคุณต้องการ คุณสามารถผสมพารามิเตอร์แบบสอบถามเพื่อแสดงองค์ประกอบเฉพาะปล่อยว่างไว้เพื่อแสดงองค์ประกอบทั้งหมด
ตัวอย่างเช่น:
http://localhost:4000?showoriginal จะแสดงข้อความที่ตรวจพบ originalhttp://localhost:4000?showtranslation จะแสดงข้อความ translatedhttp://localhost:4000?showtranscription จะแสดงข้อความ transcribedhttp://localhost:4000/?showoriginal&showtranscription จะแสดงข้อความ original และ transcribedhttp://localhost:4000 หรือ http://localhost:4000?otherparam=value จะแสดงองค์ประกอบทั้งหมดตามค่าเริ่มต้น สิ่งนี้จะสร้างคำอธิบายภาพด้วยตัวเลือก 12GB-V3 และบันทึกลงในการดาวน์โหลด
โปรดทราบว่าคำอธิบายภาพจะเป็นภาษาอังกฤษเท่านั้น (ข้อ จำกัด ของรุ่น) แม้ว่าคุณสามารถใช้โปรแกรมอื่น ๆ เพื่อแปลเป็นภาษาอื่น ๆ ได้เสมอ
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
คุณมี GPU 12GB และต้องการสตรีมเสียงจากสตรีมสด https://www.twitch.tv/somestreamerhere และต้องการแปลเป็นภาษาอังกฤษ คุณสามารถเรียกใช้คำสั่งต่อไปนี้:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
สนับสนุนแหล่งสตรีมจาก YouTube และ Twitch นอกจากนี้คุณยังสามารถใช้แหล่งสตรีมอื่น ๆ ที่รองรับ HLS/M3U8
คุณมี GPU พร้อมหน่วยความจำ 6GB และคุณต้องการใช้โมเดลญี่ปุ่น คุณต้องการแปลการถอดความเป็นภาษาอังกฤษ คุณต้องการส่งการถอดความไปยังช่อง Discord คุณต้องการตั้งค่าเกณฑ์พลังงานเป็น 300 คุณสามารถเรียกใช้คำสั่งต่อไปนี้:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
เมื่อเลือก RAM คุณสามารถเลือก 1GB, 2GB, 4GB, 6GB, 12GB-V2, 12GB-V3 ไม่มี in-betweens
คุณมี GPU 12GB และคุณต้องการแปลเป็นภาษาสเปนจากภาษาอังกฤษคุณสามารถเรียกใช้คำสั่งต่อไปนี้สำหรับ V3 แทนที่ V3 ด้วย V2 หากคุณชอบต้นฉบับ:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
สมมติว่าคุณมีอุปกรณ์เสียงหลายเครื่องและคุณต้องการใช้อุปกรณ์ที่ไม่ใช่ค่าเริ่มต้น คุณสามารถเรียกใช้คำสั่งต่อไปนี้: python transcribe_audio.py --list_microphones คำสั่งนี้จะแสดงรายการอุปกรณ์เสียงทั้งหมดและดัชนีของพวกเขา จากนั้นคุณสามารถใช้ดัชนีเพื่อตั้งค่าอุปกรณ์เสียงเริ่มต้น ตัวอย่างเช่นหากคุณต้องการใช้อุปกรณ์เสียงที่สองคุณสามารถเรียกใช้คำสั่งต่อไปนี้: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" เพื่อตั้งค่าอุปกรณ์ให้ฟัง *โปรดบันทึกคำพูดรอบชื่ออุปกรณ์
ตัวอย่างสมมติว่าฉันมีอุปกรณ์เหล่านี้:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
ฉันจะใส่ python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" เพื่อตั้งค่าอุปกรณ์ให้ฟัง -หรือ -ฉันจะใส่ python transcribe_audio.py --set_microphone 4 เพื่อตั้งค่าอุปกรณ์ให้ฟัง
หากคุณพบปัญหาใด ๆ กับเครื่องมือนี่คือปัญหาที่พบบ่อยและการแก้ปัญหาของพวกเขา:
transformers โดยใช้ pip install transformerspython -m pip install transformers อาร์กิวเมนต์บรรทัดคำสั่งที่ใช้ --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
อาร์กิวเมนต์บรรทัดคำสั่งที่ใช้ --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500