| Daftar isi | Keterangan |
|---|---|
| Penafian | Hal -hal yang perlu diketahui/penafian/peringatan/dll |
| Untuk melakukan daftar | Hal -hal yang harus dilakukan |
| Kontributor | Orang yang membantu proyek atau berkontribusi pada proyek. |
| Menginstal/Mengatur | Cara menginstal dan mengatur alat. |
| Misc | Argumen Penggunaan dan File - Contoh - Server Web |
| Pemecahan masalah | Masalah umum dan cara memperbaikinya. |
| Info tambahan | Informasi tambahan tentang alat ini. |
| Demo video | Demonstrasi video alat ini. |
| Catatan tambahan | Catatan tambahan tentang alat ini. |
Alat terjemahan bertenaga AI ini saat ini sedang dalam proses dan secara aktif dikembangkan untuk meningkatkan akurasi dan fungsinya dari waktu ke waktu. Pengguna harus menyadari bahwa sementara alat ini bekerja secara efektif dalam banyak skenario, itu tidak sempurna dan kadang -kadang dapat menghasilkan kesalahan terjemahan atau bug. Masalah -masalah ini terus ditangani jika memungkinkan, dan pembaruan akan diluncurkan untuk meningkatkan kinerja alat. Misalnya, Anda dapat menghadapi situasi di mana terjemahannya sedikit mati atau di mana gangguan teknis terjadi, tetapi ini diharapkan berkurang karena perbaikan dilakukan.
Keakuratan terjemahan secara signifikan lebih tinggi ketika pidato input jelas dan lambat. Jika pembicara berbicara terlalu cepat atau bergumam, alat ini mungkin berjuang untuk memberikan terjemahan yang akurat, meskipun masih akan berusaha menawarkan output yang bermanfaat. Misalnya, saat menggunakan alat dalam lingkungan yang tenang dengan pidato yang jelas dan disengaja, hasilnya umumnya lebih tepat. Namun, dalam pengaturan yang bising atau ketika pidato terburu -buru, Anda mungkin melihat penurunan akurasi. Kebisingan latar belakang, seperti musik keras, juga dapat mengganggu kemampuan alat untuk menerjemahkan secara efektif.
Penting untuk dicatat bahwa alat ini dirancang untuk penggunaan santai, non-profesional. Ini sangat ideal untuk tujuan seperti pembelajaran bahasa, terlibat dalam percakapan informal, atau memahami konten asing untuk hiburan. Namun, itu tidak dimaksudkan untuk terjemahan berisiko tinggi atau profesional, seperti dokumen hukum, teks medis, atau komunikasi resmi. Misalnya, sementara alat ini dapat menyenangkan dan mendidik untuk mempelajari bahasa baru atau menonton media asing, itu tidak boleh diandalkan untuk tugas -tugas khusus atau kritis di mana akurasi adalah yang terpenting.
Sebagai pengguna, Anda bertanggung jawab untuk memastikan bahwa alat ini digunakan secara etis dan tidak untuk tujuan seperti menyebarkan informasi yang salah atau kebencian. Jika ada perbedaan antara terjemahan dan pidato asli, penting bagi Anda untuk memverifikasi output sebelum membaginya dengan orang lain. Misalnya, jika alat ini menghasilkan terjemahan yang menyesatkan, adalah tanggung jawab Anda untuk memeriksa ulang konten sebelum menggunakannya atau mendistribusikannya lebih lanjut.
Pengguna juga harus menyadari bahwa mereka menggunakan alat dengan risiko sendiri. Pemilik repositori tidak dapat dimintai pertanggungjawaban atas kerusakan, masalah, atau konsekuensi yang tidak diinginkan yang timbul dari penggunaan alat ini. Misalnya, jika alat salah fungsi atau memberikan terjemahan yang tidak akurat yang mengarah pada kesalahpahaman, pengembang kontributor tidak bertanggung jawab atas hasil apa pun yang terjadi sebagai akibat dari ini. Anda, sebagai pengguna, memikul semua tanggung jawab atas tindakan Anda saat menggunakan alat ini.
Alat ini tidak dimaksudkan untuk menggantikan penerjemah manusia, terutama untuk konten yang kompleks atau khusus. Meskipun mungkin bermanfaat untuk penggunaan santai dan sehari -hari, penerjemah profesional harus dikonsultasikan untuk tugas yang lebih rumit, seperti menerjemahkan perjanjian hukum atau manual teknis. Misalnya, jika Anda memerlukan terjemahan yang tepat dari kontrak bisnis, disarankan untuk mencari bantuan dari penerjemah manusia yang memenuhi syarat daripada hanya mengandalkan alat ini.
Dalam hal kinerja, efektivitas alat dapat bervariasi tergantung pada pengaturan perangkat keras Anda. CPU atau GPU yang lebih cepat akan menghasilkan hasil yang lebih baik, sementara sistem yang lebih lambat mungkin mengalami penundaan atau berkurangnya kinerja. Namun, faktor -faktor lain, seperti kecepatan koneksi internet atau kualitas mikrofon, memiliki efek minimal pada fungsinya. Misalnya, jika Anda menjalankan alat pada komputer berkinerja tinggi, Anda mungkin akan mengalami terjemahan yang lebih halus dibandingkan dengan menggunakannya pada mesin yang lebih tua dan lebih lambat.
Terakhir, penting untuk diingat bahwa ini adalah alat , bukan layanan . Jika menggunakannya melanggar ketentuan layanan platform apa pun atau menyebabkan masalah apa pun, tanggung jawabnya hanya pada pengguna. Misalnya, jika penggunaan alat ini menghasilkan aturan yang melanggar pada platform - seperti menggunakan alat untuk menerjemahkan bahasa yang tidak pantas - Anda bertanggung jawab atas hukuman atau pembatasan yang dikenakan sebagai hasilnya.
| Todo | Sub-Task | Status |
|---|---|---|
| Tambahkan dukungan untuk AMD GPU. | Dukungan ROCM - WSL 2.0/Linux saja | ✅ |
| Dukungan OpenCl - Linux saja | ✅ | |
| Tambahkan Dukungan API Access. | ✅ | |
| Server web localhost khusus. | ✅ | |
| Tambahkan Terjemahan Terbalik. | ✅ | |
| Melokalisasi skrip ke bahasa lain. (Akan terjadi setelah terjemahan terbalik.) | ||
| Dukungan Kamus Kustom. | ||
| GUI. | ✅ | |
| Pembuatan sub judul | ✅ | |
| Dukungan Linux. | ✅ | |
| Meningkatkan kinerja. | ||
| Format model terkompresi untuk pengguna RAM yang lebih rendah | ✅ | |
| Kecepatan pemuatan model besar yang lebih baik | ✅ | |
| Model terpecah menjadi beberapa potongan berdasarkan penggunaan | ||
| Streaming audio dari URL | ✅ | |
| Tingkatkan akurasi pertukaran model. | ||
| Tidak diperlukan mikrofon | Modul streaming | ✅ |
| Panel Kontrol Server | Saat ini sedang bekerja, akan keluar dalam rilis mendatang. Saya ingin mengeluarkan ini segera, tetapi saya telah berlari ke blok jalan. Ini adalah fitur prio yang lebih tinggi, harap perhatikan blog Dev di masa depan pada detail dan pratinjau lebih lanjut! | ? |
| GPU yang didukung | Keterangan |
|---|---|
| Grafik khusus NVIDIA | Didukung |
| Grafik terintegrasi NVIDIA | Diuji - Tidak Didukung |
| AMD/ATI | * Linux diverifikasi |
| Arc Intel | Tidak didukung |
| Intel HD | Tidak didukung |
| Intel IGPU | Tidak didukung |
Anda dapat menemukan daftar lengkap NVIDA GPU yang didukung di sini:
| Persyaratan | Minimum | Sedang | Direkomendasikan | Kinerja terbaik |
|---|---|---|---|---|
| CPU Core | 2 | 6 | 8 | 16 |
| CPU Clock Speed (GHz) | 2.5 atau lebih tinggi | 3.0 atau lebih tinggi | 3.5 atau lebih tinggi | 4.0 atau lebih tinggi |
| RAM (GB) | 4 atau lebih tinggi | 8 atau lebih tinggi | 16 atau lebih tinggi | 16 atau lebih tinggi |
| GPU VRAM (GB) | 2 atau lebih tinggi | 6 atau lebih tinggi | 8 atau lebih tinggi | 12 atau lebih tinggi |
| Ruang Disk Gratis (GB) | 15 atau lebih tinggi | 15 atau lebih tinggi | 15 atau lebih tinggi | 15 atau lebih tinggi |
| GPU (disarankan) selama GPU yang Anda miliki berada dalam spec vram, itu harus berfungsi dengan baik. | Nvidia gtx 1050 atau lebih tinggi | Nvidia gtx 1660 atau lebih tinggi | Nvidia rtx 3070 atau lebih tinggi | Nvidia rtx 3090 atau lebih tinggi |
Catatan:
Alat ini akan bekerja pada sistem apa pun yang memenuhi persyaratan minimum. Alat ini akan bekerja lebih baik pada sistem yang memenuhi persyaratan yang disarankan. Alat ini akan bekerja paling baik pada sistem yang memenuhi persyaratan kinerja terbaik. Anda dapat mencampur dan mencocokkan persyaratan untuk mendapatkan kinerja terbaik. Misalnya, Anda dapat memiliki CPU yang memenuhi persyaratan kinerja terbaik dan GPU yang memenuhi persyaratan moderat. Alat ini akan bekerja paling baik pada sistem yang memenuhi persyaratan kinerja terbaik.
--stream untuk melakukan streaming audio dari aliran HLS. Lihat contoh untuk informasi lebih lanjut.setup.batsetup.bashgcc dan portaudio19-dev (atau portaudio-devel untuk beberapa mesin`)Script ini menggunakan argparse untuk menerima argumen baris perintah. Opsi berikut tersedia:
| Bendera | Keterangan |
|---|---|
--ram | Ubah jumlah RAM untuk digunakan. Default adalah 4GB. Pilihan adalah "1GB", "2GB", "4GB", "6GB", "12GB-V2", "12GB-V3". |
--ramforce | Gunakan bendera ini untuk memaksa skrip menggunakan VRAM yang diinginkan. Dapat menyebabkan skrip macet jika tidak ada cukup vram yang tersedia. |
--fp16 | Ini memungkinkan informasi yang lebih akurat diteruskan ke proses. Ini akan memberikan AL kemampuan untuk memproses lebih banyak informasi dengan biaya kecepatan. Anda tidak akan melihat dampak besar pada perangkat keras yang lebih kuat. Gabungkan bendera 12GB-V3 + FP16 (mode presisi pada GUI) untuk pengalaman tertinggi. |
--energy_threshold | Atur tingkat energi untuk dideteksi mikrofon. Default adalah 100. Pilih dari 1 hingga 1000; Apa pun yang lebih tinggi akan lebih sulit untuk memicu deteksi audio. |
--mic_calibration_time | Berapa lama untuk mengkalibrasi mikrofon dalam detik. Untuk melewatkan input pengguna jenis 0 dan waktu akan diatur ke 5 detik. |
--record_timeout | Tetapkan waktu dalam hitungan detik untuk perekaman waktu nyata. Default adalah 2 detik. |
--phrase_timeout | Atur waktu dalam detik untuk ruang kosong antara rekaman sebelum mempertimbangkannya sebagai baris baru dalam transkripsi. Default adalah 1 detik. |
--translate | Menerjemahkan transkripsi ke bahasa Inggris. Mengaktifkan terjemahan. |
--transcribe | Menranskripsi audio ke bahasa target yang ditetapkan. Diperlukan bendera bahasa target. |
--target_language | Pilih bahasa yang akan diterjemahkan. Pilihan yang tersedia adalah daftar bahasa dalam format ISO 639-1, serta nama bahasa Inggris mereka. |
--language | Pilih bahasa yang akan diterjemahkan dari. Pilihan yang tersedia adalah daftar bahasa dalam format ISO 639-1, serta nama bahasa Inggris mereka. |
--auto_model_swap | Secara otomatis menukar model berdasarkan bahasa yang terdeteksi. Mengaktifkan pertukaran model otomatis. |
--device | Pilih perangkat yang akan digunakan untuk model. Default adalah "cuda" jika tersedia. Opsi yang tersedia adalah "CPU" dan "CUDA". Saat mengatur ke CPU, Anda dapat memilih ukuran RAM apa pun selama Anda memiliki cukup RAM. Opsi CPU dioptimalkan untuk multi-threading, jadi jika Anda memiliki 16 core, 32 utas, Anda dapat melihat hasil yang baik. |
--cuda_device | Pilih perangkat CUDA yang akan digunakan untuk model. Default adalah 0. |
--discord_webhook | Atur Webhook Perselisihan untuk mengirim transkripsi ke. |
--list_microphones | Daftar mikrofon dan keluar yang tersedia. |
--set_microphone | Atur mikrofon default untuk digunakan. Anda dapat mengatur nama atau nomor ID -nya dari daftar. |
--microphone_enabled | Memungkinkan penggunaan mikrofon. Tambahkan true setelah bendera. |
--auto_language_lock | Secara otomatis mengunci bahasa berdasarkan bahasa yang terdeteksi setelah 5 deteksi. Mengaktifkan penguncian bahasa otomatis. Akan membantu mengurangi latensi. Gunakan bendera ini jika Anda menggunakan non-Inggris dan jika Anda tidak tahu bahasa lisan saat ini. |
--model_dir | Lokasi default adalah folder "model". Anda dapat menggunakan argumen ini untuk mengubah lokasi. |
--use_finetune | |
--no_log | Membuatnya jadi hanya hal terakhir yang diterjemahkan/ditranskripsi ditampilkan sebagai daftar gaya log. |
--updatebranch | Periksa cabang mana dari repo untuk memeriksa pembaruan. Default adalah master , pilihan adalah master dan pengujian dev dan perdarahan-di bawah kerja . Untuk mematikan cek pembaruan, gunakan nonaktifkan . Bleeding-under-work pada dasarnya adalah perubahan terbaru dan dapat pecah kapan saja. |
--keep_temp | Menyimpan file audio di folder keluar . Ini akan memakan ruang dari waktu ke waktu. |
--portnumber | Atur nomor port untuk server web. Jika tidak ada nomor yang diatur maka server web tidak akan dimulai. |
--retry | Reli ulang terjemahan dan transkripsi jika gagal. |
--about | Menunjukkan tentang aplikasi. |
--save_transcript | Menyimpan transkrip ke file teks. |
--save_folder | Atur folder untuk menyimpan transkrip ke. |
--stream | Streaming audio dari aliran HLS. |
--stream_language | Bahasa aliran. Default adalah bahasa Inggris. |
--stream_target_language | Bahasa untuk menerjemahkan aliran ke. Default adalah bahasa Inggris. Dibutuhkan untuk --stream_transcribe |
--stream_translate | Menerjemahkan alirannya. |
--stream_transcribe | Menranskripsi aliran ke bahasa yang berbeda. Gunakan --stream_target_language untuk mengubah output. |
--stream_original_text | Tunjukkan teks asli yang terdeteksi. |
--stream_chunks | Berapa banyak potongan untuk membagi aliran. Default adalah 5 disarankan antara 3 dan 5. Aliran YouTube harus 1 atau 2, kedutan harus 5 hingga 10. Semakin tinggi jumlahnya, semakin akurat, tetapi juga semakin lambat dan menunda terjemahan aliran dan transkripsi. |
--cookies | Nama file cookie, seperti Twitch, YouTube, Twitchacc1, Twitchacczed |
--makecaptions | Setel program ke mode Captions, membutuhkan file_input, file_output, file_output_name |
--file_input | Lokasi file untuk input untuk membuat teks, hampir semua format video/audio didukung (menggunakan ffmpeg) |
--file_output | Lokasi folder untuk mengekspor keterangan |
--file_output_name | Nama file untuk diekspor sebagai tanpa ext apa pun. |
--ignorelist | Penggunaan adalah " --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Akan membantu model dari mengulangi sendiri, tetapi dapat memperlambat prosesnya. |
--remote_hls_password_id | ID Kata Sandi untuk server web. Biasanya seperti 'id', atau 'kunci'. Kunci adalah default untuk program ini, jadi ketika meminta ID/Kata Sandi, Synthalingua akan menjadi key=000000 - key = id - 0000000 = password 16 Chars Panjang. |
--remote_hls_password | Kata sandi untuk server web HLS. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" Dengan bendera --ignorelist Anda sekarang dapat memuat daftar frasa atau kata untuk diabaikan di jendela output dan subtitle API. Daftar ini sudah diisi dengan frasa umum AI akan berpikir itu didengar. Anda dapat menyesuaikan daftar ini karena Anda silakan atau tambahkan lebih banyak kata atau frasa ke dalamnya.
Beberapa aliran mungkin memerlukan cookie yang diatur, Anda harus menyimpan cookie sebagai format Netscape ke folder cookies sebagai file .txt. Jika folder tidak ada, buatlah. Anda dapat menyimpan cookie menggunakan https://cookie-editor.com/ atau editor cookie lainnya, tetapi harus dalam format Netscape.
Contoh Penggunaan --cookies twitchacc1 tidak termasuk ekstensi file .txt.
Apa pun yang Anda beri nama file teks di folder cookies, Anda harus menggunakan nama itu sebagai argumen.
Dengan Command Flag --port 4000 , Anda dapat menggunakan parameter kueri seperti ?showoriginal , ?showtranslation , dan ?showtranscription untuk menampilkan elemen tertentu. Jika ada parameter kueri lain yang digunakan atau tidak ada parameter kueri yang ditentukan, semua elemen akan ditampilkan secara default. Anda dapat memilih nomor lain selain 4000 jika Anda mau. Anda dapat mencampur parameter kueri untuk menampilkan elemen -elemen tertentu, biarkan kosong untuk menunjukkan semua elemen.
Misalnya:
http://localhost:4000?showoriginal akan menampilkan teks yang terdeteksi original .http://localhost:4000?showtranslation akan menampilkan teks translated .http://localhost:4000?showtranscription akan menampilkan teks transcribed .http://localhost:4000/?showoriginal&showtranscription akan menampilkan teks original dan transcribed .http://localhost:4000 atau http://localhost:4000?otherparam=value akan menampilkan semua elemen secara default. Ini akan membuat teks, dengan opsi 12GB-V3 dan menyimpan untuk mengunduh.
Harap dicatat, teks hanya akan dalam bahasa Inggris (batasan model) meskipun Anda selalu dapat menggunakan program lain untuk diterjemahkan ke dalam bahasa lain
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
Anda memiliki GPU 12GB dan ingin melakukan streaming audio dari aliran langsung https://www.twitch.tv/somestreamerhere dan ingin menerjemahkannya ke bahasa Inggris. Anda dapat menjalankan perintah berikut:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Sumber aliran dari YouTube dan Twitch didukung. Anda juga dapat menggunakan sumber aliran lain yang mendukung HLS/M3U8.
Anda memiliki GPU dengan memori 6GB dan Anda ingin menggunakan model Jepang. Anda juga ingin menerjemahkan transkripsi ke bahasa Inggris. Anda juga ingin mengirim transkripsi ke saluran perselisihan. Anda juga ingin mengatur ambang energi menjadi 300. Anda dapat menjalankan perintah berikut:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
Saat memilih RAM, Anda hanya dapat memilih 1GB, 2GB, 4GB, 6GB, 12GB-V2, 12GB-V3. Tidak ada inti.
Anda memiliki GPU 12GB dan Anda ingin menerjemahkan ke Spanyol dari bahasa Inggris, Anda dapat menjalankan perintah berikut untuk V3 REPLACE V3 dengan V2 jika Anda lebih suka yang asli:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Katakanlah Anda memiliki beberapa perangkat audio dan Anda ingin menggunakan yang bukan default. Anda dapat menjalankan perintah berikut: python transcribe_audio.py --list_microphones Perintah ini akan mencantumkan semua perangkat audio dan indeksnya. Anda kemudian dapat menggunakan indeks untuk mengatur perangkat audio default. Misalnya, jika Anda ingin menggunakan perangkat audio kedua, Anda dapat menjalankan perintah berikut: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" untuk mengatur perangkat untuk didengarkan. *Harap dicatat kutipan di sekitar nama perangkat. Ini diperlukan untuk mencegah kesalahan. Beberapa nama dapat dipotong, salinannya tepat di atas nama.
Contoh Katakanlah saya memiliki perangkat ini:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Saya akan menempatkan python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" untuk mengatur perangkat untuk mendengarkan. -An atau saya akan menempatkan python transcribe_audio.py --set_microphone 4 untuk mengatur perangkat untuk mendengarkan.
Jika Anda menghadapi masalah dengan alat ini, berikut adalah beberapa masalah umum dan solusinya:
transformers yang diinstal dengan menjalankan pip install transformers .python -m pip install transformers . Argumen baris perintah digunakan. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Argumen baris perintah digunakan. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500