| 目錄 | 描述 |
|---|---|
| 免責聲明 | 知道/免責/警告/等的事物 |
| 要做列表 | 要做的事情 |
| 貢獻者 | 幫助該項目或為該項目做出貢獻的人。 |
| 安裝/設置 | 如何安裝和設置工具。 |
| 雜項 | 用法和文件參數 - 示例 - Web服務器 |
| 故障排除 | 常見問題以及如何修復它們。 |
| 其他信息 | 有關該工具的其他信息。 |
| 視頻演示 | 該工具的視頻演示。 |
| 額外的筆記 | 有關該工具的額外註釋。 |
該AI驅動的翻譯工具目前正在進行中,並且正在積極開發以提高其準確性和功能。用戶應該意識到,儘管該工具在許多情況下有效地工作,但它並不完美,偶爾可能會產生翻譯錯誤或錯誤。在可能的情況下,這些問題將不斷解決,並將推出更新以提高工具的性能。例如,您可能會遇到翻譯略有關閉或發生技術故障的情況,但是隨著改進的改進,這些情況有望減少。
當輸入語音清晰且緩慢時,翻譯的準確性明顯更高。如果說話者的交談太快或喃喃自語,該工具可能會難以提供準確的翻譯,儘管它仍將嘗試提供有用的輸出。例如,當在安靜的環境中使用清晰,故意的語音使用該工具時,結果通常更精確。但是,在嘈雜的設置或匆忙演講時,您可能會看到準確性下降。背景噪音(如大聲的音樂)也可以乾擾該工具有效翻譯的能力。
重要的是要注意,該工具是為休閒,非專業使用而設計的。它非常適合諸如語言學習,進行非正式對話或了解娛樂的外國內容之類的理想選擇。但是,它並非用於高風險或專業翻譯,例如法律文件,醫學文本或官方通訊。例如,雖然該工具可以有趣且具有教育意義,以學習新語言或觀看外國媒體,但不應依靠精確度至關重要的專業或關鍵任務。
作為用戶,您有責任確保該工具在道德上使用,而不是用於傳播錯誤信息或仇恨言論之類的目的。如果翻譯和原始語音之間存在差異,則至關重要的是,您在與他人共享之前驗證輸出。例如,如果該工具產生了誤導性的翻譯,則您有責任在使用內容或進一步分發內容之前對內容進行仔細檢查。
用戶還應意識到,他們正在使用該工具自擔風險。存儲庫所有者不能對使用本工具產生的任何損害,問題或意外後果負責。例如,如果該工具出現故障或提供導致誤解的不准確翻譯,則開發人員(S)貢獻者對由於此結果而發生的任何結果都不承擔任何責任。作為用戶,您在使用該工具時承擔所有責任。
該工具並非旨在取代人類翻譯人員,尤其是對於復雜或專業內容。雖然這可能有助於休閒和日常使用,但應諮詢專業翻譯,以進行更複雜的任務,例如翻譯法律協議或技術手冊。例如,如果您需要確切的商業合同翻譯,建議從合格的人類翻譯人員那裡尋求幫助,而不是僅依靠此工具。
在性能方面,該工具的有效性可能會因您的硬件設置而異。更快的CPU或GPU將帶來更好的結果,而較慢的系統可能會遇到延遲或降低性能。但是,其他因素(例如Internet連接速度或麥克風質量)對其功能的影響最小。例如,如果您在高性能計算機上運行該工具,則與在較舊的較慢的機器上使用相比,您可能會體驗更順暢的翻譯。
最後,重要的是要記住,這是一種工具,而不是服務。如果使用它違反了任何平台的服務條款或引起任何問題,則責任僅屬於用戶。例如,如果該工具的使用導致在平台上違反規則(例如使用該工具來翻譯不適當的語言),則您對因此施加的任何懲罰或限制負責。
| 托多 | 子任務 | 地位 |
|---|---|---|
| 增加對AMD GPU的支持。 | ROCM支持-WSL 2.0/Linux | ✅ |
| OPENCL支持 - 僅Linux | ✅ | |
| 添加支持API訪問。 | ✅ | |
| 自定義Localhost Web服務器。 | ✅ | |
| 添加反向翻譯。 | ✅ | |
| 將腳本本地化為其他語言。 (將在反向翻譯後進行。) | ||
| 自定義詞典支持。 | ||
| GUI。 | ✅ | |
| 子標題創建 | ✅ | |
| Linux支持。 | ✅ | |
| 提高性能。 | ||
| 較低RAM用戶的壓縮模型格式 | ✅ | |
| 更好的大型型號加載速度 | ✅ | |
| 根據用法將模型分為多個塊 | ||
| 從URL流音頻 | ✅ | |
| 提高模型交換精度。 | ||
| 無需麥克風 | 流模塊 | ✅ |
| 服務器控制面板 | 目前正在工作,將來將在以後的版本中發布。我想盡快解決這個問題,但是我一直遇到了路障。這是一項更高的PRIO功能,請留意更多詳細信息和預覽的未來開發博客! | ? |
| 支持的GPU | 描述 |
|---|---|
| NVIDIA專用圖形 | 支持 |
| NVIDIA集成圖形 | 測試 - 不支持 |
| AMD/ATI | * Linux已驗證 |
| 英特爾弧 | 不支持 |
| 英特爾高清 | 不支持 |
| 英特爾IGPU | 不支持 |
您可以在此處找到支持的NVIDA GPU的完整列表:
| 要求 | 最低限度 | 緩和 | 受到推崇的 | 最佳性能 |
|---|---|---|---|---|
| CPU內核 | 2 | 6 | 8 | 16 |
| CPU時鐘速度(GHz) | 2.5或更高 | 3.0或更高 | 3.5或更高 | 4.0或更高 |
| RAM(GB) | 4或更高 | 8或更高 | 16或更高 | 16或更高 |
| GPU VRAM(GB) | 2或更高 | 6或更高 | 8或更高 | 12或更高 |
| 免費磁盤空間(GB) | 15或更高 | 15或更高 | 15或更高 | 15或更高 |
| GPU(建議)只要您擁有的GPU在VRAM規范范圍內,它應該可以正常工作。 | NVIDIA GTX 1050或更高 | NVIDIA GTX 1660或更高 | NVIDIA RTX 3070或更高 | NVIDIA RTX 3090或更高 |
筆記:
該工具將適用於滿足最低要求的任何系統。該工具將在滿足建議要求的系統上更好地工作。該工具最適合滿足最佳性能要求的系統。您可以混合併匹配要求以獲得最佳性能。例如,您可以擁有滿足最佳性能要求的CPU和滿足適度要求的GPU。該工具最適合滿足最佳性能要求的系統。
--stream標誌來從HLS流進行音頻。有關更多信息,請參見示例。setup.batsetup.bashgcc並安裝了portaudio19-dev (或某些機器的portaudio-devel )該腳本使用ArgParse接受命令行參數。可用以下選項:
| 旗幟 | 描述 |
|---|---|
--ram | 更改使用的RAM數量。默認值為4GB。選擇是“ 1GB”,“ 2GB”,“ 4GB”,“ 6GB”,“ 12GB-V2”,“ 12GB-V3”。 |
--ramforce | 使用此標誌迫使腳本使用所需的VRAM。如果沒有足夠的VRAM可用,可能會導致腳本崩潰。 |
--fp16 | 這允許將更準確的信息傳遞到該過程。這將賦予AL以速度為代價處理更多信息的能力。您不會看到對更強的硬件的重大影響。結合12GB-V3 + FP16標誌(GUI上的精度模式),以獲得最終體驗。 |
--energy_threshold | 設置能量水平以使麥克風檢測。默認值為100。從1到1000中選擇;更高的任何東西都更難觸發音頻檢測。 |
--mic_calibration_time | 在幾秒鐘內校準麥克風多長時間。要跳過用戶輸入類型0,時間將設置為5秒。 |
--record_timeout | 將時間設置為幾秒鐘以進行實時記錄。默認值為2秒。 |
--phrase_timeout | 在錄音之間將空間設置為空空間,然後將其視為轉錄中的新線路。默認值是1秒。 |
--translate | 將抄錄轉換為英語。啟用翻譯。 |
--transcribe | 將音頻轉錄為設定的目標語言。目標語言標誌是需要的。 |
--target_language | 選擇要翻譯的語言。可用的選擇是ISO 639-1格式中的語言列表及其英語名稱。 |
--language | 選擇要翻譯的語言。可用的選擇是ISO 639-1格式中的語言列表及其英語名稱。 |
--auto_model_swap | 根據檢測到的語言自動交換模型。啟用自動型號交換。 |
--device | 選擇用於模型的設備。默認值是“ cuda”,如果可用。可用的選項是“ CPU”和“ CUDA”。設置為CPU時,只要有足夠的RAM,就可以選擇任何RAM大小。 CPU選項已針對多線程進行了優化,因此,如果您有16個內核,32個線程,則可以看到良好的結果。 |
--cuda_device | 選擇用於模型的CUDA設備。默認值為0。 |
--discord_webhook | 設置Discord Webhook將轉錄發送到。 |
--list_microphones | 列出可用的麥克風和出口。 |
--set_microphone | 設置默認麥克風要使用。您可以從列表中設置名稱或ID號。 |
--microphone_enabled | 啟用麥克風使用。在標誌之後添加true 。 |
--auto_language_lock | 5個檢測後,根據檢測到的語言自動鎖定語言。啟用自動語言鎖定。將有助於減少延遲。如果您使用的是非英語,則使用此標誌,如果您不知道當前的口語。 |
--model_dir | 默認位置是“模型”文件夾。您可以使用此參數更改位置。 |
--use_finetune | |
--no_log | 使它僅僅顯示了最後一個翻譯/抄錄的東西,而是顯示了日誌樣式列表。 |
--updatebranch | 檢查來自存儲庫的哪個分支以檢查更新。默認值為主人,選擇是主人和開發測試和在工作中出血。關閉更新檢查,請使用禁用。在工作中出血基本上是最新的變化,並且可以隨時破裂。 |
--keep_temp | 將音頻文件保存在外部文件夾中。不過,這會隨著時間的流逝而佔用空間。 |
--portnumber | 設置Web服務器的端口號。如果未設置數字,則Web服務器將無法啟動。 |
--retry | 如果失敗,則重試翻譯和轉錄。 |
--about | 顯示有關應用程序的信息。 |
--save_transcript | 將成績單保存到文本文件中。 |
--save_folder | 將文件夾設置以將成績單保存到。 |
--stream | 從HLS流傳輸音頻。 |
--stream_language | 流的語言。默認為英語。 |
--stream_target_language | 語言將流轉換為。默認為英語。需要--stream_transcribe |
--stream_translate | 翻譯流。 |
--stream_transcribe | 將流轉錄為不同的語言。使用--stream_target_language更改輸出。 |
--stream_original_text | 顯示檢測到的原始文本。 |
--stream_chunks | 有多少塊可以將流分成。默認值為5在3到5之間。YouTube流應該為1或2,抽搐應為5至10。數字越高,越準確,但較慢,並且延遲了流的翻譯和轉錄。 |
--cookies | cookies文件名,就像Twitch,YouTube,TwitchAcc1一樣,Twitchacczed |
--makecaptions | 將程序設置為字幕模式,需要file_input,file_output,file_output_name |
--file_input | 輸入的文件位置,以製作字幕,幾乎所有視頻/音頻格式(使用ffmpeg) |
--file_output | 文件夾的位置以導出字幕 |
--file_output_name | 文件名以導出為沒有任何ext。 |
--ignorelist | 用法是“ --ignorelist "C:quotedpathtowordlist.txt" ” |
--condition_on_previous_text | 將幫助模型重複自我,但可能會減慢過程。 |
--remote_hls_password_id | Web服務器的密碼ID。通常喜歡“ ID”或“鍵”。鍵是該程序的默認值,因此,當它要求ID/密碼時,Synthalingua將為key=000000 key = id 0000000 = password 16個字符長。 |
--remote_hls_password | HLS Web服務器的密碼。 |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890"使用標誌--ignorelist您現在可以加載一個短語或單詞列表,以忽略API輸出和字幕窗口中。此列表已經充滿了通用短語AI會認為它聽到的。您可以根據您的要求調整此列表,也可以在其中添加更多單詞或短語。
有些流可能需要cookie設置,您需要將cookie作為netscape格式保存到cookies文件夾中,作為.txt文件。如果不存在文件夾,請創建它。您可以使用此https://cookie-editor.com/或任何其他Cookie編輯器保存cookie,但必須採用Netscape格式。
示例用法--cookies twitchacc1不包括.txt文件擴展名。
無論您在cookie文件夾中命名文本文件的內容如何,都需要將該名稱用作參數。
使用命令標誌--port 4000 ,您可以使用查詢參數,例如?showoriginal , ?showtranslation和?showtranscription來顯示特定元素。如果使用任何其他查詢參數或未指定查詢參數,則默認情況下將顯示所有元素。如果需要,您可以選擇其他4000以外的數字。您可以混合查詢參數以顯示特定元素,留空以顯示所有元素。
例如:
http://localhost:4000?showoriginal將顯示original檢測到的文本。http://localhost:4000?showtranslation將顯示translated文本。http://localhost:4000?showtranscription將顯示transcribed文本。http://localhost:4000/?showoriginal&showtranscription將顯示original和transcribed文本。http://localhost:4000或http://localhost:4000?otherparam=value默認情況下將顯示所有元素。 這將創建字幕,並具有12GB-V3選項,並保存至下載。
請注意,字幕只能使用英語(模型限制),儘管您始終可以使用其他程序來翻譯成其他語言
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
您有一個12GB的GPU,想從實時流https://www.twitch.tv/somestreamerhere流式傳輸音頻,並希望將其翻譯成英語。您可以運行以下命令:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
支持YouTube和Twitch的流源。您還可以使用支持HLS/M3U8的任何其他流源。
您有一個帶有6GB內存的GPU,您想使用日語模型。您還想將轉錄翻譯成英文。您還想將轉錄發送到Discord頻道。您還需要將能量閾值設置為300。您可以運行以下命令:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
選擇RAM時,您只能選擇1GB,2GB,4GB,6GB,12GB-V2,12GB-V3。沒有遇難者。
您有一個12GB GPU,並且想從英語中轉換為西班牙語,如果您喜歡原始的,則可以使用V3替換V3的v3命令:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
可以說您有多個音頻設備,並且要使用不是默認設備的音頻設備。您可以運行以下命令: python transcribe_audio.py --list_microphones此命令將列出所有音頻設備及其索引。然後,您可以使用索引設置默認音頻設備。例如,如果您想使用第二個音頻設備,則可以運行以下命令: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti"來設置設備要收聽。
例如,我有這些設備:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
我會把python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi"設置設備要收聽。 -or-我將python transcribe_audio.py --set_microphone 4放置以設置設備來聆聽。
如果您遇到該工具的任何問題,這裡有一些常見問題及其解決方案:
pip install transformers安裝了transformers模塊。python -m pip install transformers Install Transformers 。使用的命令行參數。 --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
使用的命令行參數。 --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500