| 目次 | 説明 |
|---|---|
| 免責事項 | 知っておくべきこと/免責事項/警告/など |
| リストを行う | やること |
| 貢献者 | プロジェクトを手伝ったか、プロジェクトに貢献した人々。 |
| インストール/セットアップ | ツールをインストールしてセットアップする方法。 |
| その他 | 使用法とファイル引数 - 例 - Webサーバー |
| トラブルシューティング | 一般的な問題とそれらを修正する方法。 |
| 追加情報 | ツールに関する追加情報。 |
| ビデオデモ | ツールのビデオデモンストレーション。 |
| 余分なメモ | ツールに関する追加のメモ。 |
このAIを搭載した翻訳ツールは現在、進行中の作業であり、時間の経過とともにその精度と機能を改善するために積極的に開発されています。ユーザーは、ツールが多くのシナリオで効果的に機能するが、完璧ではなく、翻訳エラーやバグが生成される場合があることに注意する必要があります。これらの問題は、可能であれば継続的に対処されており、ツールのパフォーマンスを向上させるために更新が展開されます。たとえば、翻訳がわずかにオフまたは技術的な不具合が発生する状況に遭遇する可能性がありますが、改善が行われるにつれてこれらは減少すると予想されます。
翻訳の精度は、入力音声が明確で遅い場合、著しく高くなります。スピーカーがあまりにも速く話したり、つぶやいたりした場合、ツールは正確な翻訳を提供するのに苦労するかもしれませんが、それでも有用な出力を提供しようとします。たとえば、明確で意図的なスピーチを備えた静かな環境でツールを使用する場合、結果は一般により正確です。ただし、ノイズの多い設定では、スピーチが急いでいる場合、精度が低下する場合があります。大きな音楽のようなバックグラウンドノイズは、効果的に翻訳するツールの能力を妨げる可能性もあります。
このツールは、カジュアルで非専門的な使用のために設計されていることに注意することが重要です。言語学習、非公式の会話に従事する、娯楽のための外国のコンテンツを理解するなどの目的に最適です。ただし、法的文書、医療テキスト、公式コミュニケーションなど、ハイステークや専門的な翻訳を目的としたものではありません。たとえば、このツールは、新しい言語を学んだり外国メディアを監視するための楽しく教育的である可能性がありますが、正確さが最重要である専門的または重要なタスクに依存してはなりません。
ユーザーとして、お客様は、ツールが倫理的に使用され、誤った情報やヘイトスピーチを広めるような目的ではないことを確認する責任があります。翻訳と元のスピーチの間に矛盾がある場合、他の人と共有する前に出力を確認することが重要です。たとえば、ツールが誤解を招く翻訳を生成する場合、コンテンツを使用するか、さらに配布する前にコンテンツを再確認するのはあなたの責任です。
また、ユーザーは自分の責任でツールを使用していることにも注意する必要があります。リポジトリの所有者は、このツールの使用から生じる損害、問題、または意図しない結果について責任を負うことはできません。たとえば、ツールが誤解につながる不正確な翻訳を誤動作するか、不正確な翻訳を提供する場合、開発者はこの結果として発生する結果について責任を負いません。ユーザーとして、ツールを使用しながら、アクションに対するすべての責任を負います。
このツールは、特に複雑なコンテンツまたは特殊なコンテンツのために、人間の翻訳者を置き換えることを目的としていません。カジュアルで日常の使用に役立つ場合がありますが、専門の翻訳者は、法的契約や技術マニュアルの翻訳など、より複雑なタスクについて参照する必要があります。たとえば、ビジネス契約の正確な翻訳が必要な場合は、このツールだけに依存するのではなく、資格のある人間の翻訳者から支援を求めることをお勧めします。
パフォーマンスの面では、ツールの有効性はハードウェアのセットアップによって異なる場合があります。より速いCPUまたはGPUはより良い結果につながりますが、システムが遅い場合には遅延が発生したり、パフォーマンスが低下したりする可能性があります。ただし、インターネット接続速度やマイクの品質などの他の要因は、その機能に最小限の影響を与えます。たとえば、高性能コンピューターでツールを実行している場合は、古くて遅いマシンで使用するのと比較して、よりスムーズな翻訳が発生する可能性があります。
最後に、これはサービスではなくツールであることを覚えておくことが重要です。それを使用すると、プラットフォームの利用規約に違反したり、問題が発生したりすると、責任はユーザーのみにかかります。たとえば、ツールがプラットフォーム上のルールに違反することになった場合(ツールを使用して不適切な言語を翻訳するなど)、結果として課される罰則または制限に対して責任があります。
| トト | サブタスク | 状態 |
|---|---|---|
| AMD GPUのサポートを追加します。 | ROCMサポート-WSL 2.0/Linuxのみ | ✅ |
| OpenCLサポート-Linuxのみ | ✅ | |
| サポートAPIアクセスを追加します。 | ✅ | |
| カスタムローカルホストWebサーバー。 | ✅ | |
| 逆翻訳を追加します。 | ✅ | |
| スクリプトを他の言語にローカライズします。 (逆翻訳の後に行われます。) | ||
| カスタム辞書サポート。 | ||
| GUI。 | ✅ | |
| サブタイトル作成 | ✅ | |
| Linuxサポート。 | ✅ | |
| パフォーマンスを向上させます。 | ||
| 低いRAMユーザー向けの圧縮モデル形式 | ✅ | |
| より良い大型モデルの負荷速度 | ✅ | |
| 使用法に基づいてモデルを複数のチャンクに分割します | ||
| URLからオーディオをストリーミングします | ✅ | |
| モデル交換精度を増やします。 | ||
| マイクは必要ありません | ストリーミングモジュール | ✅ |
| サーバーコントロールパネル | 現在、仕事中は、将来のリリースで発表されます。できるだけ早くこれを出したいと思っていますが、ロードブロックに出くわしています。これはより高いPRIO機能です。詳細とプレビューについて、今後の開発ブログに注目してください。 | ? |
| サポートGPU | 説明 |
|---|---|
| Nvidia専用グラフィックス | サポート |
| nvidia統合グラフィックス | テスト - サポートされていません |
| AMD/ATI | * Linux検証 |
| インテルアーク | サポートされていません |
| Intel HD | サポートされていません |
| Intel Igpu | サポートされていません |
サポートされているNVIDA GPUの完全なリストはこちらでご覧いただけます。
| 要件 | 最小 | 適度 | 推奨 | 最高のパフォーマンス |
|---|---|---|---|---|
| CPUコア | 2 | 6 | 8 | 16 |
| CPUクロック速度(GHz) | 2.5以上 | 3.0以上 | 3.5以上 | 4.0以上 |
| ラム(GB) | 4以降 | 8以上 | 16以降 | 16以降 |
| GPU VRAM(GB) | 2以上 | 6以降 | 8以上 | 12以上 |
| 無料ディスクスペース(GB) | 15以上 | 15以上 | 15以上 | 15以上 |
| GPU(提案)あなたが持っているGPUがVRAM仕様内にある限り、それは正常に動作するはずです。 | nvidia gtx 1050以上 | NVIDIA GTX 1660以降 | NVIDIA RTX 3070以上 | nvidia RTX 3090以上 |
注記:
このツールは、最小要件を満たすシステムで動作します。このツールは、推奨される要件を満たすシステムにより適切に機能します。このツールは、最適なパフォーマンス要件を満たすシステムで最適に機能します。最適なパフォーマンスを得るために、要件を組み合わせて一致させることができます。たとえば、最高のパフォーマンス要件を満たすCPUと、中程度の要件を満たすGPUを使用できます。このツールは、最適なパフォーマンス要件を満たすシステムで最適に機能します。
--streamフラグを使用して、HLSストリームからオーディオをストリーミングできます。詳細については、例をご覧ください。setup.batsetup.bashgccがインストールされ、 portaudio19-devがインストールされていることを確認してください(または一部のマシン用のportaudio-devel )このスクリプトは、Argparseを使用してコマンドライン引数を受け入れます。次のオプションが利用可能です。
| フラグ | 説明 |
|---|---|
--ram | 使用するRAMの量を変更します。デフォルトは4GBです。選択肢は、「1GB」、「2GB」、「4GB」、「6GB」、「12GB-V2」、「12GB-V3」です。 |
--ramforce | このフラグを使用して、スクリプトを強制して目的のVRAMを使用します。十分なVRAMが利用できない場合、スクリプトがクラッシュする可能性があります。 |
--fp16 | これにより、より正確な情報をプロセスに渡すことができます。これにより、ALに速度の犠牲を払ってより多くの情報を処理する能力が認められます。強力なハードウェアに大きな影響を与えることはありません。究極のエクスペリエンスのために、12GB-V3 + FP16フラグ(GUIの精密モード)を組み合わせます。 |
--energy_threshold | マイクが検出するエネルギーレベルを設定します。デフォルトは100です。1〜1000を選択します。オーディオ検出をトリガーするのは、より高いものは難しいでしょう。 |
--mic_calibration_time | マイクを数秒で校正する期間。ユーザー入力タイプ0をスキップすると、時間が5秒に設定されます。 |
--record_timeout | リアルタイム録音の時間を数秒で設定します。デフォルトは2秒です。 |
--phrase_timeout | 転写の新しいラインを考慮する前に、録音の間の空きスペースの時間を数秒で設定します。デフォルトは1秒です。 |
--translate | 転写を英語に翻訳します。翻訳を有効にします。 |
--transcribe | オーディオを設定されたターゲット言語に転写します。ターゲット言語フラグが必要です。 |
--target_language | 翻訳する言語を選択します。利用可能な選択肢は、ISO 639-1形式の言語のリストとその英語名です。 |
--language | 翻訳する言語を選択します。利用可能な選択肢は、ISO 639-1形式の言語のリストとその英語名です。 |
--auto_model_swap | 検出された言語に基づいてモデルを自動的に交換します。自動モデルスワッピングを有効にします。 |
--device | モデルに使用するデバイスを選択します。デフォルトは、利用可能な場合は「cuda」です。利用可能なオプションは、「CPU」と「CUDA」です。 CPUに設定するときは、十分なRAMがある限り、RAMサイズを選択できます。 CPUオプションはマルチスレッド用に最適化されているため、16コア、32スレッドなどがある場合は、良い結果が得られます。 |
--cuda_device | モデルに使用するCUDAデバイスを選択します。デフォルトは0です。 |
--discord_webhook | ディスコードWebhookを設定して、転写を送信します。 |
--list_microphones | 利用可能なマイクと出口をリストします。 |
--set_microphone | 使用するデフォルトのマイクを設定します。リストから名前またはそのID番号を設定できます。 |
--microphone_enabled | マイクの使用を有効にします。フラグの後にtrueを追加します。 |
--auto_language_lock | 5回の検出後に検出された言語に基づいて言語を自動的にロックします。自動言語ロックを有効にします。遅延を減らすのに役立ちます。英語以外の言語を使用している場合、および現在の話し言葉がわからない場合は、このフラグを使用してください。 |
--model_dir | デフォルトの場所は「モデル」フォルダーです。この引数を使用して場所を変更できます。 |
--use_finetune | |
--no_log | 翻訳/転写された最後のもののみがむしろログスタイルリストに表示されます。 |
--updatebranch | 更新を確認するには、リポジトリからどのブランチを確認してください。デフォルトはマスターであり、選択肢はマスターと開発と出血です。更新チェックをオフにするには、無効を使用します。出血しているのは、基本的に最新の変更であり、いつでも壊れる可能性があります。 |
--keep_temp | オーディオファイルをOutフォルダーに保持します。ただし、これは時間の経過とともにスペースを占有します。 |
--portnumber | Webサーバーのポート番号を設定します。番号が設定されていない場合、Webサーバーは起動しません。 |
--retry | 失敗した場合、翻訳と転写を取得します。 |
--about | アプリについての表示。 |
--save_transcript | トランスクリプトをテキストファイルに保存します。 |
--save_folder | フォルダーを設定して、トランスクリプトを保存します。 |
--stream | HLSストリームからオーディオをストリーミングします。 |
--stream_language | ストリームの言語。デフォルトは英語です。 |
--stream_target_language | ストリームを翻訳する言語。デフォルトは英語です。 --stream_transcribeに必要です |
--stream_translate | ストリームを翻訳します。 |
--stream_transcribe | ストリームを別の言語に転写します。 --stream_target_languageを使用して出力を変更します。 |
--stream_original_text | 検出された元のテキストを表示します。 |
--stream_chunks | ストリームを分割するチャンク数。デフォルトは3から5の間に推奨されます。YouTubeストリームは1または2、Twitchは5〜10でなければなりません。数が高いほど正確ですが、ストリームの翻訳と転写が遅くなり、遅延します。 |
--cookies | Cookieファイル名、Twitch、YouTube、Twitchacc1のように、Twitchacczed |
--makecaptions | プログラムをキャプションモードに設定し、file_input、file_output、file_output_nameが必要です |
--file_input | キャプションを作成するための入力のファイルの場所、ほとんどすべてのビデオ/オーディオ形式がサポートされています(ffmpegを使用) |
--file_output | キャプションをエクスポートするフォルダーの場所 |
--file_output_name | extなしでエクスポートするファイル名。 |
--ignorelist | 使用法は " --ignorelist "C:quotedpathtowordlist.txt" "です |
--condition_on_previous_text | モデルが繰り返されるのに役立ちますが、プロセスが遅くなる可能性があります。 |
--remote_hls_password_id | WebサーバーのパスワードID。通常、「ID」または「キー」が好きです。ただし、キーはプログラムのデフォルトであるため、ID/パスワードを要求する場合、Synthalinguaはkey=000000 key = id 0000000 = password 16 charsになります。 |
--remote_hls_password | HLS Webサーバーのパスワード。 |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890"フラグを使用すると、 --ignorelist使用すると、API出力とサブタイトルウィンドウで無視するフレーズまたは単語のリストをロードできるようになりました。このリストには、AIが聞いたと思う一般的なフレーズがすでに満たされています。このリストをYouuのように調整したり、単語やフレーズを追加したりできます。
一部のストリームでは、Cookieが設定されている場合があります。Cookieは、Netscape形式としてcookiesフォルダーに.txtファイルとして保存する必要があります。フォルダーが存在しない場合は、作成します。このhttps://cookie-editor.com/または他のCookieエディターを使用してCookieを保存できますが、Netscape形式である必要があります。
使用法の例--cookies twitchacc1には、.txtファイル拡張子は含まれていません。
Cookiesフォルダーのテキストファイルに名前を付けても、その名前を引数として使用する必要があります。
コマンドフラグ--port 4000使用すると、 ?showoriginal 、 ?showtranslation 、および?showtranscriptionなどのクエリパラメーターを使用して、特定の要素を表示できます。他のクエリパラメーターが使用されている場合、またはクエリパラメーターが指定されていない場合、すべての要素がデフォルトで表示されます。必要に応じて、 4000以外の別の番号を選択できます。クエリパラメーターを組み合わせて特定の要素を表示し、空白のままにしてすべての要素を表示できます。
例えば:
http://localhost:4000?showoriginal original検出されたテキストを表示します。http://localhost:4000?showtranslation translatedテキストを表示します。http://localhost:4000?showtranscription transcribedテキストを表示します。http://localhost:4000/?showoriginal&showtranscription originalとtranscribedテキストが表示されます。http://localhost:4000またはhttp://localhost:4000?otherparam=valueデフォルトですべての要素を表示します。 これにより、12GB-V3オプションを使用してキャプションが作成され、ダウンロードに保存されます。
キャプションは英語のみ(モデルの制限)であることに注意してください。
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
12GB GPUがあり、ライブストリームhttps://www.twitch.tv/somestreamererhereからオーディオをストリーミングしたいと考えています。次のコマンドを実行できます。
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
YouTubeとTwitchのストリームソースがサポートされています。 HLS/M3U8をサポートする他のストリームソースを使用することもできます。
6GBのメモリを備えたGPUがあり、日本のモデルを使用したいと考えています。また、転写を英語に翻訳したいと思います。また、転写を不一致チャネルに送信したいと思います。また、エネルギーのしきい値を300に設定します。次のコマンドを実行できます。
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
RAMを選択するときは、1GB、2GB、4GB、6GB、12GB-V2、12GB-V3のみを選択できます。内側はありません。
12GB GPUがあり、英語からスペイン語に翻訳したい場合は、元のものを好む場合は、V3をV3に置き換えるV3の次のコマンドを実行できます。
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
複数のオーディオデバイスがあり、デフォルトではないオーディオデバイスを使用するとします。次のコマンドを実行できます。PythonTranscribe_audio.py python transcribe_audio.py --list_microphonesこのコマンドは、すべてのオーディオデバイスとそのインデックスを一覧表示します。その後、インデックスを使用して、デフォルトのオーディオデバイスを設定できます。たとえば、2番目のオーディオデバイスを使用する場合は、次のコマンドを実行できます: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti"デバイスを聴くように設定します。 *デバイス名の周りの引用に注意してください。これは、エラーを防ぐために必要です。
例では、これらのデバイスがあるとしましょう。
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" python transcribe_audio.py --set_microphone 4ようにデバイスを設定します。
ツールの問題が発生した場合、いくつかの一般的な問題とその解決策を次に示します。
pip install transformersを実行して、 transformersモジュールがインストールされていることを確認してください。python -m pip install transformersていることを確認してください。使用されたコマンドライン引数。 --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
使用されたコマンドライン引数。 --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500