| 目录 | 描述 |
|---|---|
| 免责声明 | 知道/免责/警告/等的事物 |
| 要做列表 | 要做的事情 |
| 贡献者 | 帮助该项目或为该项目做出贡献的人。 |
| 安装/设置 | 如何安装和设置工具。 |
| 杂项 | 用法和文件参数 - 示例 - Web服务器 |
| 故障排除 | 常见问题以及如何修复它们。 |
| 其他信息 | 有关该工具的其他信息。 |
| 视频演示 | 该工具的视频演示。 |
| 额外的笔记 | 有关该工具的额外注释。 |
该AI驱动的翻译工具目前正在进行中,并且正在积极开发以提高其准确性和功能。用户应该意识到,尽管该工具在许多情况下有效地工作,但它并不完美,偶尔可能会产生翻译错误或错误。在可能的情况下,这些问题将不断解决,并将推出更新以提高工具的性能。例如,您可能会遇到翻译略有关闭或发生技术故障的情况,但是随着改进的改进,这些情况有望减少。
当输入语音清晰且缓慢时,翻译的准确性明显更高。如果说话者的交谈太快或喃喃自语,该工具可能会难以提供准确的翻译,尽管它仍将尝试提供有用的输出。例如,当在安静的环境中使用清晰,故意的语音使用该工具时,结果通常更精确。但是,在嘈杂的设置或匆忙演讲时,您可能会看到准确性下降。背景噪音(如大声的音乐)也可以干扰该工具有效翻译的能力。
重要的是要注意,该工具是为休闲,非专业使用而设计的。它非常适合诸如语言学习,进行非正式对话或了解娱乐的外国内容之类的理想选择。但是,它并非用于高风险或专业翻译,例如法律文件,医学文本或官方通讯。例如,虽然该工具可以有趣且具有教育意义,以学习新语言或观看外国媒体,但不应依靠精确度至关重要的专业或关键任务。
作为用户,您有责任确保该工具在道德上使用,而不是用于传播错误信息或仇恨言论之类的目的。如果翻译和原始语音之间存在差异,则至关重要的是,您在与他人共享之前验证输出。例如,如果该工具产生了误导性的翻译,则您有责任在使用内容或进一步分发内容之前对内容进行仔细检查。
用户还应意识到,他们正在使用该工具自担风险。存储库所有者不能对使用本工具产生的任何损害,问题或意外后果负责。例如,如果该工具出现故障或提供导致误解的不准确翻译,则开发人员(S)贡献者对由于此结果而发生的任何结果都不承担任何责任。作为用户,您在使用该工具时承担所有责任。
该工具并非旨在取代人类翻译人员,尤其是对于复杂或专业内容。虽然这可能有助于休闲和日常使用,但应咨询专业翻译,以进行更复杂的任务,例如翻译法律协议或技术手册。例如,如果您需要确切的商业合同翻译,建议从合格的人类翻译人员那里寻求帮助,而不是仅依靠此工具。
在性能方面,该工具的有效性可能会因您的硬件设置而异。更快的CPU或GPU将带来更好的结果,而较慢的系统可能会遇到延迟或降低性能。但是,其他因素(例如Internet连接速度或麦克风质量)对其功能的影响最小。例如,如果您在高性能计算机上运行该工具,则与在较旧的较慢的机器上使用相比,您可能会体验更顺畅的翻译。
最后,重要的是要记住,这是一种工具,而不是服务。如果使用它违反了任何平台的服务条款或引起任何问题,则责任仅属于用户。例如,如果该工具的使用导致在平台上违反规则(例如使用该工具来翻译不适当的语言),则您对因此施加的任何惩罚或限制负责。
| 托多 | 子任务 | 地位 |
|---|---|---|
| 增加对AMD GPU的支持。 | ROCM支持-WSL 2.0/Linux | ✅ |
| OPENCL支持 - 仅Linux | ✅ | |
| 添加支持API访问。 | ✅ | |
| 自定义Localhost Web服务器。 | ✅ | |
| 添加反向翻译。 | ✅ | |
| 将脚本本地化为其他语言。 (将在反向翻译后进行。) | ||
| 自定义词典支持。 | ||
| GUI。 | ✅ | |
| 子标题创建 | ✅ | |
| Linux支持。 | ✅ | |
| 提高性能。 | ||
| 较低RAM用户的压缩模型格式 | ✅ | |
| 更好的大型型号加载速度 | ✅ | |
| 根据用法将模型分为多个块 | ||
| 从URL流音频 | ✅ | |
| 提高模型交换精度。 | ||
| 无需麦克风 | 流模块 | ✅ |
| 服务器控制面板 | 目前正在工作,将来将在以后的版本中发布。我想尽快解决这个问题,但是我一直遇到了路障。这是一项更高的PRIO功能,请留意更多详细信息和预览的未来开发博客! | ? |
| 支持的GPU | 描述 |
|---|---|
| NVIDIA专用图形 | 支持 |
| NVIDIA集成图形 | 测试 - 不支持 |
| AMD/ATI | * Linux已验证 |
| 英特尔弧 | 不支持 |
| 英特尔高清 | 不支持 |
| 英特尔IGPU | 不支持 |
您可以在此处找到支持的NVIDA GPU的完整列表:
| 要求 | 最低限度 | 缓和 | 受到推崇的 | 最佳性能 |
|---|---|---|---|---|
| CPU内核 | 2 | 6 | 8 | 16 |
| CPU时钟速度(GHz) | 2.5或更高 | 3.0或更高 | 3.5或更高 | 4.0或更高 |
| RAM(GB) | 4或更高 | 8或更高 | 16或更高 | 16或更高 |
| GPU VRAM(GB) | 2或更高 | 6或更高 | 8或更高 | 12或更高 |
| 免费磁盘空间(GB) | 15或更高 | 15或更高 | 15或更高 | 15或更高 |
| GPU(建议)只要您拥有的GPU在VRAM规范范围内,它应该可以正常工作。 | NVIDIA GTX 1050或更高 | NVIDIA GTX 1660或更高 | NVIDIA RTX 3070或更高 | NVIDIA RTX 3090或更高 |
笔记:
该工具将适用于满足最低要求的任何系统。该工具将在满足建议要求的系统上更好地工作。该工具最适合满足最佳性能要求的系统。您可以混合并匹配要求以获得最佳性能。例如,您可以拥有满足最佳性能要求的CPU和满足适度要求的GPU。该工具最适合满足最佳性能要求的系统。
--stream标志来从HLS流进行音频。有关更多信息,请参见示例。setup.batsetup.bashgcc并安装了portaudio19-dev (或某些机器的portaudio-devel )该脚本使用ArgParse接受命令行参数。可用以下选项:
| 旗帜 | 描述 |
|---|---|
--ram | 更改使用的RAM数量。默认值为4GB。选择是“ 1GB”,“ 2GB”,“ 4GB”,“ 6GB”,“ 12GB-V2”,“ 12GB-V3”。 |
--ramforce | 使用此标志迫使脚本使用所需的VRAM。如果没有足够的VRAM可用,可能会导致脚本崩溃。 |
--fp16 | 这允许将更准确的信息传递到该过程。这将赋予AL以速度为代价处理更多信息的能力。您不会看到对更强的硬件的重大影响。结合12GB-V3 + FP16标志(GUI上的精度模式),以获得最终体验。 |
--energy_threshold | 设置能量水平以使麦克风检测。默认值为100。从1到1000中选择;更高的任何东西都更难触发音频检测。 |
--mic_calibration_time | 在几秒钟内校准麦克风多长时间。要跳过用户输入类型0,时间将设置为5秒。 |
--record_timeout | 将时间设置为几秒钟以进行实时记录。默认值为2秒。 |
--phrase_timeout | 在录音之间将空间设置为空空间,然后将其视为转录中的新线路。默认值是1秒。 |
--translate | 将抄录转换为英语。启用翻译。 |
--transcribe | 将音频转录为设定的目标语言。目标语言标志是需要的。 |
--target_language | 选择要翻译的语言。可用的选择是ISO 639-1格式中的语言列表及其英语名称。 |
--language | 选择要翻译的语言。可用的选择是ISO 639-1格式中的语言列表及其英语名称。 |
--auto_model_swap | 根据检测到的语言自动交换模型。启用自动型号交换。 |
--device | 选择用于模型的设备。默认值是“ cuda”,如果可用。可用的选项是“ CPU”和“ CUDA”。设置为CPU时,只要有足够的RAM,就可以选择任何RAM大小。 CPU选项已针对多线程进行了优化,因此,如果您有16个内核,32个线程,则可以看到良好的结果。 |
--cuda_device | 选择用于模型的CUDA设备。默认值为0。 |
--discord_webhook | 设置Discord Webhook将转录发送到。 |
--list_microphones | 列出可用的麦克风和出口。 |
--set_microphone | 设置默认麦克风要使用。您可以从列表中设置名称或ID号。 |
--microphone_enabled | 启用麦克风使用。在标志之后添加true 。 |
--auto_language_lock | 5个检测后,根据检测到的语言自动锁定语言。启用自动语言锁定。将有助于减少延迟。如果您使用的是非英语,则使用此标志,如果您不知道当前的口语。 |
--model_dir | 默认位置是“模型”文件夹。您可以使用此参数更改位置。 |
--use_finetune | |
--no_log | 使它仅仅显示了最后一个翻译/抄录的东西,而是显示了日志样式列表。 |
--updatebranch | 检查来自存储库的哪个分支以检查更新。默认值为主人,选择是主人和开发测试和在工作中出血。关闭更新检查,请使用禁用。在工作中出血基本上是最新的变化,并且可以随时破裂。 |
--keep_temp | 将音频文件保存在外部文件夹中。不过,这会随着时间的流逝而占用空间。 |
--portnumber | 设置Web服务器的端口号。如果未设置数字,则Web服务器将无法启动。 |
--retry | 如果失败,则重试翻译和转录。 |
--about | 显示有关应用程序的信息。 |
--save_transcript | 将成绩单保存到文本文件中。 |
--save_folder | 将文件夹设置以将成绩单保存到。 |
--stream | 从HLS流传输音频。 |
--stream_language | 流的语言。默认为英语。 |
--stream_target_language | 语言将流转换为。默认为英语。需要--stream_transcribe |
--stream_translate | 翻译流。 |
--stream_transcribe | 将流转录为不同的语言。使用--stream_target_language更改输出。 |
--stream_original_text | 显示检测到的原始文本。 |
--stream_chunks | 有多少块可以将流分成。默认值为5在3到5之间。YouTube流应该为1或2,抽搐应为5至10。数字越高,越准确,但较慢,并且延迟了流的翻译和转录。 |
--cookies | cookies文件名,就像Twitch,YouTube,TwitchAcc1一样,Twitchacczed |
--makecaptions | 将程序设置为字幕模式,需要file_input,file_output,file_output_name |
--file_input | 输入的文件位置,以制作字幕,几乎所有视频/音频格式(使用ffmpeg) |
--file_output | 文件夹的位置以导出字幕 |
--file_output_name | 文件名以导出为没有任何ext。 |
--ignorelist | 用法是“ --ignorelist "C:quotedpathtowordlist.txt" ” |
--condition_on_previous_text | 将帮助模型重复自我,但可能会减慢过程。 |
--remote_hls_password_id | Web服务器的密码ID。通常喜欢“ ID”或“键”。键是该程序的默认值,因此,当它要求ID/密码时,Synthalingua将为key=000000 key = id 0000000 = password 16个字符长。 |
--remote_hls_password | HLS Web服务器的密码。 |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890"使用标志--ignorelist您现在可以加载一个短语或单词列表,以忽略API输出和字幕窗口中。此列表已经充满了通用短语AI会认为它听到的。您可以根据您的要求调整此列表,也可以在其中添加更多单词或短语。
有些流可能需要cookie设置,您需要将cookie作为netscape格式保存到cookies文件夹中,作为.txt文件。如果不存在文件夹,请创建它。您可以使用此https://cookie-editor.com/或任何其他Cookie编辑器保存cookie,但必须采用Netscape格式。
示例用法--cookies twitchacc1不包括.txt文件扩展名。
无论您在cookie文件夹中命名文本文件的内容如何,都需要将该名称用作参数。
使用命令标志--port 4000 ,您可以使用查询参数,例如?showoriginal , ?showtranslation和?showtranscription来显示特定元素。如果使用任何其他查询参数或未指定查询参数,则默认情况下将显示所有元素。如果需要,您可以选择其他4000以外的数字。您可以混合查询参数以显示特定元素,留空以显示所有元素。
例如:
http://localhost:4000?showoriginal将显示original检测到的文本。http://localhost:4000?showtranslation将显示translated文本。http://localhost:4000?showtranscription将显示transcribed文本。http://localhost:4000/?showoriginal&showtranscription将显示original和transcribed文本。http://localhost:4000或http://localhost:4000?otherparam=value默认情况下将显示所有元素。 这将创建字幕,并具有12GB-V3选项,并保存至下载。
请注意,字幕只能使用英语(模型限制),尽管您始终可以使用其他程序来翻译成其他语言
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
您有一个12GB的GPU,想从实时流https://www.twitch.tv/somestreamerhere流式传输音频,并希望将其翻译成英语。您可以运行以下命令:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
支持YouTube和Twitch的流源。您还可以使用支持HLS/M3U8的任何其他流源。
您有一个带有6GB内存的GPU,您想使用日语模型。您还想将转录翻译成英文。您还想将转录发送到Discord频道。您还需要将能量阈值设置为300。您可以运行以下命令:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
选择RAM时,您只能选择1GB,2GB,4GB,6GB,12GB-V2,12GB-V3。没有遇难者。
您有一个12GB GPU,并且想从英语中转换为西班牙语,如果您喜欢原始的,则可以使用V3替换V3的v3命令:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
可以说您有多个音频设备,并且要使用不是默认设备的音频设备。您可以运行以下命令: python transcribe_audio.py --list_microphones此命令将列出所有音频设备及其索引。然后,您可以使用索引设置默认音频设备。例如,如果您想使用第二个音频设备,则可以运行以下命令: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti"来设置设备要收听。
例如,我有这些设备:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
我会把python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi"设置设备要收听。 -or-我将python transcribe_audio.py --set_microphone 4放置以设置设备来聆听。
如果您遇到该工具的任何问题,这里有一些常见问题及其解决方案:
pip install transformers安装了transformers模块。python -m pip install transformers 。使用的命令行参数。 --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
使用的命令行参数。 --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500