Synthalingua下载 - Synthalingua源代码下载

Synthalingua

Visual Basic

1.0.0

下载

Synthalingua

随着时间的流逝，README将更新。这是一项正在进行的工作。

目录	描述
免责声明	知道/免责/警告/等的事物
要做列表	要做的事情
贡献者	帮助该项目或为该项目做出贡献的人。
安装/设置	如何安装和设置工具。
杂项	用法和文件参数 - 示例 - Web服务器
故障排除	常见问题以及如何修复它们。
其他信息	有关该工具的其他信息。
视频演示	该工具的视频演示。
额外的笔记	有关该工具的额外注释。

知道/免责/警告/等的事物

该AI驱动的翻译工具目前正在进行中，并且正在积极开发以提高其准确性和功能。用户应该意识到，尽管该工具在许多情况下有效地工作，但它并不完美，偶尔可能会产生翻译错误或错误。在可能的情况下，这些问题将不断解决，并将推出更新以提高工具的性能。例如，您可能会遇到翻译略有关闭或发生技术故障的情况，但是随着改进的改进，这些情况有望减少。

当输入语音清晰且缓慢时，翻译的准确性明显更高。如果说话者的交谈太快或喃喃自语，该工具可能会难以提供准确的翻译，尽管它仍将尝试提供有用的输出。例如，当在安静的环境中使用清晰，故意的语音使用该工具时，结果通常更精确。但是，在嘈杂的设置或匆忙演讲时，您可能会看到准确性下降。背景噪音（如大声的音乐）也可以干扰该工具有效翻译的能力。

重要的是要注意，该工具是为休闲，非专业使用而设计的。它非常适合诸如语言学习，进行非正式对话或了解娱乐的外国内容之类的理想选择。但是，它并非用于高风险或专业翻译，例如法律文件，医学文本或官方通讯。例如，虽然该工具可以有趣且具有教育意义，以学习新语言或观看外国媒体，但不应依靠精确度至关重要的专业或关键任务。

作为用户，您有责任确保该工具在道德上使用，而不是用于传播错误信息或仇恨言论之类的目的。如果翻译和原始语音之间存在差异，则至关重要的是，您在与他人共享之前验证输出。例如，如果该工具产生了误导性的翻译，则您有责任在使用内容或进一步分发内容之前对内容进行仔细检查。

用户还应意识到，他们正在使用该工具自担风险。存储库所有者不能对使用本工具产生的任何损害，问题或意外后果负责。例如，如果该工具出现故障或提供导致误解的不准确翻译，则开发人员（S）贡献者对由于此结果而发生的任何结果都不承担任何责任。作为用户，您在使用该工具时承担所有责任。

该工具并非旨在取代人类翻译人员，尤其是对于复杂或专业内容。虽然这可能有助于休闲和日常使用，但应咨询专业翻译，以进行更复杂的任务，例如翻译法律协议或技术手册。例如，如果您需要确切的商业合同翻译，建议从合格的人类翻译人员那里寻求帮助，而不是仅依靠此工具。

在性能方面，该工具的有效性可能会因您的硬件设置而异。更快的CPU或GPU将带来更好的结果，而较慢的系统可能会遇到延迟或降低性能。但是，其他因素（例如Internet连接速度或麦克风质量）对其功能的影响最小。例如，如果您在高性能计算机上运行该工具，则与在较旧的较慢的机器上使用相比，您可能会体验更顺畅的翻译。

最后，重要的是要记住，这是一种工具，而不是服务。如果使用它违反了任何平台的服务条款或引起任何问题，则责任仅属于用户。例如，如果该工具的使用导致在平台上违反规则（例如使用该工具来翻译不适当的语言），则您对因此施加的任何惩罚或限制负责。

托多

托多	子任务	地位
增加对AMD GPU的支持。	ROCM支持-WSL 2.0/Linux	✅
	OPENCL支持 - 仅Linux	✅
添加支持API访问。		✅
自定义Localhost Web服务器。		✅
添加反向翻译。		✅
	将脚本本地化为其他语言。（将在反向翻译后进行。）
自定义词典支持。
GUI。		✅
子标题创建		✅
Linux支持。		✅
提高性能。
	较低RAM用户的压缩模型格式	✅
	更好的大型型号加载速度	✅
	根据用法将模型分为多个块
从URL流音频		✅
提高模型交换精度。
无需麦克风	流模块	✅
服务器控制面板	目前正在工作，将来将在以后的版本中发布。我想尽快解决这个问题，但是我一直遇到了路障。这是一项更高的PRIO功能，请留意更多详细信息和预览的未来开发博客！	？

贡献者

指南

@danirukun -https：//watsonindustries.live

@Expletive -https：//evitelpxe.neocities.org

@adenser

系统要求

支持的GPU	描述
NVIDIA专用图形	支持
NVIDIA集成图形	测试 - 不支持
AMD/ATI	* Linux已验证
英特尔弧	不支持
英特尔高清	不支持
英特尔IGPU	不支持

GUI便携式版本（不是CLI Portable）

最低支持的Windows版本现在是Windows 10.0.17763
- 由于.NET构建的更改，因此不再支持Windows 7。
- 您可以下载源代码并将其更改为Windows 7，但不建议继续使用Windows 7。

您可以在此处找到支持的NVIDA GPU的完整列表：

NVIDIA官方名单
简单列表

要求	最低限度	缓和	受到推崇的	最佳性能
CPU内核	2	6	8	16
CPU时钟速度（GHz）	2.5或更高	3.0或更高	3.5或更高	4.0或更高
RAM（GB）	4或更高	8或更高	16或更高	16或更高
GPU VRAM（GB）	2或更高	6或更高	8或更高	12或更高
免费磁盘空间（GB）	15或更高	15或更高	15或更高	15或更高
GPU（建议）只要您拥有的GPU在VRAM规范范围内，它应该可以正常工作。	NVIDIA GTX 1050或更高	NVIDIA GTX 1660或更高	NVIDIA RTX 3070或更高	NVIDIA RTX 3090或更高

笔记：

Linux和Windows上的NVIDIA GPU支持
建议NVIDIA GPU，但不需要。
AMD GPU在Linux上支持，而不是Windows，但会尽快得到支持。

该工具将适用于满足最低要求的任何系统。该工具将在满足建议要求的系统上更好地工作。该工具最适合满足最佳性能要求的系统。您可以混合并匹配要求以获得最佳性能。例如，您可以拥有满足最佳性能要求的CPU和满足适度要求的GPU。该工具最适合满足最佳性能要求的系统。

麦克风是可选的。您可以使用`--stream`标志来从HLS流进行音频。有关更多信息，请参见示例。

您需要某种类型的软件输入源（或硬件源）。有关其他信息，请参见第63期。

安装

下载并安装Python 3.10.9。
- 确保在安装时选中“添加python到路径”的框。如果您不选中该框，则必须手动将Python添加到您的路径中。您可以检查本指南：如何将Python添加到路径。
- 您可以选择最新版本的3.10.9版本的任何Python版本。该工具将无法使用3.11或更高版本的任何Python版本。必须是3.10.9+而不是3.11.x。
- 确保抓住X64位版本！该程序与X86不兼容。（32位）
下载并安装git。
- 使用默认设置很好。
下载并安装FFMPEG
- 说明：＃2（评论）
下载并安装CUDA [可选，但需要安装，如果使用GPU，则需要安装]
- https://developer.nvidia.com/cuda-downloads
运行设置脚本
- 在Windows ： setup.bat
- 在linux上： setup.bash
  - 请确保安装了gcc并安装了portaudio19-dev （或某些机器的portaudio-devel ）
- 如果您遇到了一个错误，则说“ setup.bat不被识别为内部或外部命令，可操作程序或批处理文件。”，休斯顿，我们有问题。这将需要您修复操作系统。
运行新创建的批处理文件/bash脚本。您可以编辑该文件以更改设置。
- 如果您遇到错误，则说它“不被识别为内部或外部命令，可操作的程序或批处理文件”。如果您安装了Python和Git并将其添加到您的路径中，请在存储库上创建一个新问题，我将尝试帮助您解决该问题。

用法

该脚本使用ArgParse接受命令行参数。可用以下选项：

旗帜	描述
`--ram`	更改使用的RAM数量。默认值为4GB。选择是“ 1GB”，“ 2GB”，“ 4GB”，“ 6GB”，“ 12GB-V2”，“ 12GB-V3”。
`--ramforce`	使用此标志迫使脚本使用所需的VRAM。如果没有足够的VRAM可用，可能会导致脚本崩溃。
`--fp16`	这允许将更准确的信息传递到该过程。这将赋予AL以速度为代价处理更多信息的能力。您不会看到对更强的硬件的重大影响。结合12GB-V3 + FP16标志（GUI上的精度模式），以获得最终体验。
`--energy_threshold`	设置能量水平以使麦克风检测。默认值为100。从1到1000中选择；更高的任何东西都更难触发音频检测。
`--mic_calibration_time`	在几秒钟内校准麦克风多长时间。要跳过用户输入类型0，时间将设置为5秒。
`--record_timeout`	将时间设置为几秒钟以进行实时记录。默认值为2秒。
`--phrase_timeout`	在录音之间将空间设置为空空间，然后将其视为转录中的新线路。默认值是1秒。
`--translate`	将抄录转换为英语。启用翻译。
`--transcribe`	将音频转录为设定的目标语言。目标语言标志是需要的。
`--target_language`	选择要翻译的语言。可用的选择是ISO 639-1格式中的语言列表及其英语名称。
`--language`	选择要翻译的语言。可用的选择是ISO 639-1格式中的语言列表及其英语名称。
`--auto_model_swap`	根据检测到的语言自动交换模型。启用自动型号交换。
`--device`	选择用于模型的设备。默认值是“ cuda”，如果可用。可用的选项是“ CPU”和“ CUDA”。设置为CPU时，只要有足够的RAM，就可以选择任何RAM大小。 CPU选项已针对多线程进行了优化，因此，如果您有16个内核，32个线程，则可以看到良好的结果。
`--cuda_device`	选择用于模型的CUDA设备。默认值为0。
`--discord_webhook`	设置Discord Webhook将转录发送到。
`--list_microphones`	列出可用的麦克风和出口。
`--set_microphone`	设置默认麦克风要使用。您可以从列表中设置名称或ID号。
`--microphone_enabled`	启用麦克风使用。在标志之后添加`true` 。
`--auto_language_lock`	5个检测后，根据检测到的语言自动锁定语言。启用自动语言锁定。将有助于减少延迟。如果您使用的是非英语，则使用此标志，如果您不知道当前的口语。
`--model_dir`	默认位置是“模型”文件夹。您可以使用此参数更改位置。
~~`--use_finetune`~~	~~使用微调模型。这将提高准确性，但也会增加延迟。需要其他VRAM/RAM使用。~~配x微调模型正在重新训练。命令标志在当前代码中无用。
`--no_log`	使它仅仅显示了最后一个翻译/抄录的东西，而是显示了日志样式列表。
`--updatebranch`	检查来自存储库的哪个分支以检查更新。默认值为主人，选择是主人和开发测试和在工作中出血。关闭更新检查，请使用禁用。在工作中出血基本上是最新的变化，并且可以随时破裂。
`--keep_temp`	将音频文件保存在外部文件夹中。不过，这会随着时间的流逝而占用空间。
`--portnumber`	设置Web服务器的端口号。如果未设置数字，则Web服务器将无法启动。
`--retry`	如果失败，则重试翻译和转录。
`--about`	显示有关应用程序的信息。
`--save_transcript`	将成绩单保存到文本文件中。
`--save_folder`	将文件夹设置以将成绩单保存到。
`--stream`	从HLS流传输音频。
`--stream_language`	流的语言。默认为英语。
`--stream_target_language`	语言将流转换为。默认为英语。需要`--stream_transcribe`
`--stream_translate`	翻译流。
`--stream_transcribe`	将流转录为不同的语言。使用`--stream_target_language`更改输出。
`--stream_original_text`	显示检测到的原始文本。
`--stream_chunks`	有多少块可以将流分成。默认值为5在3到5之间。YouTube流应该为1或2，抽搐应为5至10。数字越高，越准确，但较慢，并且延迟了流的翻译和转录。
`--cookies`	cookies文件名，就像Twitch，YouTube，TwitchAcc1一样，Twitchacczed
`--makecaptions`	将程序设置为字幕模式，需要file_input，file_output，file_output_name
`--file_input`	输入的文件位置，以制作字幕，几乎所有视频/音频格式（使用ffmpeg）
`--file_output`	文件夹的位置以导出字幕
`--file_output_name`	文件名以导出为没有任何ext。
`--ignorelist`	用法是“ `--ignorelist "C:quotedpathtowordlist.txt"` ”
`--condition_on_previous_text`	将帮助模型重复自我，但可能会减慢过程。
`--remote_hls_password_id`	Web服务器的密码ID。通常喜欢“ ID”或“键”。键是该程序的默认值，因此，当它要求ID/密码时，Synthalingua将为`key=000000` `key` = `id` `0000000` = `password` 16个字符长。
`--remote_hls_password`	HLS Web服务器的密码。

值得注意的东西！

在制定命令行参数时，您需要确保将能量阈值调整为喜欢的。默认值为100，但您可以根据自己的喜好进行调整。数字越高，触发音频检测的难度就越大。数字越低，触发音频检测就越容易。我建议您从100开始，然后从那里进行调整。我看到了250-500的最佳效果。
使用Discord Webhook时，请确保URL在引号中。示例： --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890"
初始使用需要有效的互联网连接。随着时间的流逝，您将不再需要互联网连接。更改RAM大小将下载某些型号，一旦下载，您将不再需要Internet。
~~微调模型将自动通过直接公共链接从OneDrive下载。如果发生失败~~[配x Finetune模型下载被禁用，正在重新训练。这是给出的
使用多个流选项时，您可能会遇到问题。这为音频队列增加了更多作业。

单词块列表

使用标志--ignorelist您现在可以加载一个短语或单词列表，以忽略API输出和字幕窗口中。此列表已经充满了通用短语AI会认为它听到的。您可以根据您的要求调整此列表，也可以在其中添加更多单词或短语。

曲奇饼

有些流可能需要cookie设置，您需要将cookie作为netscape格式保存到cookies文件夹中，作为.txt文件。如果不存在文件夹，请创建它。您可以使用此https://cookie-editor.com/或任何其他Cookie编辑器保存cookie，但必须采用Netscape格式。

示例用法--cookies twitchacc1不包括.txt文件扩展名。

无论您在cookie文件夹中命名文本文件的内容如何，都需要将该名称用作参数。

Web服务器

使用命令标志--port 4000 ，您可以使用查询参数，例如?showoriginal ， ?showtranslation和?showtranscription来显示特定元素。如果使用任何其他查询参数或未指定查询参数，则默认情况下将显示所有元素。如果需要，您可以选择其他4000以外的数字。您可以混合查询参数以显示特定元素，留空以显示所有元素。

例如：

http://localhost:4000?showoriginal将显示original检测到的文本。
http://localhost:4000?showtranslation将显示translated文本。
http://localhost:4000?showtranscription将显示transcribed文本。
http://localhost:4000/?showoriginal&showtranscription将显示original和transcribed文本。
http://localhost:4000或http://localhost:4000?otherparam=value默认情况下将显示所有元素。

例子

请注意，请确保您编辑livetranslation.bat/livetranslation.bash文件以更改设置。如果不这样做，它将使用默认设置。

这将创建字幕，并具有12GB-V3选项，并保存至下载。

请注意，字幕只能使用英语（模型限制），尽管您始终可以使用其他程序来翻译成其他语言

python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda

您有一个12GB的GPU，想从实时流https://www.twitch.tv/somestreamerhere流式传输音频，并希望将其翻译成英语。您可以运行以下命令：

python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere

支持YouTube和Twitch的流源。您还可以使用支持HLS/M3U8的任何其他流源。

您有一个带有6GB内存的GPU，您想使用日语模型。您还想将转录翻译成英文。您还想将转录发送到Discord频道。您还需要将能量阈值设置为300。您可以运行以下命令：

python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300

选择RAM时，您只能选择1GB，2GB，4GB，6GB，12GB-V2，12GB-V3。没有遇难者。

您有一个12GB GPU，并且想从英语中转换为西班牙语，如果您喜欢原始的，则可以使用V3替换V3的v3命令：

python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en

可以说您有多个音频设备，并且要使用不是默认设备的音频设备。您可以运行以下命令： python transcribe_audio.py --list_microphones此命令将列出所有音频设备及其索引。然后，您可以使用索引设置默认音频设备。例如，如果您想使用第二个音频设备，则可以运行以下命令： python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti"来设置设备要收听。

例如，我有这些设备：

 Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5

我会把python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi"设置设备要收听。 -or-我将python transcribe_audio.py --set_microphone 4放置以设置设备来聆听。

故障排除

如果您遇到该工具的任何问题，这里有一些常见问题及其解决方案：

Python不被认为是内部或外部命令，可操作程序或批处理文件。
- 确保已安装Python并将其添加到路径中。
- 如果您最近安装了Python，请尝试重新启动计算机以刷新路径环境变量。
- 检查您是否安装了应用程序所需的正确版本的Python。某些应用程序可能需要特定版本的Python。
- 如果您仍然有问题，请尝试以管理员的身份运行命令提示符，然后再次运行安装。但是，只能作为最后的手段和谨慎地做到这一点，因为作为管理员运行脚本可能会引起系统问题。
我遇到了一个错误，说“没有名为'变形金刚'的模块”。
- 重新运行setup.bat文件。
  - 如果问题持续存在，请确保已安装Python并将其添加到路径中。
  - 确保通过运行pip install transformers安装了transformers模块。
  - 如果已安装了多个版本的Python，请确保通过在运行命令时指定Python版本来安装正确版本的模块，例如python -m pip install transformers 。
  - 如果您仍然有问题，请在存储库上创建一个新问题，并且开发人员可能能够帮助您解决该问题。
GIT不被认为是内部或外部命令，可操作程序或批处理文件。
- 确保已安装git并添加到路径中。
- 如果您最近安装了git，请尝试重新启动计算机以刷新路径环境变量。
- 如果您仍然有问题，请尝试以管理员的身份运行命令提示符，然后再次运行安装。但是，只能作为最后的手段和谨慎地做到这一点，因为作为管理员运行脚本可能会引起系统问题。
CUDA未被识别或可用。
- 确保安装了CUDA。您可以从这里得到它。
- CUDA仅适用于NVIDIA GPU。如果您有AMD GPU，则必须使用CPU模型。目前不支持ROCM。
[WinError 2]系统找不到指定的文件尝试此修复程序：＃2（注释）
翻译器无法拾取声音
- 查看此讨论线程以获取可能的解决方案：＃12讨论
错误：调整之前必须输入音频源。
- 您需要确保设置麦克风。有关其他信息，请参见第63期。
错误：“找不到满足需求火炬的版本”（请参阅第82期））
- 请确保安装了Python 64bit。如果安装了32位，则需要卸载并安装64位。您可以在这里抓取它的Windows。 Windows Direct：https：//www.python.org/ftp/ftp/python/3.10.9/python-3.10.9-amd64.exe主：
错误生成字幕：请确保文件名是英文字母。如果您仍然有错误，请进行错误报告。