| Оглавление | Описание |
|---|---|
| Отказ от ответственности | Что нужно знать/Отказ от ответственности/предупреждения/и т. Д. |
| Сделать список | Что делать |
| Участники | Люди, которые помогли с проектом или внесли свой вклад в проект. |
| Установка/настройка | Как установить и настроить инструмент. |
| Разное | Аргументы использования и файла - примеры - веб -сервер |
| Поиск неисправностей | Общие проблемы и как их исправить. |
| Дополнительная информация | Дополнительная информация об инструменте. |
| Видео демо | Видео демонстрации инструмента. |
| Дополнительные заметки | Дополнительные заметки об инструменте. |
Этот инструмент перевода с AI в настоящее время находится в стадии разработки и активно разрабатывается для повышения его точности и функциональности с течением времени. Пользователи должны знать, что, хотя инструмент работает эффективно во многих сценариях, он не является идеальным и может иногда производить ошибки или ошибки перевода. Эти проблемы постоянно решаются там, где это возможно, и будут развернуты обновления, чтобы повысить производительность инструмента. Например, вы можете столкнуться с ситуациями, когда перевод немного выключен или когда происходят технические глюки, но ожидается, что они уменьшатся по мере улучшения.
Точность переводов значительно выше, когда входная речь ясная и медленная. Если динамик говорит слишком быстро или бормотает, инструмент может изо всех сил пытаться обеспечить точный перевод, хотя он все равно попытается предложить полезный результат. Например, при использовании инструмента в тихой среде с четкой, преднамеренной речью, результаты, как правило, более точные. Однако в шумных настройках или когда речь бросается, вы можете увидеть снижение точности. Фоновый шум, как громкая музыка, также может мешать способности инструмента эффективно переводить.
Важно отметить, что этот инструмент предназначен для случайного, непрофессионального использования. Он идеально подходит для таких целей, как изучение языка, участие в неформальных разговорах или понимание иностранного контента для развлечений. Тем не менее, он не предназначен для высоких ставок или профессиональных переводов, таких как юридические документы, медицинские тексты или официальные сообщения. Например, хотя инструмент может быть веселым и образовательным для изучения нового языка или наблюдения за иностранными СМИ, на него не следует полагаться на специализированные или критические задачи, где точность имеет первостепенное значение.
Как пользователь, вы несете ответственность за обеспечение того, чтобы инструмент использовался этически, а не для таких целей, как распространение дезинформации или ненавистнической речи. Если между переводом и исходной речью существует несоответствие, очень важно, чтобы вы проверили вывод, прежде чем делиться его с другими. Например, если инструмент создает вводящий в заблуждение перевод, вы обязаны дважды проверить контент, прежде чем использовать его или распространять его.
Пользователи также должны знать, что они используют инструмент на свой страх и риск. Владелец репозитория не может быть привлечен к ответственности за любые убытки, проблемы или непреднамеренные последствия, возникающие в результате использования этого инструмента. Например, если инструмент неисправен или обеспечивает неточный перевод, который приводит к недопониманию, участники разработчиков (ы) не несут ответственности за какие -либо результаты, которые возникают в результате этого. Вы, как пользователь, берете на себя всю ответственность за свои действия при использовании инструмента.
Этот инструмент не предназначен для замены людей -переводчиков, особенно для сложного или специализированного контента. Несмотря на то, что это может быть полезно для случайного и повседневного использования, профессионального переводчика следует проконсультироваться для более сложных задач, таких как перевод юридических соглашений или технических руководств. Например, если вам нужен точный перевод бизнес -договора, рекомендуется обратиться за помощью к квалифицированному человеческому переводчику, а не полагаться исключительно на этот инструмент.
С точки зрения производительности, эффективность инструмента может варьироваться в зависимости от настройки аппаратного обеспечения. Более быстрый процессор или графический процессор приведут к лучшим результатам, в то время как более медленные системы могут испытывать задержки или снижение производительности. Однако другие факторы, такие как скорость подключения к интернету или качество микрофона, оказывают минимальное влияние на его функциональность. Например, если вы запускаете инструмент на высокопроизводительном компьютере, вы, вероятно, испытаете более плавные переводы по сравнению с использованием его на более медленной машине.
Наконец, важно помнить, что это инструмент , а не услуга . Если его использование нарушает условия обслуживания любой платформы или вызывает какие -либо проблемы, ответственность на пользователь лежит исключительно на пользователе. Например, если использование инструмента приводит к нарушению правил на платформе, например, использование инструмента для перевода неподходящего языка, вы несете ответственность за любые штрафы или ограничения, наложенные в результате.
| Тодо | Подзадача | Статус |
|---|---|---|
| Добавьте поддержку для графических процессоров AMD. | Поддержка ROCM - только WSL 2.0/Linux | ✅ |
| Поддержка OpenCl - только Linux | ✅ | |
| Добавьте доступ к поддержке API Access. | ✅ | |
| Пользовательский веб -сервер Localhost. | ✅ | |
| Добавить обратный перевод. | ✅ | |
| Локализовать сценарий на другие языки. (Будет проходить после обратных переводов.) | ||
| Пользовательская поддержка словаря. | ||
| Графический интерфейс | ✅ | |
| Создание подзаглавленного заголовка | ✅ | |
| Поддержка Linux. | ✅ | |
| Улучшить производительность. | ||
| Формат сжатой модели для пользователей нижних операций | ✅ | |
| Лучшая большая скорость загрузки модели | ✅ | |
| Разделить модель на несколько кусков на основе использования | ||
| Поток аудио из URL | ✅ | |
| Увеличьте точность обмена модели. | ||
| Микрофон не требуется | Потоковой модуль | ✅ |
| Панель управления сервером | В настоящее время находится на работе, выйдет в будущем. Я хочу вскоре достать это, но я сталкивался с дорожными блоками. Это более высокая функция PRIO, пожалуйста, следите за будущим блогом Dev на более подробной информации и предварительном просмотре! | ? |
| Поддерживаемые графические процессоры | Описание |
|---|---|
| NVIDIA посвященная графикой | Поддерживается |
| Nvidia Integrated Graphics | Протестировано - не поддерживается |
| Amd/ati | * Linux проверил |
| Intel Arc | Не поддерживается |
| Intel HD | Не поддерживается |
| Intel IGPU | Не поддерживается |
Вы можете найти полный список поддерживаемых графических процессоров NVIDA здесь:
| Требование | Минимум | Умеренный | Рекомендуется | Лучшая производительность |
|---|---|---|---|---|
| ЦП Ядра | 2 | 6 | 8 | 16 |
| Процедура такта (ГГц) | 2,5 или выше | 3.0 или выше | 3,5 или выше | 4,0 или выше |
| ОЗУ (ГБ) | 4 или выше | 8 или выше | 16 или выше | 16 или выше |
| Графический процессор VRAM (ГБ) | 2 или выше | 6 или выше | 8 или выше | 12 или выше |
| Бесплатное пространство диска (ГБ) | 15 или выше | 15 или выше | 15 или выше | 15 или выше |
| GPU (предлагается) до тех пор, пока графический процессор, который у вас есть, находится в спецификации VRAM, он должен работать нормально. | NVIDIA GTX 1050 или выше | Nvidia gtx 1660 или выше | Nvidia rtx 3070 или выше | Nvidia rtx 3090 или выше |
Примечание:
Инструмент будет работать над любой системой, которая соответствует минимальным требованиям. Инструмент будет лучше работать в системах, которые соответствуют рекомендуемым требованиям. Инструмент будет работать лучше всего над системами, которые отвечают наилучшим требованиям к производительности. Вы можете смешать и соответствовать требованиям, чтобы получить наилучшую производительность. Например, у вас может быть процессор, который отвечает наилучшим требованиям к производительности и графический процессор, который отвечает умеренным требованиям. Инструмент будет работать лучше всего над системами, которые отвечают наилучшим требованиям к производительности.
--stream для потоковой передачи звука из потока HLS. Смотрите примеры для получения дополнительной информации.setup.batsetup.bashgcc , а portaudio19-dev установлен (или portaudio-devel для некоторых машин)Этот скрипт использует Argparse для принятия аргументов командной строки. Доступны следующие варианты:
| Флаг | Описание |
|---|---|
--ram | Измените количество оперативной памяти на использование. По умолчанию 4 ГБ. Выбор «1 ГБ», «2 ГБ», «4 ГБ», «6 ГБ», «12 ГБ-V2», «12 ГБ-V3». |
--ramforce | Используйте этот флаг, чтобы заставить сценарий использовать желаемый VRAM. Может привести к сбою сценария, если не хватает VRAM. |
--fp16 | Это позволяет получить более точную информацию, передаваемую в процесс. Это даст AL возможность обрабатывать больше информации за счет скорости. Вы не увидите сильного влияния на более сильное оборудование. Объедините флаги 12 ГБ-V3 + FP16 (режим точности на графическом интерфейсе) для окончательного опыта. |
--energy_threshold | Установите уровень энергии для обнаружения микрофона. По умолчанию 100. Выберите от 1 до 1000; Все, что будет более высоким, будет труднее вызвать обнаружение звука. |
--mic_calibration_time | Как долго калибровать микрофон за секунды. Чтобы пропустить ввод пользователя тип 0, и время будет установлено на 5 секунд. |
--record_timeout | Установите время в секундах для записи в реальном времени. По умолчанию 2 секунды. |
--phrase_timeout | Установите время за секунды для пустого пространства между записями, прежде чем рассматривать его новую линию в транскрипции. По умолчанию 1 секунда. |
--translate | Перевести транскрипции на английский. Включает перевод. |
--transcribe | Протекайте аудио на установленный целевой язык. Требуется целевой язык. |
--target_language | Выберите язык для перевода. Доступные варианты-это список языков в формате ISO 639-1, а также их английские имена. |
--language | Выберите язык, чтобы перевести из. Доступные варианты-это список языков в формате ISO 639-1, а также их английские имена. |
--auto_model_swap | Автоматически обменяется моделью на основе обнаруженного языка. Включает автоматическое обмена модели. |
--device | Выберите устройство для использования для модели. По умолчанию «CUDA», если таковые имеются. Доступными вариантами являются «ЦП» и «CUDA». При настройке в процессор вы можете выбрать любой размер оперативной памяти, если у вас достаточно оперативной памяти. Опция CPU оптимизирован для многопоточного, поэтому, если у вас есть около 16 ядер, 32 потока, вы можете увидеть хорошие результаты. |
--cuda_device | Выберите устройство CUDA для использования для модели. По умолчанию 0. |
--discord_webhook | Установите WebHook Discord, чтобы отправить транскрипцию. |
--list_microphones | Список доступных микрофонов и выход. |
--set_microphone | Установите микрофон по умолчанию. Вы можете установить имя или его идентификационный номер из списка. |
--microphone_enabled | Включает использование микрофона. Добавить true после флага. |
--auto_language_lock | Автоматически блокируйте язык на основе обнаруженного языка после 5 обнаружений. Позволяет автоматическая блокировка языка. Поможет уменьшить задержку. Используйте этот флаг, если вы используете неанглийский язык, и если вы не знаете текущего разговорного языка. |
--model_dir | Расположение по умолчанию - папка «Модель». Вы можете использовать этот аргумент, чтобы изменить местоположение. |
--use_finetune | |
--no_log | Делает это только последнее, что переведено/транскрибирование, отображается скорее список стилей журнала. |
--updatebranch | Проверьте, какую филиал из репо, чтобы проверить обновления. По умолчанию есть мастер , выбор-это мастер и девтоподавление и кровотечение . Чтобы отключить проверку обновления, используйте отключение . Раньше кровотечение -это в основном последние изменения и может сломаться в любое время. |
--keep_temp | Сохраняет аудиофайлы в папке Out . Это займет место с течением времени, хотя. |
--portnumber | Установите номер порта для веб -сервера. Если не установлено число, веб -сервер не запустится. |
--retry | Понимает переводы и транскрипцию, если они потерпят неудачу. |
--about | Показывает о приложении. |
--save_transcript | Сохраняет стенограмму в текстовый файл. |
--save_folder | Установите папку, чтобы сохранить стенограмму. |
--stream | Поток аудио из потока HLS. |
--stream_language | Язык потока. По умолчанию английский. |
--stream_target_language | Язык для перевода потока. По умолчанию английский. Необходимо для --stream_transcribe |
--stream_translate | Перевести поток. |
--stream_transcribe | Протекайте поток на другой язык. Используйте --stream_target_language для изменения вывода. |
--stream_original_text | Покажите обнаруженный оригинальный текст. |
--stream_chunks | Сколько кусков разделить поток. Рекомендуется по умолчанию 5, чтобы составлять от 3 до 5. Потоки YouTube должны быть 1 или 2, Twitch должен составлять от 5 до 10. Чем выше число, тем точнее, но также медленнее и задерживается перевод потока и транскрипция. |
--cookies | Имя файла cookie, как Twitch, YouTube, Twitchacc1, Twitchacczed |
--makecaptions | Установить программу в режим подписей, требуется файл_инду, file_output, file_output_name |
--file_input | Расположение файла для ввода, чтобы сделать подписи, почти все видео/аудио -формат (использует FFMPEG) |
--file_output | Расположение папок для экспорта подписей |
--file_output_name | Имя файла в экспорт, как и без какого -либо доб. |
--ignorelist | Использование -« --ignorelist "C:quotedpathtowordlist.txt" " |
--condition_on_previous_text | Поможет модели повторить себя, но может замедлить процесс. |
--remote_hls_password_id | Идентификатор пароля для веб -сервера. Обычно нравится «id» или «ключ». Ключ - по умолчанию для программы, поэтому, когда она запрашивает идентификатор/пароль, Synthalingua будет key=000000 - key = id - 0000000 = password 16 chars Long. |
--remote_hls_password | Пароль для HLS Webserver. |
--discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" С флагом --ignorelist вы можете загрузить список фраз или слов, которые можно игнорировать в окне API и подзаголовок. Этот список уже заполнен общими фразами, которые ИИ подумает, что услышал. Вы можете настроить этот список по мере того, как вы, пожалуйста, или добавить в него больше слов или фраз.
Некоторые потоки могут потребовать установки файлов cookie, вам нужно сохранить файлы cookie в качестве формата Netscape в папку cookies в качестве файла .txt. Если папка не существует, создайте ее. Вы можете сохранить файлы cookie, используя этот https://cookie-editor.com/ или любой другой редактор cookie, но он должен быть в формате Netscape.
Пример использования --cookies twitchacc1 Не включайте расширение файла .txt.
Что бы вы ни назвали текстовый файл в папке cookie, вам нужно использовать это имя в качестве аргумента.
С помощью командного флага --port 4000 вы можете использовать параметры запроса, такие как ?showoriginal , ?showtranslation и ?showtranscription чтобы показать конкретные элементы. Если используется какой -либо другой параметр запроса или не указано параметры запроса, все элементы будут показаны по умолчанию. Вы можете выбрать другой номер, кроме 4000 если хотите. Вы можете смешать параметры запроса, чтобы показать конкретные элементы, оставить пустым, чтобы показать все элементы.
Например:
http://localhost:4000?showoriginal покажет original обнаруженный текст.http://localhost:4000?showtranslation покажет translated текст.http://localhost:4000?showtranscription покажет transcribed текст.http://localhost:4000/?showoriginal&showtranscription покажет original и transcribed текст.http://localhost:4000 или http://localhost:4000?otherparam=value покажет все элементы по умолчанию. Это создаст подписи, с опцией 12GB-V3 и сохранит для загрузки.
Обратите внимание, что подписи будут только на английском языке (ограничение модели), хотя вы всегда можете использовать другие программы для перевода на другие языки
python transcribe_audio.py --ram 12GB-v3 --makecaptions --file_input="C:UsersusernameDownloads430796208_935901281333537_8407224487814569343_n.mp4" --file_output="C:UsersusernameDownloads" --file_output_name="430796208_935901281333537_8407224487814569343_n" --language Japanese --device cuda
У вас есть GPU 12 ГБ, и вы хотите транслировать аудио из прямой трансляции https://www.twitch.tv/somestreamerhere и вы хотите перевести его на английский. Вы можете запустить следующую команду:
python transcribe_audio.py --ram 12GB-v3 --stream_translate --stream_language Japanese --stream https://www.twitch.tv/somestreamerhere
Источники потока из YouTube и Twitch поддерживаются. Вы также можете использовать любой другой источник потока, который поддерживает HLS/M3U8.
У вас есть графический процессор с 6 ГБ памяти, и вы хотите использовать японскую модель. Вы также хотите перевести транскрипцию на английский. Вы также хотите отправить транскрипцию в канал Discord. Вы также хотите установить порог энергии на 300. Вы можете запустить следующую команду:
python transcribe_audio.py --ram 6gb --translate --language ja --discord_webhook "https://discord.com/api/webhooks/1234567890/1234567890" --energy_threshold 300
При выборе ОЗУ вы можете выбрать только 1 ГБ, 2 ГБ, 4 ГБ, 6 ГБ, 12 ГБ-V2, 12 ГБ-V3. Там нет внедорожных.
У вас есть графический процессор 12 ГБ, и вы хотите перевести на испанский язык с английского, вы можете запустить следующую команду для v3 заменить v3 на v2, если предпочитаете оригинал:
python transcribe_audio.py --ram 12GB-v3 --transcribe --target_language Spanish --language en
Допустим, у вас есть несколько аудиоустройств, и вы хотите использовать тот, который не является по умолчанию. Вы можете запустить следующую команду: python transcribe_audio.py --list_microphones Эта команда будет перечислять все аудиоустройства и их индекс. Затем вы можете использовать индекс для установки аудиоустройства по умолчанию. Например, если вы хотите использовать второе аудиоустройство, вы можете запустить следующую команду: python transcribe_audio.py --set_microphone "Realtek Audio (2- High Definiti" , чтобы установить устройство для прослушивания. *Пожалуйста, обратите внимание на цитаты вокруг имени устройства. Это требуется, чтобы предотвратить ошибки. Некоторые имена могут быть отключены, копировать то, что находится в цитатах списков.
Пример допустим, у меня есть эти устройства:
Microphone with name "Microsoft Sound Mapper - Input" found, the device index is 1
Microphone with name "VoiceMeeter VAIO3 Output (VB-Au" found, the device index is 2
Microphone with name "Headset (B01)" found, the device index is 3
Microphone with name "Microphone (Realtek USB2.0 Audi" found, the device index is 4
Microphone with name "Microphone (NVIDIA Broadcast)" found, the device index is 5
Я бы поместил python transcribe_audio.py --set_microphone "Microphone (Realtek USB2.0 Audi" , чтобы установить устройство для прослушивания. -Или я бы поместил python transcribe_audio.py --set_microphone 4 чтобы установить устройство для прослушивания.
Если вы столкнетесь с какими -либо проблемами с инструментом, вот некоторые общие проблемы и их решения:
transformers , запущенную pip install transformers .python -m pip install transformers . Используются аргументы командной строки. --ram 6gb --record_timeout 2 --language ja --energy_threshold 500
Используются аргументы командной строки. --ram 12GB-v2 --record_timeout 5 --language id --energy_threshold 500