AivisSpeech скачать - загрузка исходного кода AivisSpeech

Aivisspeech

? Aivisspeech: Ai v oice I Mitation System - Text to Speech Software

Aivisspeech - это японское программное обеспечение для синтеза речи, основанное на пользовательском интерфейсе редактора VoiceVox.
Он включает в себя японский двигатель речевого синтеза Aivisspeech, который позволяет легко генерировать эмоциональные голоса.

? Скачать aivisspeech /? Скачать двигатель Aivisspeech

Пользователям
Операционная среда
Поддерживаемые модели синтеза речи
- Поддерживаемая модель архитектура
- Где разместить модельный файл
Политика развития
Создание среды развития
разработка
лицензия

Пользователям

Если вы хотите использовать Aivisspeech, пожалуйста, посетите официальный сайт Aivisspeech.

Эта страница содержит информацию в основном для разработчиков.
Ниже приведен документ для пользователей:

Как использовать
Часто задаваемые вопросы / Q & A
расследование

Операционная среда

Совместим с ПК с Windows и MacOS.
Чтобы запустить Aivisspeech, вашему компьютеру требуется не менее 3 ГБ свободной памяти (ОЗУ).

Windows: Windows 10 (22H2 или более поздней)/Windows 11
macOS: macOS 13 Ventura или позже

Примечание

Мы не активно проверяли операцию на Macs с помощью процессоров Intel.
Mac с процессорами Intel уже не выходит за рамки производства, и становится все труднее подготовить проверку и построение среды. Мы рекомендуем использовать этот продукт на Mac с яблочным кремнием как можно больше.

Предупреждение

В Windows 10 мы проверяем только работу версии 22H2.
Были сообщения о случаях, когда двигатель Aivisspeech сбои и не начинается с более старых версий Windows 10, которые не имеют поддержки.
С точки зрения безопасности, мы настоятельно рекомендуем вам использовать среды Windows 10 только для минимальной версии 22H2 перед использованием службы.

Поддерживаемые модели синтеза речи

Двигатель Aivisspeech, встроенный в Aivisspeech, поддерживает файлы модели синтеза речи в формате AIVMX ( AI vis v Oice M Odel для onn x ) ( .aivmx ).

AIVM ( AI Vis V OICE M ODEL) / AIVMX ( AI VIS VOICE M ODEL для ONN X )-это открытый формат файлов для моделей синтеза речи AI, которые объединяют предварительно обученные модели, гиперпараметры, векторы стиля, метаданные динамики (имена, обзоры, лицензии, иконки, голосовые выборки и т. Д.) В один файл .

Для получения дополнительной информации о спецификациях AIVM и файлах AIVM/AIVMX, пожалуйста, обратитесь к спецификациям AIVM, разработанным в проекте AIVIS.

Примечание

«AIVM» также является общим термином как для спецификаций формата AIVM/AIVMX, так и для спецификаций метаданных.
В частности, файл AIVM представляет собой модельный файл в «Safetensors Format с добавлением метаданных AIVM», а файл AIVMX - это модельный файл в «Format Onnx с добавленными метадатами AIVM».
«Метаданные AIVM» относится к различным метаданным, которые связаны с обученной моделью, как определено в спецификации AIVM.

Важный

Двигатель Aivisspeech также является эталонной реализацией спецификации AIVM, но он преднамеренно предназначен для поддержки только файлов AIVMX.
Это устраняет зависимость от Pytorch, уменьшает размер установки и обеспечивает быстрый вывод ЦП со временем выполнения ONNX.

Кончик

Генератор AIVM позволяет генерировать файлы AIVM/AIVMX из существующих моделей синтеза речи и редактировать метаданные существующих файлов AIVM/AIVMX!

Поддерживаемая модель архитектура

Доступны файлы AIVMX для следующих архитектур модели:

Style-Bert-VITS2
Style-Bert-VITS2 (JP-Extra)

Примечание

Спецификация метаданных AIVM позволяет вам определять многоязычные динамики, но двигатель Aivisspeech, такой как двигатель VoiceVox, только поддерживает японский синтез речи.
Следовательно, даже если вы используете модель синтеза речи, которая поддерживает английский или китайский, не может быть выполнен синтез речи, кроме японского.

Где разместить модельный файл

Поместите файлы AIVMX в следующие папки для каждой ОС:

Windows: C:Users(ユーザー名)AppDataRoamingAivisSpeech-EngineModels
MacOS: ~/Library/Application Support/AivisSpeech-Engine/Models
Linux: ~/.local/share/AivisSpeech-Engine/Models

Фактический путь папки будет отображаться в качестве Models directory: в журналах сразу после запуска двигателя Aivisspeech.

Кончик

При использовании aivispeech вы можете легко добавить модели синтеза речи с экрана пользовательского интерфейса Aivisspeech!
Для конечных пользователей мы рекомендуем добавить модель синтеза речи, используя этот метод.

Важный

Папка развертывания для версии разработки (если вы используете двигатель Aivisspeech, в то время как не построены с Pyinstaller) не является AivisSpeech-Engine или ниже AivisSpeech-Engine-Dev .

Политика развития

VoiceVox - это огромное программное обеспечение, которое все еще активно развивается сегодня.
Поэтому Aivisspeech разрабатывает последнюю версию VoiceVox в соответствии с следующей политикой:

Чтобы облегчить следование последней версии VoiceVox, сохраните изменения в минимально возможных.
- Ребрендинг от VoiceVox в Aivisspeech только в случае необходимости
Не рефактор
- Легко ожидать конфликтов с VoiceVox, и вы не знакомы со всем кодом.
Даже если функция не используется в aivispeech (например, функция синтеза голоса пения), код не будет удален.
- Это также помогает избежать конфликтов
- Отключение неиспользованных кодов не удалено, но прокомментируйте
Документы не обновляются из-за трудностей в техническом обслуживании и последующем наблюдении
- В результате ни один из документов не был обновлен и не отражает изменения в Aivispecheech
Из -за изменений для aivispeech, трудно поддерживать тестовый код, поэтому тестовый код не будет обновляться.
- В частности, тест E2E не работает должным образом из -за больших изменений в пользовательском интерфейсе.
- Некоторые из тестовых кодов были изменены в соответствии с Aivisspeech, но он не был проверен и оставлен без присмотра.

Создание среды развития

Шаги отличаются от оригинального VoiceVox.
Node.js 20.12.2 должен быть установлен заранее.

 # 依存関係をすべてインストール
npm ci

# .env.development を .env にコピー
# # コピーした .env を編集する必要はない
cp .env.development .env

# macOS のみ、.env.production を編集
nano .env.production
--------------------
# executionFilePath を "AivisSpeech-Engine/run.exe" から "../Resources/AivisSpeech-Engine/run" に書き換える
# # executionFilePath は、npm run electron:build でビルドした製品ビルドの AivisSpeech の起動時に使用される
...
VITE_DEFAULT_ENGINE_INFOS= ` [
    {
        " uuid " : " 1b4a5014-d9fd-11ee-b97d-83c170a68ed3 " ,
        " name " : " AivisSpeech Engine " ,
        " executionEnabled " : true,
        " executionFilePath " : " ../Resources/AivisSpeech-Engine/run " ,
        " executionArgs " : [],
        " host " : " http://127.0.0.1:10101 "
    }
] `
...
--------------------

# 事前に別のターミナルで AivisSpeech Engine を起動しておく
# # AivisSpeech Engine の開発環境は別途構築する必要がある
cd ../AivisSpeech-Engine
poetry run task serve

разработка

Шаги отличаются от оригинального VoiceVox.

 # 開発環境で Electron 版 AivisSpeech を起動
npm run electron:serve

# 開発環境でブラウザ版 AivisSpeech を起動
npm run browser:serve

# Electron 版 AivisSpeech をビルド
npm run electron:build

# ブラウザ版 AivisSpeech (WIP) をビルド
npm run browser:build

# コードフォーマットを自動修正
npm run format

# コードフォーマットをチェック
npm run lint

# OpenAPI Generator による自動生成コードを更新
npm run openapi:generate

# 依存ライブラリのライセンス情報を生成
# # VOICEVOX と異なり、音声合成エンジンとのライセンス情報との統合は行わない
# # エディタ側で別途エンジンマニフェストから取得したライセンス情報を表示できるようにしているため不要
npm run license:generate

лицензия

Из двойных лицензий базового двигателя VoiceVox/VoiceVox только LGPL-3.0 будет унаследован независимо.

Следующие и документы/ следующие документы используют оригинальный документ VoiceVox без модификации. Не гарантируется, что содержание этих документов также будет применяться к Aivisspeech.

VoiceVox

Это редактор для VoiceVox.

(Двигатель представляет собой двигатель VoiceVox, ядро является VoiceVox Core, и общая структура можно найти здесь.)

Пользователям

Это страница разработки. Для получения информации о том, как его использовать, посетите официальный сайт VoiceVox.

Для тех, кто хочет внести свой вклад в проект

Проект VoiceVox приветствует заинтересованных участников. У нас есть руководство, объясняющее процедуру вклада.

Когда вы думаете о вкладах, вы можете подумать о создании программы, но есть различные способы участия, такие как написание документа, создание тестов и участие в дискуссиях в предложениях для улучшений. Мы также предлагаем задачи, которые приветствуют начинающих, поэтому мы с нетерпением ждем вашего участия.

Редакторы VoiceVox используют электрон, TypeScript, Vue, Vuex и многое другое, что затрудняет понимание общей структуры.
Мы представим структуру в том, как пройти код, поэтому мы надеемся, что это поможет вам разработать ее.

При создании запроса на привлечение для решения проблемы, пожалуйста, скажите, что вы начали работать над ним, либо сначала создайте черновик запрос на привлечение, чтобы не работать над тем же проблемой, что и кто -то другой.

Обсуждения и чаты разработки проводятся на неофициальном сервере Discord VoiceVox. Пожалуйста, не стесняйтесь присоединиться к нам.

Экологическое строительство

Пожалуйста, установите версию node.js, указанную в .node-version.
Инструменты управления Node.js (например, NVS и Volta) позволяют легко установить и автоматически переключать Node.js.

После установки node.js разветвляется этот репозиторий и git clone его.

Установка зависимых библиотек

Запустите следующую команду для установки и обновления зависимых библиотек:

npm ci

исполнение

Подготовка двигателя

Скопируйте .env.production , чтобы создать .env и указать vv-ingine/run.exe в версии продукта VoiceVox в executionFilePath в VITE_DEFAULT_ENGINE_INFOS для vv-engine/run.exe в версии продукта VoiceVox для запуска.

Если вы не изменили место установки в Windows, укажите C:/Users/(ユーザー名)/AppData/Local/Programs/VOICEVOX/vv-engine/run.exe .
Обратите внимание, что разделитель пути - это не /

Если вы используете VOICEVOX.app для macOS, укажите /path/to/VOICEVOX.app/Resources/MacOS/vv-engine/run to/voicevox.app/resources/macos/vv-engine/run.

Для Linux укажите команду vv-engine/run включенную в версию Tar.gz, доступную из выпусков. Для версии Appimage вы можете установить файловую систему, используя $ /path/to/VOICEVOX.AppImage --appimage-mount .

Если вы запускаете сервер API Engine отдельно от запуска редактора VoiceVox, вам не нужно указывать executionFilePath , но вместо этого установите executionEnabled в false . Это применимо, даже если вы используете версию продукта VoiceVox.

Если вы хотите изменить конечную точку назначения API двигателя, измените host в VITE_DEFAULT_ENGINE_INFOS .

Бег электрон

 # 開発しやすい環境で実行
npm run electron:serve

# ビルド時に近い環境で実行
npm run electron:serve -- --mode production

Репозиторий двигателя синтеза голоса здесь: https://github.com/voicevox/voicevox_engine

Запуск сборника рассказов

Вы можете разработать компоненты, используя сборники рассказов.

npm run storybook

Вы можете просмотреть сборник рассказов для основной ветви со страниц VoiceVox/Preview.
https://voicevox.github.io/preview-pages/preview/branch-main/storybook/index.html

Запуск версии браузера (в разработке)

Запустите отдельный двигатель синтеза речи и запустите следующее, чтобы получить доступ к отображению Localhost:

npm run browser:serve

Кроме того, результаты сборки для основной ветви были развернуты на страницах VoiceVox/Preview.
https://voicevox.github.io/preview-pages/preview/branch-main/editor/index.html
Теперь вам нужно запустить двигатель синтеза речи на вашем локальном ПК.

Строить

npm run electron:build

Построить с помощью действий GitHub

Вы можете построить, включив действия в репозитории, которые вы разделили и запустили build.yml с помощью workflow_dispatch. Поставки будут загружены для выпуска.

тест

Модульный тест

Запустите тесты под ./tests/unit/ и тестами сборника рассказов.

npm run test:unit
npm run test-watch:unit # 監視モード
npm run test-ui:unit # VitestのUIを表示
npm run test:unit -- --update # スナップショットの更新

Примечание

Тесты в разделе ./tests/unit изменяют среду, в которой запускается тест в зависимости от имени файла.

.node.spec.ts : node.js среда
.browser.spec.ts : среда браузера (хром)
.spec.ts : среда браузера (эмулирование с использованием Happy-Dom)

Браузер конечный тест

Запустите конечные тесты, такие как пользовательский интерфейс и синтез речи, которые не требуют функциональности электронов.

Примечание

Тесты, которые переписывают настройки для некоторых двигателей, теперь проводятся только на CI (Github Deciates).

npm run test:browser-e2e
npm run test-watch:browser-e2e # 監視モード
npm run test-watch:browser-e2e -- --headed # テスト中の UI を表示
npm run test-ui:browser-e2e # Playwright の UI を表示

Вы также можете генерировать тестовые шаблоны, потому что вы используете Playwright. Запустите следующую команду , пока работает версия браузера :

npx playwright codegen http://localhost:5173/  --viewport-size=1024,630

Для получения дополнительной информации см. Генератор тестирования в документации Playwright.

Визуальная регрессионная тестирование для сборника рассказов

Сравните скриншоты компонентов сборника рассказов и покажите различия, если внесены какие -либо изменения.

Примечание

Этот тест можно запустить только в Windows.

npm run test:storybook-vrt
npm run test-watch:storybook-vrt # 監視モード
npm run test-ui:storybook-vrt # Playwright の UI を表示

Обновите скриншоты

Браузер конец теста и сборники рассказов обеспечивают тестирование визуальной регрессии. В настоящее время VRT -тестирование выполняется только в Windows. Вы можете обновить свой скриншот, выполнив шаги ниже:

Если вы хотите обновить с помощью действий GitHub

Включите действия GitHub в раздробленных настройках репозитория.
В соответствии с действиями> Общие> Разрешения на рабочем процессе в настройках репозитория выберите разрешения для чтения и записи.
Сделайте строку [update snapshots] в сообщении Commit.
```
git commit -m " UIを変更 [update snapshots] "
```
После завершения рабочего процесса GitHub обновленный скриншот будет совершен.
После вытягивания подтолкните пустой коммит и снова запустите тест.
```
git commit --allow-empty -m " （テストを再実行） "
git push
```

Примечание

Вы можете автоматически повторить тест, создав токен и добавив его в секреты.

Перейти к жетонам с тонкой генерацией.
Введите соответствующее имя, предоставьте доступ кユーザー名/voicevox и в соответствии с репозиторными разрешениями выберите «Читать и написать».
Пример конфигурации
Создайте токен и скопируйте строку.
Открыть настройки> Секреты и переменные> Действия> Новый секрет хранилища в репозиторииユーザー名/voicevox .
Введите PUSH_TOKEN в имя, вставьте строку выше и добавьте секреты.

Если вы хотите обновить локально

Только те, кто поддерживает ОС локального ПК, будут обновлены.

npm run test:browser-e2e -- --update-snapshots

Электронный тест на конечный

Запустите конечные тесты, которые требуют функциональности электронов, включая запуск двигателя и завершение.

npm run test:electron-e2e
npm run test-watch:electron-e2e # 監視モード

Генерирование информации о лицензии на зависимость библиотеки

Информация о лицензировании для зависимых библиотек автоматически генерируется при наращивании с помощью рабочего процесса GitHub. Вы можете генерировать его со следующей командой:

 # get licenses.json from voicevox_engine as engine_licenses.json

npm run license:generate -- -o voicevox_licenses.json
npm run license:merge -- -o public/licenses.json -i engine_licenses.json -i voicevox_licenses.json

Формат кода

Форматируйте код. Пожалуйста, выполните его перед отправкой запроса на привлечение.

npm run fmt

Lint (статический анализ)

Статический анализ вашего кода для предотвращения ошибок. Пожалуйста, выполните его перед отправкой запроса на привлечение.

npm run lint

Опечатка проверка

Я использую опечатки, чтобы проверить мои опечатки.

npm run typos

Вы можете проверить тип. Если есть какие -либо файлы, которые должны быть исключены из ложных суждений или проверок, пожалуйста, следуйте инструкциям в файле конфигурации, чтобы редактировать _typos.toml .

Тип проверки

Проверка типа типа.

npm run typecheck

Markdownlint

Выполняет проверку грамматики Marckdown.

npm run markdownlint

ShellCheck

Сделайте проверку грамматики ShellScript. Для инструкций по установке см. Здесь.

shellcheck ./build/ * .sh

Генератор OpenAPI

Запустите следующую команду, пока работает двигатель синтеза речи.

curl http://127.0.0.1:50021/openapi.json > openapi.json

npx openapi-generator-cli generate 
    -i openapi.json 
    -g typescript-fetch 
    -o src/openapi/ 
    --additional-properties " modelPropertyNaming=camelCase,supportsES6=true,withInterfaces=true,typescriptThreePlus=true "

npm run fmt

Обновление генератора Opanapi

Вы можете проверить и установить новую версию, используя следующую команду:

npx openapi-generator-cli version-manager list

Запуск отладки в коде VS

В рамках разработки, таких как сценарии NPM, serve и electron:serve , Sourcemap выводит в Vite, используемом для сборки, поэтому исходный код и выходной код отображаются.

Копирование .vscode/launch.template.json для создания .vscode/launch.json .vscode/tasks.json .vscode/tasks.template.json

лицензия

Это двойная лицензия с LGPL V3 и отдельные лицензии, которые не требуют публикации исходного кода. Если вы хотите получить отдельную лицензию, пожалуйста, спросите Хехо.
X Аккаунт: @hiho_karuta

Расширять