Неанглийский-такотрон-2-нот-нотббук
Tacotron 2 Training Notebook, поддерживающая японские, французские и мандаринские
Обзор
Этот ноутбук предназначен для обеспечения более легкого доступа к обучающим моделям Tacotron 2 на языках, отличных от английского. В настоящее время включены японские (Talqu и Neuretak Phonetics), французские и мандаринские модели, но план состоит в том, чтобы включить больше в будущее, например, немецкий язык. Для японцев рекомендуется использовать фонетику Neuredation и предварительную модель.
Поддерживается аудио
Аудио для обучения должно быть 16-битными 22050-Гц моно-файлами. Не включайте места в имена файлов. Файлы должны включать только буквенный (половина ширины), тире и подчеркивание. Это означает отсутствие японских или китайских имен файлов, или диакритики. Аудиоклипы должны составлять 10 секунд или меньше, чтобы облегчить обучение. Основываясь на моих тестах, я рекомендую иметь не менее 15 минут звука.
Транскрипции
Файл транскрипции должен быть текстовым документом с каждой строкой, имеющей следующий формат: wavs/{name_of_file}.wav|{text} . Используйте один из включенных G2P для преобразования транскрипции в соответствующий фонетический вход.
Обучение
Я надеюсь, что шаги в ноутбуке должны быть довольно эксплуатационными. Загрузите звук в папку WAVS/ Polder перед началом обучения. Вот несколько заметок, которые следует иметь в виду:
- Размер партии в идеале должен быть коэффициентом количества волн, которые у вас есть. Например, при обучении модели с 15 волнами я установил размер партии на 5.
- Если у вас есть графический процессор T4 на Colab, не устанавливайте размер партии выше 14.
- Выходной каталог для обучения должен быть в Google Drive, если вы отключитесь.
- Когда вы тренируетесь, контрольно -пропускные пункты будут накапливаться. Удалите старые и пустой мусор, чтобы сохранить хранилище диска.
- Прекратите обучение, когда вы достигнете соответствующей потери проверки. Например, я делаю: менее 30 файлов = до 0,07; 30-100 файлов = до 0,09; 150+ файлов = до 0,1; Более 30 минут данных = до 0,14
Атрибуты
- Фонетическая система Talqu от Haruqa (https://booth.pm/ja/items/2755336)
- Neulak японская фонетическая система от Neutrogic (https://github.com/neutrogic/neutalk)
- Совместная модель Talque Haruqa (https://github.com/haruqa/tacotron2/releases)
- Нейловые японские и мандаринские модели с нейтрогией (https://github.com/neutrogic/neutalk)
- Французская предварительная модель, созданная Mildemelwe и обученная Neutrogic (https://github.com/neutrogic)
- Основанный на коде с учебной книжкой Uberduck Tacotron 2 (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6iv3bg?usp=sharing)
- Реализация Tacotron 2 с помощью nvidia (https://github.com/nvidia/tacotron2)