3D голосовой шахмат
Многоязычная 3D-шахматная игра для обучения и обучения Voice AI с использованием Coqui Stt с использованием ограниченных моделей словарного языка.
Обратите внимание: это репо не готово. Это где -то между альфа и бета -версиями по состоянию на 1 апреля 2022 года.
Текущие возможности:
- Однопользовательский сервер для речи для текстового вывода STT (NodeJS) (т.е. он работает на одном основном бесплатном узле - но мы поддерживаем пул серверов)
- 3D Frontend (только голос, многоязычный интерфейс с некоторыми кнопками и областями вывода)
- В настоящее время поддерживаемые языки: de (немецкий), en (английский), tr (турецкий)
- Ты играешь против себя :)

Мы открыли тестовый сайт, который поддерживается пулом серверов для наших тестов.
Сводка контента
- Создание акустической модели: пример ноутбука (TODO)
- Языковая модель создание: все файлы для создания вашей языковой модели конкретной домены
- Голосовой реакт: Frontend-React & Three.js реализация
- Voice-Cess-Server: Server-Простая реализация единого соединения Nodejs
Как установить
Тодо
Как внести свой вклад
- Создание новых акустических и языковых моделей на вашем языке
- Лучше, связанная с шахматами для существующих языков, если это необходимо
- Перевести файлы ресурсов (сообщения.json)
- Тестирование; идеи, обратная связь в выпусках; Commits & PR
Как я могу добавить свой язык?
- Получите информацию о шахматной терминологии на вашем языке (если вы еще не знаете - помогают Википедия и YouTube).
- Изучите существующие предложения/программирование в генераторах шахматных предложений.
- Скопируйте соответствующий генератор предложений, переименуйте его в свой языковой код и переведйте/адаптируйте.
- Найдите совместимую акустическую модель Coqui STT (.tflite) или обучите одну из наборов данных Mozilla Common Voice.
- Перевести файлы ресурсов (сообщения.json)
- Проверьте свои результаты на вашем раздвоенном сервере/клиенте локально и улучшите свои модели, если это необходимо.
- Сделайте запрос на вытягивание (PR), чтобы добавить свою акустическую модель (.tflite), языковую модель (.scorer) в голосовой сервер/голосовой дир, добавьте сгенерированный файл языка json и переведенные файлы.
Если вы не можете сделать некоторые из них, пожалуйста, откройте проблему, чтобы мы могли помочь.
Другая информация
Текущие акустические и языковые модели
Подробную информацию можно найти здесь.
Используются проекты с открытым исходным кодом
- Голос: Coqui Stt, Coqui Пример, Kenlm, Mozilla Common Voice Dataets.
- 3D UI: Three.js & React-Fiber (с Drei и Zustand)
- Шахматы: Chess.js для шахматных данных и элементов управления (нет ИИ или графического интерфейса).
Код, связанный с клиентом и сервером, адаптирован из примера Coqui web_microphone_websocket.
Историческая информация
Первая версия проекта создана во время хакатона Coqui.ai "Hack the Planet" на фестивале Mozilla Festival 2022, между 8-15 марта.
Основная идея состояла в том, чтобы внедрить приложение с поддержкой речи через одну неделю. Группа людей проголосовала за реализацию голосовой игры, контролируемой голосом (Tic-tac-toe), но эта идея стала многоязычным голосовым 3D-шахматами. Команда была сформирована, и внедрение шахматного приложения стала целью. Члены команды были Bö, JF, KM, Mk.
Это было приложение для двух частей в начале:
- Серверная часть - это приложение Node.js, которое выполняет фактический STT
- Клиент - это приложение React.js, которое записывает предложения и связывается с сервером для транскрипции через Socket.io, подтвердите его, покажите в браузере с Three.js и с помощью Chess.js.
Из -за ограниченных сроков и индивидуальных временных ограничений группа сохраняла ожидания также ограниченными.
- Часть пользовательского интерфейса остается минимальной, но работает. Например, нет ручной игры, улучшенных функций пользовательского интерфейса и т. Д.
- Образец языков был выбран, но он может быть расширен с другими языками.
- Есть много командных форматов для шахмат. Чтобы упростить весь рабочий процесс, пользователь вынужден использовать один формат в этой версии:
"Move <piece> from <fromCell> to <targetCell>".
Здесь «Piece»-это название шахматного произведения, такое как король, епископ и т. Д., «Cell»-это координата доски Col-Row (столбцы: AZ, Rows: 1-8).
- После нескольких испытаний с английским и турецким мы обнаружили, что признание отдельных алфавитных персонажей недостаточно прочно (почти невозможно), поэтому мы использовали Алфавит НАТО: Альфа, Браво, ... Отель. За исключением именования НАТО, другие формулировки были переведены на соответствующие языки.
- Включите поддержку следующих языков: - Немецкий, английский, французский, хинди, русский, турецкий
В конце продолжительности проекта было представлено полупрофессиональное программное обеспечение для английского и турецкого.
Вы можете посмотреть первоначальное видео с презентацией проекта здесь.
И, как и было обещано в конце презентации, мы продолжаем развиваться и делать его открытым исходным кодом здесь.