Белорусские НЛП и ресурсы обработки речи
Этот репозиторий содержит ссылки на ресурсы и наборы данных о естественном языке и речех белорус.
Он вдохновлен аналогичным проектом с украинскими ресурсами обработки речи: egorsmkv/речь
Тодос:
- Добавить подробные описания каждого из элементов списка
- Оценить модели на тестах и зарегистрировать их производительность
? Речи к тексту
? Реализации
? Тесты
Сравнения модели, сгруппированные по набору данных. Тодо
? Наборы данных
- Общий голос. Набор данных по распознаванию речи
- Набор данных от Knihi.com. TODO: Что такое тип набора данных?
- Google/Fleurs
- SSRLAB: TODO. Набор данных по распознаванию речи
? Текст в речь
? Реализации
- Реализации Coquiai
- JHLFRFUFYFN/BEL-TTS. Glowtts + Hifigan
- Код
- Модель
- Демонстрация на Huggingface
- Демонстрация на пользовательской веб-странице. Исходный код для демонстрационной страницы: здесь
- Alex73/Belarusian-TTS. Реализация Coquiai Yurii Paniv (@robinhad).
Оригинальные репо и модели были удалены - только вилка доступна сейчас
НЛП
Поставка
- Koichiyasuoka/Roberta-Small-Belarusian-Upos
- stanfordnlp/stanza-be
- poritski/yabc_tagger. Основанный на правилах POS-Tagger и Lemmatizer.
Написано в Perl. Использует Poritski/Yabc в качестве грамматической основы (?) - Volchek/Beltgger. Улучшенная версия POS-Tagger и Lemmatizer на основе правил PORITSKI/YABC_TAGGER.
Кроссплатформенный, написанный в C ++.
Известные проблемы:- Требует входных данных, которые были приготовлены в Windows-1251, не поддерживает UTF-8;
- Tagset не совсем совместим с Bnkorpus Tagset и Grammar Base
- Используемая грамматическая база недостаточно полна. Беларусь/Граммарб - лучший источник парадигм, но еще не включен
- Сценарий расчета таблицы суффиксов не переносит от Perl на C ++
- Код использует Boost Libarary
Другой
- Pkasila/Bel -Sklony - Веб -страница с склоном существительных белорус. Демо: Sklony.pkasila.net
Моделирование языка в масках
- Koichiyasuoka/Roberta-Small-Belarusian
Наборы данных
- Оскар
- MC4
- poritski/yabc - ksperыmentalnыcorpues belaru
- Belarus/Gramardb - база данных Grammar Belarusian Language
- TSIMAFEIP/Переводчик - набор данных с российско -беларусианскими парами перевода
- Набор данных универсальных зависимостей:
- Страница
- Репозиторий GitHub
- Tatoeba Belarusian предложения
? ♀? Сообщества и платформы:
- Корпус
- ssrlab.by
- bnkorpus.info
- Белорусская организация на GitHub
- Nlproc.by Community на GitHub
? Несортированный