Belarussische NLP- und Sprachverarbeitungsressourcen
Dieses Repository enthält Links zu belarussischen natürlichen Sprach- und Sprachverarbeitungsressourcen und Datensätzen.
Es ist von einem ähnlichen Projekt mit ukrainischen Sprachverarbeitungsressourcen inspiriert: EgorsMKV/Spracherkennung-UK
Todos:
- Fügen Sie jedem der Listenelemente detaillierte Beschreibungen hinzu
- Bewerten Sie Modelle auf Benchmarks und protokollieren Sie ihre Leistung
? Sprache zu Text
? Implementierungen
? Benchmarks
Modellvergleiche nach Datensatz gruppiert. Todo
? Datensätze
- Gemeinsame Stimme. Spracherkennungsdatensatz
- Datensatz von knihi.com. TODO: Was ist die Art des Datensatzes?
- Google/Fleurs
- SSRLAB: Todo. Spracherkennungsdatensatz
? Text-to-Speech
? Implementierungen
- Coquiai -Implementierungen
- JHLFRFUFYFN/BEL-TTS. Glowtts + HiFigan
- Code
- Modell
- Demo auf Umarmung
- Demo auf einer benutzerdefinierten Webseite. Der Quellcode für die Demo -Seite: Hier
- Alex73/Belarussian-TTS. Coquiai -Implementierung von Yurii Paniv (@Robinhad).
Original Repo & Models wurden gelöscht - nur Gabel ist ab sofort verfügbar
NLP
Pos-magging
- Koichiyasuoka/Roberta-Small-Belarussian-upos
- Stanfordnlp/Stanza-be
- Poritski/yabc_tagger. Regelbasiertes POS-Tagger und Lemmatizer.
Geschrieben in Perl. Verwendet Poritski/YABC als Grammatikbasis (?) - Volchek/Beltagger. Eine verbesserte Version von Poritski/Yabc_tagger regelbasiertes Pos-Tagger und Lemmatizer.
Plattformübergreifend, in C ++ geschrieben.
Bekannte Probleme:- Erfordert, dass Eingabedaten in Windows-1251 incodiert werden, unterstützt UTF-8 nicht.
- Tagset ist nicht vollständig kompatibel mit Bnkorpus 'Tagset und Grammatikbasis
- Die verwendete Grammatikbasis ist nicht voll genug. Belarus/Grammardb ist eine bessere Paradigmenquelle, ist aber noch nicht eingebaut
- Suffix -Tabellenberechnungskript wird nicht von Perl nach C ++ portiert
- Code verwendet Boost Libarary
Andere
- PKASILA/Bel -Sklony - Webseite mit belarussischen Substantiven Deklination. Demo: Sklony.pkasila.net
Maskierte Sprachmodellierung
- Koichiyasuoka/Roberta-Small-Belarussian
Datensätze
- Oscar
- MC4
- Poritski/yabc - экroh берыы & unktion м & р р & бе & р & м м мовы, экб Geschäftsion
- Belarus/Grammardb - Grammatikdatenbank der belarussischen Sprache
- Tsimafeip/Übersetzer - Datensatz mit russisch -belarusischen Übersetzungspaaren
- Universeller Abhängigkeitsdatensatz:
- Tatoeba Belarussianische Sätze
? ♀️? Gemeinschaften und Plattformen:
- corpus.by
- ssrlab.by
- BnKorpus.info
- Belarusorganisation auf Github
- nlproc.by Community auf GitHub
? Ich sortiert