벨로루시 NLP 및 음성 처리 자원
이 저장소에는 벨로루시 자연 언어 및 음성 처리 자원 및 데이터 세트에 대한 링크가 포함되어 있습니다.
우크라이나어 스피치 프로세싱 리소스와 유사한 프로젝트에서 영감을 얻었습니다.
토 도스 :
- 각 목록 항목에 자세한 설명을 추가하십시오
- 벤치 마크에서 모델을 평가하고 성능을 기록하십시오
? 음성-텍스트
? 구현
? 벤치 마크
데이터 세트별로 그룹화 된 모델 비교. TODO
? 데이터 세트
- 일반적인 목소리. 음성 인식 데이터 세트
- knihi.com의 데이터 세트. TODO : 데이터 세트 유형은 무엇입니까?
- Google/Fleurs
- SSRLAB : TODO. 음성 인식 데이터 세트
? 텍스트 음성
? 구현
- Coquiai 구현
- jhlfrfufyfn/bel-tts. 글로우트 + 히 피거
- 암호
- 모델
- 포옹 페이스의 데모
- 사용자 정의 웹 페이지의 데모. 데모 페이지의 소스 코드 : 여기
- Alex73/Belarusian-tts. Yurii Paniv (@RobinHad)의 Coquiai 구현.
원래 Repo & Models가 삭제되었습니다. 이제 포크 만 사용할 수 있습니다.
NLP
postagging
- Koichiyasuoka/Roberta-Small-Belarusian-upos
- Stanfordnlp/Stanza-be
- Poritski/yabc_tagger. 규칙 기반 Pos-Tagger 및 Lemmatizer.
Perl로 작성되었습니다. Poritski/Yabc를 문법베이스 (?)로 사용합니다. - Volchek/Beltagger. Poritski/YABC_Tagger 규칙 기반 POS-TAGGER 및 LEMMATIZER의 개선 된 버전.
C ++로 작성된 크로스 플랫폼.
알려진 문제 :- Windows-1251에서 입력 데이터가 인코딩되어야하며 UTF-8을 지원하지 않습니다.
- Tagset은 Bnkorpus의 Tagset 및 Grammar Base와 완전히 호환되지 않습니다.
- 사용 된 문법베이스는 충분하지 않습니다. 벨로루시/Grammardb는 더 나은 패러다임 소스이지만 아직 통합되지 않았습니다.
- 접미사 테이블 계산 스크립트는 Perl에서 C ++로 포팅되지 않았습니다.
- 코드는 Boost Libarary를 사용합니다
다른
- PKASILA/BEL -SKLONY- 벨로루시 명사 선거가있는 웹 페이지. 데모 : sklony.pkasila.net
마스크 언어 모델링
- Koichiyasuoka/Roberta-Small-Belarusian
데이터 세트
- 오스카
- MC4
- poritski/yabc -эксперыменталь 관한 ны 처치 беларускай мовы, эк담전
- 벨로루시/문법 - 벨로루시 언어의 문법 데이터베이스
- Tsimafeip/Translator- 러시아 - 벨라루시아 번역 쌍이있는 데이터 세트
- 범용 종속성 데이터 세트 :
- 타토 바 벨로루시어 문장
? ♀️? 커뮤니티 및 플랫폼 :
- 코퍼스
- ssrlab.by
- bnkorpus.info
- Github의 벨로루시 조직
- nlproc. Github의 커뮤니티
? 분류되지 않은