Alles über Sprache
Dieses Repository organisiert Papiere, Lernmaterialien, Codes zum Zweck des Verständnisses der Sprache. Hier gibt es ein weiteres Repository für Maschinen-/Deep -Lernen.
Zu dos:
- Sterne organisieren
- Fügen Sie weitere Papiere hinzu
- Papiere zu lesen:
- Sprache = T: Wandler für TTS und darüber hinaus
TTS
ASR
- Zum End-to-End-Verständnis der gesprochenen Sprache
Sprachklassifizierung, Erkennung, Filter usw.
- HTS-AT: Ein hierarchial token-semantischer Audio-Transformator zur Klassifizierung und Erkennung [[Papier]] [Code]
- Das VoiceFilter -System von Google AI [[Papier]] [Code]
- Verbessertes End-to-End-Sprach-Emotionserkennung unter Verwendung des Selbstaufmerksamkeitsmechanismus und Multitasking-Lernens (Interspeech 2019) [[Papier]] [Code]
- Multimodale Emotionserkennung mit Tranformator-basiertem selbst beaufsichtigter Feature-Fusion [[Papier]] [Code]
- Emotionserkennung aus der Sprache unter Verwendung von WAV2VEC 2.0 -Einbettungen (Interspeech 2021) [[Papier]] [Code]
- Erforschung von Wav2VEC 2.0 Feinabstimmung für eine verbesserte Erkennung von Sprachemotionen [[Papier]] [Code]
- Überdenken von CNN -Modellen für die Audioklassifizierung [[Papier]] [Code]
- EEG-basierte Emotionserkennung mit Sincnet [[Papier]] [Code]
Sprecherüberprüfung
- Cross aufmerksames Pooling für die Überprüfung der Sprecher (IEEE SLT 2021) [[Papier]] [Code]
Linguistik
Datensätze
- VGGSound: Ein groß angelegter audio-visueller Datensatz [[Papier]] [Code]
- CSS10: Eine Sammlung von Sprachdaten für Einzellautsprecher für 10 Langaugen [Code]
- IEMOCAP: 12 Stunden audiovisueller Daten mit 10 männlichen und weiblichen Schauspielern [Website]
- Voxceleb [Repo]
Datenvergrößerung
- Audiomentationen (Schnelle Audiodatenvergrößerung in Pytorch) [Code]
Aligner
- Montreal erzwang Aligner
Daten (vor) Verarbeitung / Augmentation
- Koreanische Aussprache und Romanisierung basierend auf dem wiktionären Ko-Pron Lua-Modul [Code]
- Audiosignalverarbeitung [Code]
- Phonologische Merkmale (für das Papier "Phonologische Merkmale für die mehrsprachige Sprachsynthese von 0-Shot") [[Papier]] [Code]
- Smart-G2P (Ausdrücke von Englisch und Kanji in koreanischer Strafe in koreanische Aussprache ändern) [Code]
- Kakao Graphem to Phonem Conversion Paket für "Mandarin" [Code]
- Webaverse -Sprach -Tool [Code]
Überprüfung
- MCD [Repo]
- Code funktioniert, aber ich bin mir nicht sicher, ob er richtig ist. MCD -Zahlen sind selbst für Paare ähnlicher Audios etwas zu hoch.
Andere Forschungen, die helfen können
- Text zur Bildsynthese
- Audiomae (maskierte Autoencoder, die zuhören) [Code]
Organisationen
- DeepMind [Repo]
- Openai [Repo]
- Clubhaus: WeelyarxivTalk [Repo]
Andere Repositorys, auf die man sich beziehen sollte - Sprache enthalten/verwandt
- Sprachforscher Liste [Repo]
- Jackson-Kang [Repo]
- ML [Repo] der Rosinality
- Ivallesps [Repo]
- Ddlbojacks Rede Vorabbau [Repo]
- Fuzhenxins Stilübertragung im Text [Repo]
Lernmaterialien
- Vorlesung der digitalen Signalverarbeitung [Link]
- RATSGOs Sprachbuch [Link]
- YSDA -Kurs in der Sprachverarbeitung [Code]
- NHN vorwärts youtube Video [Link]