All About Speech Sprachdownload - All About Speech Sprachquellencode Download

All About Speech

AI-Quellcode

1.0.0

Herunterladen

Alles über Sprache

Dieses Repository organisiert Papiere, Lernmaterialien, Codes zum Zweck des Verständnisses der Sprache. Hier gibt es ein weiteres Repository für Maschinen-/Deep -Lernen.

Zu dos:

Sterne organisieren
Fügen Sie weitere Papiere hinzu
- Papiere zu lesen:
  1. Sprache = T: Wandler für TTS und darüber hinaus

TTS

TTS
- DC-TTS [[Papier]] [Pytorch] [TensorFlow]
- Microsoft's Lightspeech [[Papier]] [Code]
- Sprachforscher [[Papier]] [Code]
- Nicht-attentiver Tacotron [Papier] [Pytorch]
- Parallel Tacotron 2 [[Papier]] [Code]
- FCL-TACO2: Schnelle, steuerbare und leichte Version von Tacotron2 [[Papier]] [Code]
- Transformator TTS: Neuronale Sprachsynthese mit Transformator -Netzwerk [[Papier]] [Code]
- Vits: Bedingter Variations-AutoCodierer mit widersprüchlichem Lernen für End-to-End-Text-zu-Sprache [[Papier]] [Code]
- Reformer-TTS (Anpassung des Reformers an TTS) [Code]
Eingehend-basierte TTs (siehe [Link])
Sprachkonvertierung / Sprachkloning / Lautsprecher Einbettung
- STARGAN-VC: Nichtparallel viele zu viele Sprachkonvertierungen mit sterngenerativen kontroversen Netzwerken [[Papier]] [Code]
- Neurales Sprachklonen mit wenigen Audioproben (Baidu) [[Papier]] [Code]
- Assem-VC: Realistische Sprachumwandlung durch Zusammenstellung moderner Sprachsynthese-Techniken [[Papier]] [Code]
- UNET-TTS: Verbesserung der unsichtbaren Lautsprecher und Stilübertragung im One-Shot-Sprachklonen [Papier] [Code]
- Fragmentvc: Jegliche Sprachumwandlung durch End-to-End-Extrahieren und Fusion feinkörniger Sprachfragmente mit Aufmerksamkeit [[Papier]] [Code]
- VectorquantizedCPC: Vektor-quantisierte kontrastive prädiktive Kodierung für die Entdeckung und Sprachumgestaltung der akustischen Einheiten [[Papier]] [Code]
- Cotatron: Transkriptionsgesteuerter Sprachcodierer für eine beliebige Sprachumwandlung ohne parallele Daten [[Papier]] [Code]
- Wieder-VC: Eine One-Shot-Sprachumwandlung unter Verwendung von Aktivierungsanleitung und adaptiver Instanznormalisierung [[Papier]] [Code]
- AUTOVC: Null-Shot-Sprachstil-Übertragung mit nur AutoEncoder-Verlust [[Papier]] [Code]
- SC-Glowtts: Ein effizientes Null-Shot-Multi-Speaker-Text-zu-Speech-Modell [Code]
- Deep Speaker: Ein End-to-End-Einbettungssystem für neuronale Sprecher [[Papier]] [Code]
- VQMIVC: One-Shot (Anyal-to-Any) Voice Conversion [[Papier]] [Code]
Stil (Emotion, Prosodie)
- Smart-TTS Single Emotional TTS [Code]
- Cross Speaker Emotion Transfer [[Papier]] [Code]
- Autopst: Globaler Rhythmusstil -Übertragung ohne Texttranskriptionen [[Papier]] [Code]
- Transformation von Spektrum und Prosodie für emotionale Sprachumwandlung mit nichtparallelen Trainingsdaten [[Papier]] [Code]
- Multi-Referenz-Neural-TTS-Stylisierung mit kontrollieller Zykluskonsistenz [[Papier]] [Code]
- Lernen latenter Darstellungen für die Stilkontrolle und Übertragung in der End-to-End-Sprachsynthese (Tacotron-vae) [[Papier]] [Code]
- Time Domain Neural Audio Style Transfer (NIPS 2017) [[Papier]] [Code]
- Meta-Stylespeech und Stylespeech [[Papier]] [Code]
- Cross-Speaker-Emotionsübertragung basierend auf der Normalisierung von Lautsprecher Conditino-Schicht und halbübergreifendes Training in Text-to-Speech [[Papier]] [Code]
Kreuzsprachiger
- End-to-End-Code-Switching-TTs mit intersprachigem Sprachmodell
  - Mandarin und Englisch
  - Kreuzsprachiger und mehrfacher Lautsprecher
  - Grundlinie: "Aufbau eines gemischten TTS-Systems mit gemischten Neural mit nur einsprachigen Daten"
- Aufbau eines Mischlings-TTS-Systems mit nur einsprachigen Daten
- Übertragung von Lern-, Stilkontroll- und Rekonstruktionsverlust von Lautsprechern für mehrsprachige Multi-Sprecher
  - hat viele gute Referenzen
- Untersuchung der Entwirrung mit mehrsprachigen und einsprachigen VQ-VAE [Papier] [Code]
Musikbezogen
- Lernen der Schönheit in Liedern: Neuronales Gesangsprachverschäuer (ACL 2022) [[Papier]] [Code]
- Sprache zum Gesang (Interspeech 2020) [[Papier]] [Code]
- Diffsinger: Singen der Sprachsynthese über einen flachen Diffusionsmechanismus (AAAI 2022) [[Papier]] [Code]
- Ein universelles Musikübersetzungsnetzwerk (ICLR 2019)
- Jukebox: Ein generatives Modell für Musik (OpenAI) [Papier] [Code]
Toolkits
- IMS Toucan Sprachsynthese -Toolkit [Papier] [Code]
- Crepe Pitch Tracker [Code]
- Sprachbrain - nützliche Tools zur Erleichterung der Sprachforschung [Code]
Vocoder
Aufmerksamkeit
- Lokale Aufmerksamkeit [Code]

ASR

Zum End-to-End-Verständnis der gesprochenen Sprache

Sprachklassifizierung, Erkennung, Filter usw.

HTS-AT: Ein hierarchial token-semantischer Audio-Transformator zur Klassifizierung und Erkennung [[Papier]] [Code]
Das VoiceFilter -System von Google AI [[Papier]] [Code]
Verbessertes End-to-End-Sprach-Emotionserkennung unter Verwendung des Selbstaufmerksamkeitsmechanismus und Multitasking-Lernens (Interspeech 2019) [[Papier]] [Code]
Multimodale Emotionserkennung mit Tranformator-basiertem selbst beaufsichtigter Feature-Fusion [[Papier]] [Code]
Emotionserkennung aus der Sprache unter Verwendung von WAV2VEC 2.0 -Einbettungen (Interspeech 2021) [[Papier]] [Code]
Erforschung von Wav2VEC 2.0 Feinabstimmung für eine verbesserte Erkennung von Sprachemotionen [[Papier]] [Code]
Überdenken von CNN -Modellen für die Audioklassifizierung [[Papier]] [Code]
EEG-basierte Emotionserkennung mit Sincnet [[Papier]] [Code]

Sprecherüberprüfung

Cross aufmerksames Pooling für die Überprüfung der Sprecher (IEEE SLT 2021) [[Papier]] [Code]

Linguistik

Datensätze

VGGSound: Ein groß angelegter audio-visueller Datensatz [[Papier]] [Code]
CSS10: Eine Sammlung von Sprachdaten für Einzellautsprecher für 10 Langaugen [Code]
IEMOCAP: 12 Stunden audiovisueller Daten mit 10 männlichen und weiblichen Schauspielern [Website]
Voxceleb [Repo]

Datenvergrößerung

Audiomentationen (Schnelle Audiodatenvergrößerung in Pytorch) [Code]

Aligner

Montreal erzwang Aligner

Für Koreanisch [Link]

Daten (vor) Verarbeitung / Augmentation

Daten (vor) Verarbeitung

Koreanische Aussprache und Romanisierung basierend auf dem wiktionären Ko-Pron Lua-Modul [Code]
Audiosignalverarbeitung [Code]
Phonologische Merkmale (für das Papier "Phonologische Merkmale für die mehrsprachige Sprachsynthese von 0-Shot") [[Papier]] [Code]
Smart-G2P (Ausdrücke von Englisch und Kanji in koreanischer Strafe in koreanische Aussprache ändern) [Code]
Kakao Graphem to Phonem Conversion Paket für "Mandarin" [Code]
Webaverse -Sprach -Tool [Code]