speech_dataset
v0.1
Chinois
| nom | durée / h | adresse | remarque | application |
|---|---|---|---|---|
| THCHS-30 | 30 | https://openselr.org/18/ | ||
| Aishell | 150 | https://openselr.org/33/ | ||
| ST-CMDS | 110 | https://openselr.org/38/ | ||
| Commandes de prime | 99 | https://openselr.org/47/ | ||
| aidatatang | 200 | https://openselr.org/62/ | ||
| Magie | 755 | https://openselr.org/68/ | ||
| ASR & SD | 160 | http://ncmmsc2021.org/competition2.html | si disponible | |
| Aishell2 | 1000 | http://www.aishelltech.com/aisishell_2 | si disponible | |
| Tal asr | 100 | https://ai.100tal.com/dataset | ||
| Voix commune | 63 | https://commonvoice.mozilla.org/zh-cn/datasets | Corpus vocal commun 7.0 | |
| ASRU2019 ASR | 500 | https://www.datatang.com/Comppetion | si disponible | |
| 2021 SLT CSRC | 398 | https://www.data-baker.com/csrc_challenge.html | si disponible | |
| aidatatang_1505zh | 1505 | https://datatang.com/opensource | si disponible | |
| Wenetspeech | 10000 | https://github.com/wenet-e2e/wenetspeech | ||
| Kespeech | 1542 | https://openreview.net/forum?id=b3zoeq2sclq | Reconnaissance de la parole, vérification des conférenciers, identification des subdialectes, conversion vocale | |
| Magicdata-ramc | 180 | https://arxiv.org/pdf/2203.16844.pdf | Données de discours conversationnelles enregistrées par des locuteurs natifs du chinois mandarin | |
| Mandarine Corpus de discours conversationnel à accent lourd mandarin | 58,78 | https://magichub.com/datasets/mandarin-heavy-accent-conversation-disseech-corpus/ | ||
| Corpus Mandarin chinois gratuit gratuit | - | https://openselr.org/38/ |
Anglais
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Voix commune | 2015 | https://commonvoice.mozilla.org/zh-cn/datasets | Corpus vocal commun 7.0 |
| Bibliothèque | 960 | https://openselr.org/12/ | |
| ST-AEDS-20180100 | 4.7 | http://www.openslr.org/45/ | |
| Ted-Lium Release 3 | 430 | https://openselr.org/51/ | |
| Bibliothèque multilingue | 44659 | https://openselr.org/94/ | supervision limitée |
| Spgispenech | 5000 | https://datasets.kensho.com/datasets/scribe | si disponible |
| Commandes de discours | 10 | https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/data | |
| 2020aesrc | 160 | https://datatang.com/INTERSPEECH2020 | si disponible |
| Gigaspaspeechee | 10000 | https://github.com/speechcolab/gigaspeech | |
| Le discours du peuple | 31400 | https://openreview.net/pdf?id=r8cwidgj0yt | |
| Gains-21 | 39 | https://arxiv.org/abs/2104.11348 | |
| Voxpopuli | 24100 + 543 | https://arxiv.org/pdf/2101.00390.pdf | 24100 (non marqué), 543 (transcrit) |
| Ensemble de données de discours multilingues CMU Wilderness | 13 | http://festvox.org/cmu_wilderness/ | Multilingue |
| MSR-86K | 9795.46 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Chinois-anglais
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Seamie | 30 | https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf | |
| Tal csasr | 587 | https://ai.100tal.com/dataset | |
| ASRU2019 CSASR | 200 | https://www.datatang.com/Comppetion | si disponible |
| MONTER | 10.62 | https://arxiv.org/pdf/2112.06223.pdf |
Japonais (JA-JP)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Voix commune | 26 | https://commonvoice.mozilla.org/zh-cn/datasets | Corpus vocal commun 7.0 |
| Japonais_scripted_speech_corpus_daily_use_sence | 18 | https://magichub.io/cn/datasets/japanese-scripted-speech-corpus-daily-use-sence/ | |
| Labourotvspeech | 2000 | https://arxiv.org/pdf/2103.14736.pdf | |
| Csj | 650 | https://github.com/kaldi-asr/kaldi/tree/master/egs/csj | |
| Jtubepeech | 1300 | https://arxiv.org/pdf/2112.09323.pdf | |
| MSR-86K | 1779.03 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Corée (KO-KR)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| coréen-scrit-dispee-corpus-use-usence | 4.3 | https://magichub.io/cn/datasets/korean-scripted-speech-corpus-daily-use-sence/ | |
| coréen-conversation-discours-corpus | 5.22 | https://magichub.io/cn/datasets/korean-conversation-disech-corpus/ | |
| MSR-86K | 10338.66 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Russe (Ru-Ru)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Voix commune | 148 | https://commonvoice.mozilla.org/zh-cn/datasets | Corpus vocal commun 7.0 |
| Openstt | 20000 | https://arxiv.org/pdf/2006.08274.pdf | supervision limitée |
| MSR-86K | 3188.52 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Français (FR-Fr)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| MédiaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | Ensemble de données d'évaluation du système ASR |
| MSR-86K | 8316.70 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Espagnol (es-es)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| MédiaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | Ensemble de données d'évaluation du système ASR |
| MSR-86K | 13976.84 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
Turc (TR-Tr)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| MédiaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | Ensemble de données d'évaluation du système ASR |
Arabe (AR)
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| MédiaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | Ensemble de données d'évaluation du système ASR |
| MSR-86K | 873.84 | https://huggingface.co/datasets/alex-song/msr-86k | Multilingue |
bruit et non-espèce
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Musan | - | https://openselr.org/17/ | |
| Base de données de réponse à l'impulsion de la chambre et du bruit | - | https://openselr.org/28/ | |
| Audioset | - | https://ieeexplore.ieee.org/document/7952261 |
Chinois
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Aishell3 | 85 | https://openselr.org/93/ | |
| Opencpop | - | https://wenet.org.cn/opencpop/download/ | Synthèse vocale chantante |
Anglais
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Ensemble de données TTS en anglais Multi-Speaker Hi-Fi | 291.6 | https://openselr.org/109/ | |
| Libritts corpus | 585 | https://openselr.org/60/ | |
| Discours762 | - | https://www.opensenslr.org/101/ | |
| Ryanspeeche | 10 | http://mohammadmahoor.com/ryanspeech/ |
Chinois
| nom | durée / h | adresse | remarque | application |
|---|---|---|---|---|
| Aishell4 | 120 | https://openselr.org/111/ | 8 canaux, scénarios de conférence | Reconnaissance de la parole, diarisation des conférenciers |
| ASR & SD | 160 | http://ncmmsc2021.org/competition2.html | si disponible | Reconnaissance de la parole, diarisation des conférenciers |
| zhijiangcup | - | https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html | si disponible | Reconnaissance de la parole, diarisation des conférenciers |
| M2 | 120 | https://arxiv.org/pdf/2110.07393.pdf | 8 canaux, scénarios de conférence | Reconnaissance de la parole, diarisation des conférenciers |
Anglais
| nom | durée / h | adresse | remarque | application |
|---|---|---|---|---|
| Carillon-6 | - | https://chimechallenge.github.io/chime6/download.html | si disponible | Reconnaissance de la parole, diarisation des conférenciers |
Chinois
| nom | durée / h | adresse | remarque | application |
|---|---|---|---|---|
| CN-Celeb | - | https://openselr.org/82/ | ||
| Kespeech | 1542 | https://openreview.net/forum?id=b3zoeq2sclq | Reconnaissance de la parole, vérification des conférenciers, identification des subdialectes, conversion vocale | |
| Mtass | 55.6 | https://github.com/windstudent/complex-mtassnet | ||
| THCHS-30 | 40 | http://www.opensenslr.org/18/ |
Anglais
| nom | durée / h | adresse | remarque |
|---|---|---|---|
| Données de voxceleb | - | http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ |
Français
| nom | durée / h | adresse | remarque | application |
|---|---|---|---|---|
| Inagvad | 5 | https://github.com/ina-foss/inagvad | 10 chaînes de radio et 18 télévision | Détection d'activité vocale, segmentation du sexe du haut-parleur, surveillance de genre |