speech_dataset
v0.1
중국인
| 이름 | 지속 시간/h | 주소 | 주목 | 애플리케이션 |
|---|---|---|---|---|
| THCHS-30 | 30 | https://openslr.org/18/ | ||
| Aishell | 150 | https://openslr.org/33/ | ||
| ST-CMD | 110 | https://openslr.org/38/ | ||
| Primewords | 99 | https://openslr.org/47/ | ||
| 아이다 타탕 | 200 | https://openslr.org/62/ | ||
| MagicData | 755 | https://openslr.org/68/ | ||
| ASR & SD | 160 | http://ncmmsc2021.org/competition2.html | 사용 가능한 경우 | |
| Aishell2 | 1000 | http://www.aishelltech.com/aishell_2 | 사용 가능한 경우 | |
| Tal Asr | 100 | https://ai.100tal.com/dataset | ||
| 일반적인 목소리 | 63 | https://commonvoice.mozilla.org/zh-cn/datasets | 일반적인 음성 코퍼스 7.0 | |
| ASRU2019 ASR | 500 | https://www.datatang.com/competition | 사용 가능한 경우 | |
| 2021 SLT CSRC | 398 | https://www.data-baker.com/csrc_challenge.html | 사용 가능한 경우 | |
| Aidatatang_1505ZH | 1505 | https://datatang.com/opensource | 사용 가능한 경우 | |
| wenetspeech | 10000 | https://github.com/wenet-e2e/wenetspeech | ||
| Kespeech | 1542 | https://openreview.net/forum?id=b3zoeq2sclq | 음성 인식, 스피커 검증, 하위 사례 식별, 음성 변환 | |
| MagicData-Ramc | 180 | https://arxiv.org/pdf/2203.16844.pdf | 만다린 중국어의 원어민으로부터 녹음 된 대화 연설 데이터 | |
| 만다린 무거운 악센트 대화 대화 연설 코퍼스 | 58.78 | https://magichub.com/datasets/mandarin-heavy-accent-conversational-speech-corpus/ | ||
| 무료 세인트 중국 만다린 코퍼스 | - | https://openslr.org/38/ |
영어
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 일반적인 목소리 | 2015 | https://commonvoice.mozilla.org/zh-cn/datasets | 일반적인 음성 코퍼스 7.0 |
| librispeech | 960 | https://openslr.org/12/ | |
| ST-AEDS-20180100 | 4.7 | http://www.openslr.org/45/ | |
| Ted-Lium 릴리스 3 | 430 | https://openslr.org/51/ | |
| 다국어 라이브러리 | 44659 | https://openslr.org/94/ | 제한된 감독 |
| spgispeech | 5000 | https://datasets.kensho.com/datasets/scribe | 사용 가능한 경우 |
| 연설 명령 | 10 | https://www.kaggle.com/c/tensorflow-speech-recenition-challenge/data | |
| 2020aesrc | 160 | https://datatang.com/interspeech2020 | 사용 가능한 경우 |
| gigaspeech | 10000 | https://github.com/speechcolab/gigaspeech | |
| 사람들의 연설 | 31400 | https://openreview.net/pdf?id=r8cwidgj0yt | |
| 수입 -21 | 39 | https://arxiv.org/abs/2104.11348 | |
| Voxpopuli | 24100+543 | https://arxiv.org/pdf/2101.00390.pdf | 24100 (표지되지 않은), 543 (전사) |
| CMU Wilderness 다국어 음성 데이터 세트 | 13 | http://festvox.org/cmu_wilderness/ | 다국어 |
| MSR-86K | 9795.46 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
중국어-영어
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| Seame | 30 | https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf | |
| tal csasr | 587 | https://ai.100tal.com/dataset | |
| ASRU2019 CSASR | 200 | https://www.datatang.com/competition | 사용 가능한 경우 |
| 오르다 | 10.62 | https://arxiv.org/pdf/2112.06223.pdf |
일본어 (JA-JP)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 일반적인 목소리 | 26 | https://commonvoice.mozilla.org/zh-cn/datasets | 일반적인 음성 코퍼스 7.0 |
| 일본식 _scripted_speech_corpus_daily_use_sentence | 18 | https://magichub.io/cn/datasets/japanese-scripted-speech-corpus-daily-usenceence/ | |
| laborotvspeech | 2000 | https://arxiv.org/pdf/2103.14736.pdf | |
| CSJ | 650 | https://github.com/kaldi-asr/kaldi/tree/master/egs/csj | |
| jtubespeech | 1300 | https://arxiv.org/pdf/2112.09323.pdf | |
| MSR-86K | 1779.03 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
한국 (KO-KR)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 한국의 스크립트 연사-코퍼스 매일 사용 중인성 | 4.3 | https://magichub.io/cn/datasets/korean-scripted-speech-corpus-daily-us-nentence/ | |
| 한국의 전환 연사-코퍼스 | 5.22 | https://magichub.io/cn/datasets/korean-conversational-speech-corpus/ | |
| MSR-86K | 10338.66 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
러시아어 (Ru-ru)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 일반적인 목소리 | 148 | https://commonvoice.mozilla.org/zh-cn/datasets | 일반적인 음성 코퍼스 7.0 |
| OpenStt | 20000 | https://arxiv.org/pdf/2006.08274.pdf | 제한된 감독 |
| MSR-86K | 3188.52 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
프랑스어 (FR-FR)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR 시스템 평가 데이터 세트 |
| MSR-86K | 8316.70 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
스페인어 (ES-ES)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR 시스템 평가 데이터 세트 |
| MSR-86K | 13976.84 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
터키어 (TR-TR)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR 시스템 평가 데이터 세트 |
아랍어 (AR)
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR 시스템 평가 데이터 세트 |
| MSR-86K | 873.84 | https://huggingface.co/datasets/alex-song/msr-86k | 다국어 |
소음 및 비 스피치
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 무산 | - | https://openslr.org/17/ | |
| 객실 임펄스 응답 및 노이즈 데이터베이스 | - | https://openslr.org/28/ | |
| 오디오 세트 | - | https://ieeexplore.ieee.org/document/7952261 |
중국인
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| Aishell3 | 85 | https://openslr.org/93/ | |
| Opencpop | - | https://wenet.org.cn/opencpop/download/ | 노래하는 음성 합성 |
영어
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| 하이파이 멀티 스피커 영어 TTS 데이터 세트 | 291.6 | https://openslr.org/109/ | |
| Libritts Corpus | 585 | https://openslr.org/60/ | |
| Speechocean762 | - | https://www.openslr.org/101/ | |
| ryanspeech | 10 | http://mohammadmahoor.com/ryanspeech/ |
중국인
| 이름 | 지속 시간/h | 주소 | 주목 | 애플리케이션 |
|---|---|---|---|---|
| Aishell4 | 120 | https://openslr.org/111/ | 8 채널, 컨퍼런스 시나리오 | 음성 인식, 스피커 발기 |
| ASR & SD | 160 | http://ncmmsc2021.org/competition2.html | 사용 가능한 경우 | 음성 인식, 스피커 발기 |
| Zhijiangcup | - | https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html | 사용 가능한 경우 | 음성 인식, 스피커 발기 |
| m2met | 120 | https://arxiv.org/pdf/2110.07393.pdf | 8 채널, 컨퍼런스 시나리오 | 음성 인식, 스피커 발기 |
영어
| 이름 | 지속 시간/h | 주소 | 주목 | 애플리케이션 |
|---|---|---|---|---|
| 차임 -6 | - | https://chimechallenge.github.io/chime6/download.html | 사용 가능한 경우 | 음성 인식, 스피커 발기 |
중국인
| 이름 | 지속 시간/h | 주소 | 주목 | 애플리케이션 |
|---|---|---|---|---|
| CN-CELEB | - | https://openslr.org/82/ | ||
| Kespeech | 1542 | https://openreview.net/forum?id=b3zoeq2sclq | 음성 인식, 스피커 검증, 하위 사례 식별, 음성 변환 | |
| mtass | 55.6 | https://github.com/windstudent/complex-mtassnet | ||
| THCHS-30 | 40 | http://www.openslr.org/18/ |
영어
| 이름 | 지속 시간/h | 주소 | 주목 |
|---|---|---|---|
| Voxceleb 데이터 | - | http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ |
프랑스 국민
| 이름 | 지속 시간/h | 주소 | 주목 | 애플리케이션 |
|---|---|---|---|---|
| inagvad | 5 | https://github.com/ina-foss/inagvad | 10 개의 라디오 및 18 개의 TV 채널 | 음성 활동 탐지, 스피커 성별 세분화, 성별 모니터링 |