Descargar speech_dataset - Descargar el código fuente de speech

speech_dataset

Código Fuente de IA

v0.1

Descargar

El conjunto de datos del reconocimiento de voz

Chino

nombre	duración/h	DIRECCIÓN	observación	solicitud
THCHS-30	30	https://openslr.org/18/
Aishell	150	https://openslr.org/33/
St-cmds	110	https://openslr.org/38/
Primeñas	99	https://openslr.org/47/
aidatatang	200	https://openslr.org/62/
Data mágica	755	https://openslr.org/68/
Asr & sd	160	http://ncmmsc2021.org/competition2.html	Si está disponible
Aishell2	1000	http://www.aishelltech.com/aishell_2	Si está disponible
Tal asr	100	https://ai.100tal.com/dataset
Voz común	63	https://commonvoice.mozilla.org/zh-cn/datasets	Common Voice Corpus 7.0
Asru2019 asr	500	https://www.datatang.com/competition	Si está disponible
2021 SLT CSRC	398	https://www.data-baker.com/csrc_challenge.html	Si está disponible
Aidatatang_1505zh	1505	https://datatang.com/opensource	Si está disponible
Wenetspeech	10000	https://github.com/wenet-e2e/wenetspeech
Kepeech	1542	https://openreview.net/forum?id=b3zoeq2sclq		Reconocimiento de voz, verificación del hablante, identificación de subdialectas, conversión de voz
MagicData-Ramc	180	https://arxiv.org/pdf/2203.16844.pdf	Datos del habla conversacionales registrados de hablantes nativos de chino mandarín
Mandarin Heavy Accent Conversational Speech Corpus	58.78	https://magichub.com/datasets/mandarin-heavy-accent-conversational-speech-corpus/
Corpus de mandarín chino gratis	-	https://openslr.org/38/

Inglés

nombre	duración/h	DIRECCIÓN	observación
Voz común	2015	https://commonvoice.mozilla.org/zh-cn/datasets	Common Voice Corpus 7.0
Libriscoech	960	https://openslr.org/12/
ST-AEDS-20180100	4.7	http://www.openslr.org/45/
TED-Lium Release 3	430	https://openslr.org/51/
Librispeech multilingüe	44659	https://openslr.org/94/	supervisión limitada
Spgispeech	5000	https://datasets.kensho.com/datasets/scribe	Si está disponible
Comandos del discurso	10	https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/data
2020aesrc	160	https://datatang.com/interspeech2020	Si está disponible
Gigaspa	10000	https://github.com/speechcolab/gigaspeech
El discurso del pueblo	31400	https://openreview.net/pdf?id=r8cwidgj0yt
Ganancias-21	39	https://arxiv.org/abs/2104.11348
Voxpopuli	24100+543	https://arxiv.org/pdf/2101.00390.pdf	24100 (sin etiquetar), 543 (transcrito)
Conjunto de datos de discurso multilingüe de CMU Wilderness	13	http://festvox.org/cmu_wilderness/	Plurilingüe
MSR-86K	9795.46	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Chino-inglés

nombre	duración/h	DIRECCIÓN	observación
Costero	30	https://www.isca-saech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf
Tal csasr	587	https://ai.100tal.com/dataset
ASRU2019 CSASR	200	https://www.datatang.com/competition	Si está disponible
ASCENDER	10.62	https://arxiv.org/pdf/2112.06223.pdf

Japonés (JA-JP)

nombre	duración/h	DIRECCIÓN	observación
Voz común	26	https://commonvoice.mozilla.org/zh-cn/datasets	Common Voice Corpus 7.0
Japonés_scripted_speech_corpus_daily_use_sentence	18	https://magichub.io/cn/datasets/japanese-scripted-sepech-corpus-1ily-use-sentence/
Laborotvspeech	2000	https://arxiv.org/pdf/2103.14736.pdf
CSJ	650	https://github.com/kaldi-asr/kaldi/tree/master/egs/csj
Jtubespeech	1300	https://arxiv.org/pdf/2112.09323.pdf
MSR-86K	1779.03	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Coreano (ko-kr)

nombre	duración/h	DIRECCIÓN	observación
orientación de uso-discurso de escote coreano	4.3	https://magichub.io/cn/datasets/korean-scripted-sepech-corpus-1ily-use-sentence/
Corano-Conversacional-Consejo-Corpus	5.22	https://magichub.io/cn/datasets/korean-conversational-speech-corpus/
MSR-86K	10338.66	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Ruso (ru-ru)

nombre	duración/h	DIRECCIÓN	observación
Voz común	148	https://commonvoice.mozilla.org/zh-cn/datasets	Common Voice Corpus 7.0
Inauguración	20000	https://arxiv.org/pdf/2006.08274.pdf	supervisión limitada
MSR-86K	3188.52	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Francés (FR-FR)

nombre	duración/h	DIRECCIÓN	observación
Expresión de medios	10	https://arxiv.org/pdf/2103.16193.pdf	Conjunto de datos de evaluación del sistema ASR
MSR-86K	8316.70	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Español (es-es)

nombre	duración/h	DIRECCIÓN	observación
Expresión de medios	10	https://arxiv.org/pdf/2103.16193.pdf	Conjunto de datos de evaluación del sistema ASR
MSR-86K	13976.84	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

Turco (tr-tr)

nombre	duración/h	DIRECCIÓN	observación
Expresión de medios	10	https://arxiv.org/pdf/2103.16193.pdf	Conjunto de datos de evaluación del sistema ASR

Árabe (AR)

nombre	duración/h	DIRECCIÓN	observación
Expresión de medios	10	https://arxiv.org/pdf/2103.16193.pdf	Conjunto de datos de evaluación del sistema ASR
MSR-86K	873.84	https://huggingface.co/datasets/alex-song/msr-86k	Plurilingüe

ruido y no paces

nombre	duración/h	DIRECCIÓN
Musán	-	https://openslr.org/17/
Respuesta al impulso de habitación y base de datos de ruido	-	https://openslr.org/28/
Audioset	-	https://ieeexplore.ieee.org/document/7952261

El conjunto de datos de la síntesis del habla

Chino

nombre	duración/h	DIRECCIÓN	observación
Aishell3	85	https://openslr.org/93/
Opencpop	-	https://wenet.org.cn/opencpop/download/	Síntesis de voz de canto

Inglés

nombre	duración/h	DIRECCIÓN
Conjunto de datos TTS en inglés de Hi-Fi Multi-Fi-Fi	291.6	https://openslr.org/109/
Corpus de Libritts	585	https://openslr.org/60/
SpeechOcean762	-	https://www.openslr.org/101/
Ryanspeech	10	http://mohammadmahoor.com/ryanspeech/

El conjunto de datos del reconocimiento de voz y la diarización del altavoz

Chino

nombre	duración/h	DIRECCIÓN	observación	solicitud
Aishell4	120	https://openslr.org/111/	8 canales, escenarios de conferencia	Reconocimiento de voz, diarización del hablante
Asr & sd	160	http://ncmmsc2021.org/competition2.html	Si está disponible	Reconocimiento de voz, diarización del hablante
zhijiangcup	-	https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html	Si está disponible	Reconocimiento de voz, diarización del hablante
M2met	120	https://arxiv.org/pdf/2110.07393.pdf	8 canales, escenarios de conferencia	Reconocimiento de voz, diarización del hablante

Inglés

nombre	duración/h	DIRECCIÓN	observación	solicitud
Chime-6	-	https://chimechallenge.github.io/chime6/download.html	Si está disponible	Reconocimiento de voz, diarización del hablante

El conjunto de datos del reconocimiento de altavoces

Chino

nombre	duración/h	DIRECCIÓN	solicitud
CN-CELEB	-	https://openslr.org/82/
Kepeech	1542	https://openreview.net/forum?id=b3zoeq2sclq	Reconocimiento de voz, verificación del hablante, identificación de subdialectas, conversión de voz
Mtagua	55.6	https://github.com/windstudent/complex-mtassnet
THCHS-30	40	http://www.openslr.org/18/

Inglés

nombre	duración/h	DIRECCIÓN	observación
Datos de voxceleb	-	http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

El conjunto de datos de la detección de actividades de voz

Francés

nombre	duración/h	DIRECCIÓN	observación	solicitud
Inagvad	5	https://github.com/ina-foss/inagvad	10 radio y 18 canales de televisión	Detección de actividad de voz, segmentación de género del altavoz, monitoreo de género

Expandir

Información adicional

Versión v0.1
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 8.22KB
Proviene de Github

Aplicaciones relacionadas

ears_dataset

2024-11-14
OpenCore_NO_ACPI_Build

2024-11-13
zkwork_aleo_gpu_worker

2024-11-11
glaucoma dataset metadata

2024-11-09
ffhq wrinkle dataset

2024-11-07
nextcloud_share_url_downloader

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo