voice dataset creation下载 - voice dataset creation源代码下载

voice dataset creation

Ai源码

1.0.0

下载

语音数据集创建

此回购概述了创建自己的文本到语音数据集所需的步骤和脚本，以训练语音模型。最终输出为ljspeech格式。

流程图

创建自己的声音录音

要求

语音录制软件
Omni方向式麦克风
优质的音频卡

创建文本语料库

创建大约3-10秒的句子
使用ljspeech格式
- “ |”分开的值，wav文件ID然后句子文本
- 100|this is an example sentence

说话和记录句子

说每句话
样本率应为22050或更高

句子长度

运行脚本/wavdurations2csv.sh以绘制句子的长度并验证您对WAV文件长度的分布良好。

创建一个合成语音数据集

要求

Google云平台计算引擎实例
- Cloud API access scopes选择Allow full access to all Cloud APIs
康达

安装

在GCP实例上创建CONDA环境

conda create -n tts python=3.7
conda activate tts
pip install google-cloud-texttospeech==2.1.0 tqdm pandas

创建文本语料库

创建大约3-10秒的句子
使用ljspeech格式
- “ |”分开的值，wav文件ID然后句子文本
- 100|this is an example sentence

生成合成语音数据集

python text_to_wav.py tts_generate

句子长度

运行脚本/wavdurations2csv.sh以绘制句子的长度并验证您对WAV文件长度的分布良好。

为现有语音记录创建抄录

要求

Adobe试听或大胆
Google云平台计算引擎实例
- Cloud API access scopes选择Allow full access to all Cloud APIs
康达

安装

在GCP实例上创建CONDA环境

conda create -n stt python=3.7
conda activate stt
pip install google-cloud-speech tqdm pandas

填写语音数据集的数据表

Gebru等人的查看数据集的数据表：https://arxiv.org/pdf/1803.09010.pdf
MARKDOWN DATASHEET：https：//github.com/jrmeyer/markdown-datasheet-for-datasets/blob/master/master/datasheet.md

标记演讲

在Adobe Audition中，打开音频文件：

选择Diagnostics - > Mark Audio
选择Mark the Speech
单击Scan
单击Find Levels
再次单击Scan
单击Mark All
调整音频和静音信号DB和长度，直到夹子在3-10秒之间

或者，在Audacity中，打开音频文件：

选择Analyze - > Sound Finder
调整音频和静音信号DB和长度，直到夹子在3-10秒之间

调整标记或标签边界

在试镜中：

打开Markers选项卡
调整标记，消除静音和噪音以使夹子长度在3至10秒之间

在试镜中：

调整标签边界，消除静音和噪音以使剪辑长度在3至10秒之间

导出标记/标签和波浪

在试镜中：

选择列表中的所有标记
选择Export Selected Markers to CSV并保存为标记。CSV
选择Preferences - > Media & Disk Cache和Untick Save Peak Files
选择Export Audio of Selected Range Markers并具有以下选项：
- Use marker names in filenames
- 更新为WAV PCM格式
- 更新样本类型22050 Hz Mono, 16-bit
- 使用文件夹wavs_export

或者，大胆：

选择Export multiple...
- 格式：wav
- 选项：签名的16位PCM
- 基于标签拆分文件
- 使用标签/曲目名称的名称文件
- 使用文件夹wavs_export
选择Export labels到Label Track.txt

分析具有信号与噪声比的WAV COLAB

运行colabs/voice_dataset_snr.ipynb
清洁或删除嘈杂的文件

用STT创建初始抄录

对于试镜，使用导出的Markers.csv和WAVS文件夹运行：

 cd scripts
python wav_to_text.py audition

该脚本生成一个新文件Markers_STT.csv 。

对于Audacity ，使用导出的Label Track.txt和Wavs文件夹运行：

 cd scripts
python wav_to_text.py audacity

该脚本生成一个新文件， Label Track STT.csv 。

微调转录

试镜：

删除所有标记
Import Markers from File ，然后选择使用stt转录的文件：markers_stt.csv
微调标记中的描述字段，以与所说的单词完全匹配

大胆：

在文本编辑器中打开Label Track STT.txt 。
微调文本文件中的标签字段以与说话的单词完全匹配

出口标记（仅试听）和WAV

试镜：

选择列表中的所有标记
选择Export Selected Markers to CSV并保存为标记。CSV
选择Export Audio of Selected Range Markers并具有以下选项：
- Use marker names in filenames
- 更新为WAV PCM格式
- 更新样本类型22050 Hz Mono, 16-bit
- 使用文件夹wavs_export

大胆：

选择Export multiple...
- 格式：wav
- 选项：签名的16位PCM
- 基于标签拆分文件
- 使用标签/曲目名称的名称文件
- 使用文件夹wavs_export

将标记（试听）或标签（Audacity）转换为ljspeech格式

使用导出的Markers.csv （试听）或Label Track STT.txt （Audacity）和Wavs_export中的WAVS，脚本/MarkersFile_to_MetAdata.py将创建一个gerdata.csv和Wav的文件夹和WAV文件夹，以训练您的TTS模型：

试镜：

python markersfile_to_metadata.py audition

大胆：

python markersfile_to_metadata.py audacity

句子长度

运行脚本/wavdurations2csv.sh以绘制句子的长度并验证您对WAV文件长度的分布良好。

其他公用事业

UPSample Wav文件

FFMPEG： ffmpeg 复活：我们测试了三种方法将WAV文件从16,000到22,050 Hz。在审查了频谱图后，我们选择了FFMPEG进行上采样，因为与复兴相比，它还包括另外2 kHz的高端信息。脚本/respamplewav.sh

 scripts/resamplewav.sh

参考

Mozilla TTS：https：//github.com/mozilla/tts
自动对齐，包括沉默的段音频，Google语音API和识别对齐：https：//github.com/carpedm20/multi-speaker-tacotron-tacotron-tensorflow#2-2-2-2-2-2-2- generate-kenerate-kenerate-korean-datasets
在大型合成库中进行预处理，并对特定的合成库进行微调https://twitter.com/garygarywang
数据集的数据集https://arxiv.org/abs/1803.09010

展开

附加信息