该项目为Android TTS服务提供了冰岛TTS应用程序。该项目的当前状态已准备就绪。
该应用程序可在Google Play商店中找到。
símarómur提供了通过资产捆绑的神经网络的启用神经网络的访问权限。
目前,有一个男性声音,名为Steinn 。这种声音不仅容易理解,而且具有令人愉悦且引人入胜的音调,使其成为一种多功能,通用的选项,为冰岛的智障文本文本到语音(TTS)技术设定了标准。它非常适合阅读简短和冗长的文本,提供一致的聆听体验。
我们目前正在开发一种多演讲型模型,该模型将包括女性声音,计划将来发行。
用户可以添加归一化条目,以适应单词或令牌的替代发音。这些替代发音优先于内置的归一化规则,并将指定的替代品应用于正在阅读的文本中发现的任何此类术语。
为了简化用法,可以在素水平上进行替换,而无需理解或使用正则表达语法。用户可以通过使用播放按钮立即听到使用当前语音的输入术语及其替换声音的方式。
默认情况下,用户归一化词典开始空。目前,不支持导入或导出字典。
冰岛文本归一化是在文本进入G2P之前进行的。本地语音G2P是基于规则的,并使用C ++框架Thrax&OpenFST实现,该框架可通过JNI访问。
弃用的声音和以前的神经网络声音。如今,Flite声音已经过时,我们正在使用纯粹的神经网络声音。 FLITE项目几乎无法维护,并且神经网络声音的运行时性能正在迅速闭幕。我们可以在像素6手机上使用神经网络模型实现25倍实时速度。
神经网络模型基于VIT,并通过Piper TT进行了训练。
该项目使用我们的OpenFST和Thrax版本和适当的修复程序,为Android内部的android构建。在编译Símarómur之前,请先构建并安装这些。
对于我们的CI工作,我们已经预先建立了所有依赖的库,并在其相应的项目网站上以GitHub发布资产出版。您可以利用这些优势,并通过以下过程在项目目录中本地安装它们:
设置了用于使用的版本版本的环境变量,例如:
export OPENFST_TAG=1.8.1-android
export THRAX_TAG=1.3.6-android然后运行此脚本:
.github/scripts/dl_3rdparty.sh这应该下载并将所有必要的二进制文件提取到子目录3rdparty/ndk 。
通过
git submodule update --init然后创建local.properties如果尚不存在,并为已安装的OpenFST/Thrax库添加变量3rdparty.dir ,例如
3rdparty.dir=/Users/fred/install-android
或者,如果您已通过dl_3rdparty.sh下载了我们的发行版,请将这些变量指向您的项目目录simaromur/3rdparty/ndk ,例如:
3rdparty.dir=/Users/fred/projects/simaromur/3rdparty/ndk
根据您已安装的NDK版本,适应/build.gradle内部的可变ndkVersion也可能有必要。然后在Android Studio中构建项目。
您可以通过分配该项目,创建分支并打开新的拉力请求来为此项目做出贡献。
所有代码均为版权©2021-2024 Grammatek EHF。此代码是根据Apache许可证获得许可的。
我们使用3rdparty库Sonic进行音频速度和音高操纵。 Sonic是Bill Cox 2011年版权所有,并获得Apache许可证的许可。 Símarómur为G2P使用改编版的Thrax和OpenFST。这些也是根据Apache许可证获得许可的。此外,我们使用OpenNLP进行令牌化和句子分裂。 OpenNLP已获得Apache许可证的许可。
该软件的很大一部分是在此处和此处描述的冰岛政府5年语言技术计划的主持下开发的(英语)。