埃涅阿斯是Python/c库,也是一组自动同步音频和文本的工具(又称强制对齐)。
埃涅阿斯自动在文本片段列表和包含文本叙述的音频文件之间自动生成同步图。在计算机科学中,此任务称为(自动计算A)强制对齐。
例如,给定此文本文件和此音频文件, AENEAS为每个片段确定音频文件中的相应时间间隔:
1 => [00:00:00.000, 00:00:02.640]
From fairest creatures we desire increase, => [00:00:02.640, 00:00:05.880]
That thereby beauty's rose might never die, => [00:00:05.880, 00:00:09.240]
But as the riper should by time decease, => [00:00:09.240, 00:00:11.920]
His tender heir might bear his memory: => [00:00:11.920, 00:00:15.280]
But thou contracted to thine own bright eyes, => [00:00:15.280, 00:00:18.800]
Feed'st thy light's flame with self-substantial fuel, => [00:00:18.800, 00:00:22.760]
Making a famine where abundance lies, => [00:00:22.760, 00:00:25.680]
Thy self thy foe, to thy sweet self too cruel: => [00:00:25.680, 00:00:31.240]
Thou that art now the world's fresh ornament, => [00:00:31.240, 00:00:34.400]
And only herald to the gaudy spring, => [00:00:34.400, 00:00:36.920]
Within thine own bud buriest thy content, => [00:00:36.920, 00:00:40.640]
And tender churl mak'st waste in niggarding: => [00:00:40.640, 00:00:43.640]
Pity the world, or else this glutton be, => [00:00:43.640, 00:00:48.080]
To eat the world's due, by the grave and thee. => [00:00:48.080, 00:00:53.240]

该同步图可以以多种格式输出以归档,具体取决于其应用程序:
BeautifulSoup4 , lxml和numpy埃涅阿斯已经在Debian 64bit上开发和测试,其中Python 2.7和Python 3.5是目前唯一受支持的平台。然而,埃涅阿斯已被确认可以从事其他Linux发行版,Mac OS X和Windows。有关详细信息,请参见平台文件。
如果在您的操作系统上本地安装AENEAS ,则强烈建议您使用埃涅阿斯 - 瓦格兰(Eeneas-vagrant),该eNeas- vagrant在虚拟化的debian映像中提供了在VirtualBox和Vagrant下运行的debian映像,可以安装在任何现代OS上(Linux,Mac OS X,Windows)。
大型安装程序可用于Mac OS X和Windows,并且在此存储库中提供了用于基于DEB的Linux发行版(Debian,Ubuntu)的BASH脚本。也可以下载VirtualBox+Vagrant虚拟机。请参阅安装文件,以获取针对不同操作系统的详细的逐步安装过程。
通用OS独立的过程很简单:
安装python(2.7.x首选),ffmpeg和Espeak
确保可以从您的外壳中调用以下可执行文件: espeak , ffmpeg , ffprobe , pip和python
首先将numpy与pip安装,然后aeneas (此订单很重要):
pip install numpy
pip install aeneas要检查您是否正确安装了埃涅阿斯,请运行:
python -m aeneas.diagnostics在没有争论的情况下运行以获取用法消息:
python -m aeneas.tools.execute_task
python -m aeneas.tools.execute_job您还可以获取一个实时示例列表,您可以通过随附的文件立即在计算机上运行,以下内容:
python -m aeneas.tools.execute_task --examples
python -m aeneas.tools.execute_task --examples-all要计算一text.txt同步映射map.json audio.mp3
python -m aeneas.tools.execute_task
audio.mp3
text.txt
" task_language=eng|os_task_file_format=json|is_text_type=plain "
map.json (以视觉清晰度,该命令已将其分为 ;在生产中,您可以将整个命令在一行上和/或可以使用shell变量。)
要计算f001对的同步id map.smil audio.mp3
python -m aeneas.tools.execute_task
audio.mp3
page.xhtml
" task_language=eng|os_task_file_format=smil|os_task_file_smil_audio_ref=audio.mp3|os_task_file_smil_page_ref=page.xhtml|is_text_type=unparsed|is_text_unparsed_id_regex=f[0-9]+|is_text_unparsed_id_sort=numeric "
map.smil如您所见,第三个参数(配置字符串)指定了控制I/O格式的参数和任务的处理选项。有关详细信息,请咨询文档。
如果您有几个任务要处理,则可以创建一个作业容器来批处理处理:
python -m aeneas.tools.execute_job job.zip output_directory File job.zip应包含config.txt或config.xml配置文件,为AENEAS提供解析输入资产所需的所有信息,并格式化输出同步地图文件。有关详细信息,请咨询文档。
该文档包含一个强烈建议的教程,该教程说明了如何使用内置命令行工具。
parsed , plain , subtitles或unparsed (XML)格式的输入文件mplain和munparsed (XML)格式的多级输入文本文件id和class属性从XML(例如XHTML)文件中提取文本ffmpeg读取的内容finetuneas Project)大量用户可以在Word级时运行AENEAS ,以使音频和文本对齐(即,每个片段都是一个单词)。尽管埃涅阿斯(Aeneas)的设计并不考虑单词级别的对齐方式,结果可能不如基于ASR的强迫对准者对具有良好ASR模型的语言的强迫对准器,但AENEAS提供了一些选择来提高Word级别的对齐质量:
如果您使用aeneas.tools.execute_task命令行工具,则可以添加--presets-word Switch来启用MFCC NONSPEECH屏蔽,例如:
$ python -m aeneas.tools.execute_task --example-words --presets-word
$ python -m aeneas.tools.execute_task --example-words-multilevel --presets-word如果使用埃涅阿斯作为库,只需设置适当的RuntimeConfiguration参数即可。请参阅命令行教程以获取详细信息。
埃涅阿斯按照GNU Affero通用公共许可版本3的条款发布。有关详细信息,请参见许可证文件。
可以在许可证目录中找到第三方代码和文件中包含的文件的许可。
该项目的制造没有任何副本权利受到损害。
2015年7月:Michele Gianella慷慨地支持了《边界调整法》的制定(v1.0.4)
2015年8月:Michele Gianella部分赞助了MFCC/DTW代码的港口(v1.1.0)
2015年9月:西非的朋友部分赞助了头部/尾部检测代码的开发(v1.2.0)
2015年10月:匿名捐赠赞助了“ YouTube下载器”选项的开发(v1.3.0)
2016年4月:Fruch基金会友好赞助了V1.5.0的开发和文档
2016年12月:Centro Interro Internale del Libro Parlato“ Adriano Sernagiotto”(意大利Feltre)部分赞助了V1.7系列的开发
您想支持埃涅阿斯的发展吗?
我接受赞助
随时取得联系。
如果您认为找到错误或有功能请求,请使用GitHub Disears Tracker提交。
如果您想询问有关使用埃涅阿斯的问题,那么您的最佳选择就是将电子邮件发送到邮件列表。
最后,欢迎代码贡献!有关分支策略和要遵循的代码样式的详细信息,请参阅《代码贡献指南》。
非常感谢Nicola Montecchio建议使用MFCC和DTW,并共同开发了第一个实验代码,以对齐音频和文本。
Paolo Bertasi开发了ReadBeyond Sync的API和Web应用程序,帮助塑造了该软件包的结构,以进行异步使用。
克里斯·哈伯德(Chris Hubbard)准备了以debian/ubuntu .deb包装埃涅阿斯的文件。
丹尼尔·贝尔(Daniel Bair)准备了安装埃涅阿斯(Aeneas)及其依赖性的brew公式。
Daniel Bair , Chris Hubbard和Richard Margetts为Mac OS X和Windows打包了安装程序。
Firat Ozdemir为浏览器中的微调同步图提供了finetuneas HTML/JS代码。
Willem van der Walt贡献了代码片段,以输出TextGrid格式的同步地图。
克里斯·沃恩(Chris Vaughn)贡献了Macos TTS包装纸。
所有强大的Github贡献者和Google Group的成员。