埃涅阿斯是Python/c庫,也是一組自動同步音頻和文本的工具(又稱強制對齊)。
埃涅阿斯自動在文本片段列表和包含文本敘述的音頻文件之間自動生成同步圖。在計算機科學中,此任務稱為(自動計算A)強制對齊。
例如,給定此文本文件和此音頻文件, AENEAS為每個片段確定音頻文件中的相應時間間隔:
1 => [00:00:00.000, 00:00:02.640]
From fairest creatures we desire increase, => [00:00:02.640, 00:00:05.880]
That thereby beauty's rose might never die, => [00:00:05.880, 00:00:09.240]
But as the riper should by time decease, => [00:00:09.240, 00:00:11.920]
His tender heir might bear his memory: => [00:00:11.920, 00:00:15.280]
But thou contracted to thine own bright eyes, => [00:00:15.280, 00:00:18.800]
Feed'st thy light's flame with self-substantial fuel, => [00:00:18.800, 00:00:22.760]
Making a famine where abundance lies, => [00:00:22.760, 00:00:25.680]
Thy self thy foe, to thy sweet self too cruel: => [00:00:25.680, 00:00:31.240]
Thou that art now the world's fresh ornament, => [00:00:31.240, 00:00:34.400]
And only herald to the gaudy spring, => [00:00:34.400, 00:00:36.920]
Within thine own bud buriest thy content, => [00:00:36.920, 00:00:40.640]
And tender churl mak'st waste in niggarding: => [00:00:40.640, 00:00:43.640]
Pity the world, or else this glutton be, => [00:00:43.640, 00:00:48.080]
To eat the world's due, by the grave and thee. => [00:00:48.080, 00:00:53.240]

該同步圖可以以多種格式輸出以歸檔,具體取決於其應用程序:
BeautifulSoup4 , lxml和numpy埃涅阿斯已經在Debian 64bit上開發和測試,其中Python 2.7和Python 3.5是目前唯一受支持的平台。然而,埃涅阿斯已被確認可以從事其他Linux發行版,Mac OS X和Windows。有關詳細信息,請參見平台文件。
如果在您的操作系統上本地安裝AENEAS ,則強烈建議您使用埃涅阿斯 - 瓦格蘭(Eeneas-vagrant),該eNeas- vagrant在虛擬化的debian映像中提供了在VirtualBox和Vagrant下運行的debian映像,可以安裝在任何現代OS上(Linux,Mac OS X,Windows)。
大型安裝程序可用於Mac OS X和Windows,並且在此存儲庫中提供了用於基於DEB的Linux發行版(Debian,Ubuntu)的BASH腳本。也可以下載VirtualBox+Vagrant虛擬機。請參閱安裝文件,以獲取針對不同操作系統的詳細的逐步安裝過程。
通用OS獨立的過程很簡單:
安裝python(2.7.x首選),ffmpeg和Espeak
確保可以從您的外殼中調用以下可執行文件: espeak , ffmpeg , ffprobe , pip和python
首先將numpy與pip安裝,然後aeneas (此訂單很重要):
pip install numpy
pip install aeneas要檢查您是否正確安裝了埃涅阿斯,請運行:
python -m aeneas.diagnostics在沒有爭論的情況下運行以獲取用法消息:
python -m aeneas.tools.execute_task
python -m aeneas.tools.execute_job您還可以獲取一個實時示例列表,您可以通過隨附的文件立即在計算機上運行,以下內容:
python -m aeneas.tools.execute_task --examples
python -m aeneas.tools.execute_task --examples-all要計算一text.txt同步映射map.json audio.mp3
python -m aeneas.tools.execute_task
audio.mp3
text.txt
" task_language=eng|os_task_file_format=json|is_text_type=plain "
map.json (以視覺清晰度,該命令已將其分為 ;在生產中,您可以將整個命令在一行上和/或可以使用shell變量。)
要計算f001對的同步id map.smil audio.mp3
python -m aeneas.tools.execute_task
audio.mp3
page.xhtml
" task_language=eng|os_task_file_format=smil|os_task_file_smil_audio_ref=audio.mp3|os_task_file_smil_page_ref=page.xhtml|is_text_type=unparsed|is_text_unparsed_id_regex=f[0-9]+|is_text_unparsed_id_sort=numeric "
map.smil如您所見,第三個參數(配置字符串)指定了控制I/O格式的參數和任務的處理選項。有關詳細信息,請諮詢文檔。
如果您有幾個任務要處理,則可以創建一個作業容器來批處理處理:
python -m aeneas.tools.execute_job job.zip output_directory File job.zip應包含config.txt或config.xml配置文件,為AENEAS提供解析輸入資產所需的所有信息,並格式化輸出同步地圖文件。有關詳細信息,請諮詢文檔。
該文檔包含一個強烈建議的教程,該教程說明瞭如何使用內置命令行工具。
parsed , plain , subtitles或unparsed (XML)格式的輸入文件mplain和munparsed (XML)格式的多級輸入文本文件id和class屬性從XML(例如XHTML)文件中提取文本ffmpeg讀取的內容finetuneas Project)大量用戶可以在Word級時運行AENEAS ,以使音頻和文本對齊(即,每個片段都是一個單詞)。儘管埃涅阿斯(Aeneas)的設計並不考慮單詞級別的對齊方式,結果可能不如基於ASR的強迫對準者對具有良好ASR模型的語言的強迫對準器,但AENEAS提供了一些選擇來提高Word級別的對齊質量:
如果您使用aeneas.tools.execute_task命令行工具,則可以添加--presets-word Switch來啟用MFCC NONSPEECH屏蔽,例如:
$ python -m aeneas.tools.execute_task --example-words --presets-word
$ python -m aeneas.tools.execute_task --example-words-multilevel --presets-word如果使用埃涅阿斯作為庫,只需設置適當的RuntimeConfiguration參數即可。請參閱命令行教程以獲取詳細信息。
埃涅阿斯按照GNU Affero通用公共許可版本3的條款發布。有關詳細信息,請參見許可證文件。
可以在許可證目錄中找到第三方代碼和文件中包含的文件的許可。
該項目的製造沒有任何副本權利受到損害。
2015年7月:Michele Gianella慷慨地支持了《邊界調整法》的製定(v1.0.4)
2015年8月:Michele Gianella部分贊助了MFCC/DTW代碼的港口(v1.1.0)
2015年9月:西非的朋友部分贊助了頭部/尾部檢測代碼的開發(v1.2.0)
2015年10月:匿名捐贈贊助了“ YouTube下載器”選項的開發(v1.3.0)
2016年4月:Fruch基金會友好贊助了V1.5.0的開發和文檔
2016年12月:Centro Interro Internale del Libro Parlato“ Adriano Sernagiotto”(意大利Feltre)部分贊助了V1.7系列的開發
您想支持埃涅阿斯的發展嗎?
我接受讚助
隨時取得聯繫。
如果您認為找到錯誤或有功能請求,請使用GitHub Disears Tracker提交。
如果您想詢問有關使用埃涅阿斯的問題,那麼您的最佳選擇就是將電子郵件發送到郵件列表。
最後,歡迎代碼貢獻!有關分支策略和要遵循的代碼樣式的詳細信息,請參閱《代碼貢獻指南》。
非常感謝Nicola Montecchio建議使用MFCC和DTW,並共同開發了第一個實驗代碼,以對齊音頻和文本。
Paolo Bertasi開發了ReadBeyond Sync的API和Web應用程序,幫助塑造了該軟件包的結構,以進行異步使用。
克里斯·哈伯德(Chris Hubbard)準備了以debian/ubuntu .deb包裝埃涅阿斯的文件。
丹尼爾·貝爾(Daniel Bair)準備了安裝埃涅阿斯(Aeneas)及其依賴性的brew公式。
Daniel Bair , Chris Hubbard和Richard Margetts為Mac OS X和Windows打包了安裝程序。
Firat Ozdemir為瀏覽器中的微調同步圖提供了finetuneas HTML/JS代碼。
Willem van der Walt貢獻了代碼片段,以輸出TextGrid格式的同步地圖。
克里斯·沃恩(Chris Vaughn)貢獻了Macos TTS包裝紙。
所有強大的Github貢獻者和Google Group的成員。