Aeneas เป็นไลบรารี Python/C และชุดเครื่องมือในการซิงโครไนซ์เสียงและข้อความโดยอัตโนมัติ
Aeneas สร้าง แผนที่การซิงโครไนซ์ โดยอัตโนมัติระหว่างรายการชิ้นส่วนข้อความและไฟล์เสียงที่มีการบรรยายของข้อความ ในวิทยาศาสตร์คอมพิวเตอร์งานนี้เรียกว่า (คำนวณโดยอัตโนมัติ) การจัดตำแหน่งบังคับ
ตัวอย่างเช่นเมื่อได้รับไฟล์ข้อความนี้และไฟล์เสียงนี้ Aeneas จะกำหนดสำหรับแต่ละส่วนช่วงเวลาที่สอดคล้องกันในไฟล์เสียง:
1 => [00:00:00.000, 00:00:02.640]
From fairest creatures we desire increase, => [00:00:02.640, 00:00:05.880]
That thereby beauty's rose might never die, => [00:00:05.880, 00:00:09.240]
But as the riper should by time decease, => [00:00:09.240, 00:00:11.920]
His tender heir might bear his memory: => [00:00:11.920, 00:00:15.280]
But thou contracted to thine own bright eyes, => [00:00:15.280, 00:00:18.800]
Feed'st thy light's flame with self-substantial fuel, => [00:00:18.800, 00:00:22.760]
Making a famine where abundance lies, => [00:00:22.760, 00:00:25.680]
Thy self thy foe, to thy sweet self too cruel: => [00:00:25.680, 00:00:31.240]
Thou that art now the world's fresh ornament, => [00:00:31.240, 00:00:34.400]
And only herald to the gaudy spring, => [00:00:34.400, 00:00:36.920]
Within thine own bud buriest thy content, => [00:00:36.920, 00:00:40.640]
And tender churl mak'st waste in niggarding: => [00:00:40.640, 00:00:43.640]
Pity the world, or else this glutton be, => [00:00:43.640, 00:00:48.080]
To eat the world's due, by the grave and thee. => [00:00:48.080, 00:00:53.240]

แผนที่ซิงโครไนซ์นี้สามารถส่งออกไปยังไฟล์ในหลายรูปแบบขึ้นอยู่กับแอปพลิเคชัน:
BeautifulSoup4 , lxml และ numpyAeneas ได้รับการพัฒนาและทดสอบใน Debian 64bit ด้วย Python 2.7 และ Python 3.5 ซึ่งเป็น แพลตฟอร์มที่รองรับเพียงอย่างเดียว ในขณะนี้ อย่างไรก็ตาม Aeneas ได้รับการยืนยันว่าทำงานเกี่ยวกับการแจกแจง Linux อื่น ๆ Mac OS X และ Windows ดูรายละเอียดไฟล์แพลตฟอร์ม
หากการติดตั้ง Aeneas บนระบบปฏิบัติการของคุณพิสูจน์ได้ยากคุณได้รับการสนับสนุนอย่างยิ่งให้ใช้ Aeneas-Vagrant ซึ่งให้ Aeneas ภายในภาพ Debian เสมือนจริงที่ทำงานภายใต้ VirtualBox และ Vagrant ซึ่งสามารถติดตั้งบนระบบปฏิบัติการที่ทันสมัย (Linux, Mac OS X, Windows)
ตัวติดตั้ง All-in-One มีให้สำหรับ Mac OS X และ Windows และสคริปต์ Bash สำหรับการแจกแจง Linux ที่ใช้ DEB (Debian, Ubuntu) มีให้ในที่เก็บนี้ นอกจากนี้ยังเป็นไปได้ที่จะดาวน์โหลด VirtualBox+Vagrant Virtual Machine โปรดดูไฟล์ติดตั้งสำหรับขั้นตอนการติดตั้งแบบทีละขั้นตอนโดยละเอียดสำหรับระบบปฏิบัติการที่แตกต่างกัน
ขั้นตอนที่ไม่ขึ้นกับระบบปฏิบัติการทั่วไปนั้นง่าย:
ติดตั้ง Python (2.7.x ที่ต้องการ), ffmpeg และ espeak
ตรวจสอบให้แน่ใจว่าสามารถเรียก ใช้งาน ได้จาก เชลล์ ของคุณ: espeak , ffmpeg , ffprobe , pip และ python
ก่อนอื่นติดตั้ง numpy ด้วย pip และจากนั้น aeneas (คำสั่งนี้มีความสำคัญ):
pip install numpy
pip install aeneasหากต้องการ ตรวจสอบ ว่าคุณติดตั้ง aeneas อย่างถูกต้องให้เรียกใช้:
python -m aeneas.diagnosticsเรียกใช้โดยไม่มีข้อโต้แย้งเพื่อรับ ข้อความการใช้งาน :
python -m aeneas.tools.execute_task
python -m aeneas.tools.execute_jobนอกจากนี้คุณยังสามารถรับรายการ ตัวอย่างสด ที่คุณสามารถทำงานบนเครื่องได้ทันทีด้วยไฟล์ที่รวมอยู่ด้วย:
python -m aeneas.tools.execute_task --examples
python -m aeneas.tools.execute_task --examples-all ใน การคำนวณแผนที่การซิงโครไนซ์ map.json สำหรับคู่ ( audio.mp3 , text.txt ในรูปแบบข้อความธรรมดา) คุณสามารถเรียกใช้:
python -m aeneas.tools.execute_task
audio.mp3
text.txt
" task_language=eng|os_task_file_format=json|is_text_type=plain "
map.json (คำสั่งถูกแบ่งออกเป็นบรรทัดที่มี สำหรับความชัดเจนของภาพ; ในการผลิตคุณสามารถมีคำสั่งทั้งหมดในบรรทัดเดียวและ/หรือคุณสามารถใช้ตัวแปรเชลล์ได้)
ใน การคำนวณแผนที่แผนที่ map.smil งโครไนซ์ Smil สำหรับคู่ ( audio.mp3 , page.xhtml ที่มีส่วนที่ทำเครื่องหมายด้วยแอตทริบิวต์ id เช่น f001 ) คุณสามารถเรียกใช้:
python -m aeneas.tools.execute_task
audio.mp3
page.xhtml
" task_language=eng|os_task_file_format=smil|os_task_file_smil_audio_ref=audio.mp3|os_task_file_smil_page_ref=page.xhtml|is_text_type=unparsed|is_text_unparsed_id_regex=f[0-9]+|is_text_unparsed_id_sort=numeric "
map.smilอย่างที่คุณเห็นอาร์กิวเมนต์ที่สาม ( สตริงการกำหนดค่า ) ระบุพารามิเตอร์ที่ควบคุมรูปแบบ I/O และตัวเลือกการประมวลผลสำหรับงาน ปรึกษาเอกสารสำหรับรายละเอียด
หากคุณมีงานหลายอย่างในการดำเนินการคุณสามารถสร้าง งานคอนเทนเนอร์งาน เพื่อดำเนินการแบทช์:
python -m aeneas.tools.execute_job job.zip output_directory file job.zip ควรมีไฟล์กำหนดค่า config.txt หรือ config.xml ให้ ข้อมูล ทั้งหมดที่จำเป็นในการแยกวิเคราะห์สินทรัพย์อินพุตและจัดรูปแบบไฟล์แผนที่ซิงค์เอาต์พุต ปรึกษาเอกสารสำหรับรายละเอียด
เอกสารประกอบมีการสอนที่แนะนำอย่างมากซึ่งอธิบายวิธีการใช้เครื่องมือบรรทัดคำสั่งในตัว
parsed , plain , subtitles หรือรูปแบบ unparsed (xml)mplain และ munparsed (xml)id และ class คุณลักษณะffmpegfinetuneas )ผู้ใช้จำนวนมากเรียกใช้ Aeneas เพื่อจัดเรียงเสียงและข้อความที่ระดับคำ (เช่นแต่ละส่วนเป็นคำ) แม้ว่า Aeneas จะไม่ได้รับการออกแบบโดยคำนึงถึงการจัดตำแหน่งระดับคำและผลลัพธ์อาจด้อยกว่าการจัดตำแหน่งแบบบังคับใช้ ASR สำหรับภาษาที่มีโมเดล ASR ที่ดี Aeneas เสนอตัวเลือกบางอย่างเพื่อปรับปรุงคุณภาพของการจัดตำแหน่งในระดับคำ:
หากคุณใช้เครื่องมือบรรทัดคำสั่ง aeneas.tools.execute_task คุณสามารถเพิ่ม --presets-word switch เพื่อเปิดใช้งาน MFCC Nonspeech Masking ตัวอย่างเช่น:
$ python -m aeneas.tools.execute_task --example-words --presets-word
$ python -m aeneas.tools.execute_task --example-words-multilevel --presets-word หากคุณใช้ Aeneas เป็นไลบรารีให้ตั้งค่าพารามิเตอร์ RuntimeConfiguration ที่เหมาะสม โปรดดูรายละเอียดการสอนบรรทัดคำสั่ง
Aeneas ได้รับการปล่อยตัวภายใต้ข้อกำหนดของ GNU Affero Public Public Licension เวอร์ชัน 3 ดูไฟล์ใบอนุญาตสำหรับรายละเอียด
ใบอนุญาตสำหรับรหัสบุคคลที่สามและไฟล์ที่รวมอยู่ใน Aeneas สามารถพบได้ในไดเรกทอรีใบอนุญาต
ไม่มีสิทธิ์ในการคัดลอกที่ได้รับอันตรายในการสร้างโครงการนี้
กรกฎาคม 2558 : Michele Gianella สนับสนุนการพัฒนารหัสการปรับขอบเขต (v1.0.4) อย่างไม่เห็นแก่ตัว
สิงหาคม 2558 : Michele Gianella สนับสนุนพอร์ตของรหัส MFCC/DTW บางส่วนเป็น C (v1.1.0)
กันยายน 2558 : เพื่อนในแอฟริกาตะวันตกสนับสนุนการพัฒนารหัสตรวจจับศีรษะ/หาง (v1.2.0) บางส่วน
ตุลาคม 2558 : การบริจาคที่ไม่ระบุชื่อสนับสนุนการพัฒนาตัวเลือก "YouTube Downloader" (v1.3.0)
เมษายน 2559 : มูลนิธิ Fruch กรุณาสนับสนุนการพัฒนาและเอกสารของ v1.5.0
ธันวาคม 2559 : Centro Internazionale del Libro Parlato "Adriano Sernagiotto" (Feltre, อิตาลี) สนับสนุนการพัฒนาซีรีส์ v1.7 บางส่วน
คุณต้องการสนับสนุนการพัฒนาของ Aeneas หรือไม่?
ฉันยอมรับสปอนเซอร์ให้
อย่าลังเลที่จะติดต่อ
หากคุณคิดว่าคุณพบข้อผิดพลาดหรือคุณมีคำขอคุณสมบัติโปรดใช้ตัวติดตามปัญหา GitHub เพื่อส่ง
หากคุณต้องการถามคำถามเกี่ยวกับการใช้ Aeneas ตัวเลือกที่ดีที่สุดของคุณประกอบด้วยการส่งอีเมลไปยังรายชื่อผู้รับจดหมาย
ในที่สุดก็ยินดีต้อนรับการบริจาครหัส! โปรดดูคู่มือการบริจาครหัสสำหรับรายละเอียดเกี่ยวกับนโยบายสาขาและรูปแบบรหัสที่จะปฏิบัติตาม
ขอบคุณมากสำหรับ Nicola Montecchio ผู้แนะนำให้ใช้ MFCCs และ DTW และพัฒนารหัสทดลองครั้งแรกเพื่อจัดแนวเสียงและข้อความ
Paolo Bertasi ผู้พัฒนา API และเว็บแอปพลิเคชันสำหรับการซิงค์ readbeyond ช่วยสร้างโครงสร้างของแพ็คเกจนี้สำหรับการใช้งานแบบอะซิงโครนัส
Chris Hubbard เตรียมไฟล์สำหรับบรรจุภัณฑ์ aeneas เป็น debian/ubuntu .deb
Daniel Bair ได้เตรียมสูตร brew สำหรับการติดตั้ง aeneas และการพึ่งพาของมันใน Mac OS X
Daniel Bair , Chris Hubbard และ Richard Margetts บรรจุตัวติดตั้งสำหรับ Mac OS X และ Windows
Firat Ozdemir สนับสนุนรหัส finetuneas HTML/JS สำหรับแผนที่การปรับแต่งอย่างละเอียดในเบราว์เซอร์
Willem van der Walt สนับสนุนโค้ดตัวอย่างเพื่อส่งออกแผนที่ซิงค์ในรูปแบบ TextGrid
Chris Vaughn สนับสนุน Wrapper MacOS TTS
ผู้มีส่วนร่วม GitHub ผู้ยิ่งใหญ่ทั้งหมดและสมาชิกของกลุ่ม Google