Wikipron เป็นเครื่องมือบรรทัดคำสั่งและ Python API สำหรับการขุดข้อมูลการออกเสียงหลายภาษาจาก Wiktionary รวมถึงฐานข้อมูลของพจนานุกรมการออกเสียงที่ขุดโดยใช้เครื่องมือนี้
หากคุณใช้ Wikipron ในการวิจัยของคุณโปรดอ้างอิงสิ่งต่อไปนี้:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy และ Kyle Gorman (2020) การออกเสียงการออกเสียงหลายภาษาอย่างหนาแน่นกับ Wikipron ใน การดำเนินการของการประชุมทรัพยากรภาษาและการประเมินผลครั้งที่ 12 หน้า 4223-4228 [bibtex]
pip install wikipron หลังจากการติดตั้งจะมีคำสั่ง terminal wikipron เป็นตัวอย่างพื้นฐานคำสั่งต่อไปนี้จะขูดข้อมูล G2P สำหรับภาษาฝรั่งเศส:
wikipron fra ภาษาถูกระบุด้วยรหัสภาษา ISO 639-3 สามตัวอักษรเช่น fra สำหรับภาษาฝรั่งเศส สำหรับภาษาใดที่สามารถคัดลอกได้นี่คือรายการภาษาที่สมบูรณ์ใน wiktionary ที่มีรายการการออกเสียง
หนึ่งสามารถเลือกภาษาถิ่นเพื่อกำหนดเป้าหมายโดยใช้ --dialect flag ชื่อภาษาถิ่นสามารถพบได้พร้อมกับการถอดความบน wiktionary ตัวอย่างเช่น "(UK, US) IPA: /təˈmːtəʊ /" ในการ จำกัด การรวมกันของภาษาถิ่นให้ใช้ตัวละครไปป์ '|': เช่น ---- --dialect='General American | US' . การถอดความที่ไม่มีข้อกำหนดภาษาถิ่นจะถูกเลือกโดยไม่คำนึงถึงค่าของธงนี้
โดยค่าเริ่มต้น Wikipron จะเลือกการออกเสียงในวงกว้างในวงเล็บมุม /เช่นนี้ / หนึ่งสามารถเลือกการถอดรหัสแคบ ๆ ที่เขียน [เช่นนี้] โดยใช้ --narrow Flag โปรดทราบว่าบางภาษามีการถอดความที่กว้างหรือแคบเท่านั้น (เช่นรัสเซียมีเพียงหลังเท่านั้น
โดยค่าเริ่มต้นไลบรารี segments จะใช้ในการแบ่งส่วนการถอดรหัสลงในช่องว่าง การแบ่งส่วนมีแนวโน้มที่จะวาง IPA diacritics และตัวดัดแปลงบนสัญลักษณ์ "ผู้ปกครอง" ตัวอย่างเช่น [kʰæt] จะแสดงผล kʰ æ t สิ่งนี้สามารถปิดการใช้งานได้โดยใช้ธง --no-segment
การถอดความบางส่วนมีวงเล็บเพื่อระบุการออกเสียงทางเลือก วงเล็บ (แต่ไม่ใช่เนื้อหา) จะถูกทิ้งในการขูดเว้นแต่จะใช้ธง --no-skip-parens
ข้อมูลที่ถูกคัดค้านจะถูกจัดระเบียบด้วยแต่ละ <คำว่าการออกเสียง> จับคู่ในบรรทัดของตัวเองซึ่งคำและการออกเสียงถูกคั่นด้วยแท็บ โปรดทราบว่าการออกเสียงนั้นอยู่ในตัวอักษรสัทศาสตร์นานาชาติ (IPA) แบ่งส่วนโดยช่องว่างที่จัดการอย่างถูกต้องและตัวดัดแปลงไดอะริติกสำหรับการสร้างแบบจำลองเช่นเรามี kʰ æ t ด้วย k ที่สำลักแทน k ʰ æ t
สำหรับภาพประกอบนี่คือข้อมูลตัวอย่างของภาษาฝรั่งเศสที่ถูกคัดลอกโดย Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃โดยค่าเริ่มต้นข้อมูลที่ถูกคัดลอกจะปรากฏขึ้นในเทอร์มินัล หากต้องการบันทึกข้อมูลในไฟล์ TSV โปรดเปลี่ยนเส้นทางเอาต์พุตมาตรฐานไปยังชื่อไฟล์ที่คุณเลือก:
wikipron fra > fra.tsv คำสั่ง wikipron Terminal มีอาร์เรย์ของตัวเลือกในการกำหนดค่าการรันการขูดของคุณ สำหรับรายการตัวเลือกทั้งหมดโปรดเรียกใช้ wikipron -h
โมดูลพื้นฐานสามารถใช้ได้จาก Python เวิร์กโฟลว์มาตรฐานดูเหมือนว่า:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...นอกจากนี้เรายังจัดทำฐานข้อมูลที่มีมากกว่า 3 ล้านคำ/การออกเสียงคู่ที่ขุดโดยใช้ wikipron
เราโฮสต์โมเดลกราฟเป็นฟอร์มและซอฟต์แวร์การสร้างแบบจำลองในที่เก็บแยกต่างหาก
ซอร์สโค้ดของ Wikipron โฮสต์บน GitHub ที่ https://github.com/CUNY-CL/wikipron ซึ่งการพัฒนาก็เกิดขึ้นเช่นกัน
สำหรับการเปลี่ยนแปลงล่าสุดที่ยังไม่ได้เปิดตัวผ่าน pip หรือทำงานบน codebase ด้วยตัวคุณเองคุณอาจได้รับซอร์สโค้ดล่าสุดผ่าน GitHub และ git :
สร้างส้อม repo wikipron ในบัญชี GitHub ของคุณ
ในพื้นที่ตรวจสอบให้แน่ใจว่าคุณอยู่ในสภาพแวดล้อมเสมือนจริง (VENV, Virtualenv, Conda, ฯลฯ )
ดาวน์โหลดและติดตั้งไลบรารีในโหมด "แก้ไขได้" พร้อมกับการพึ่งพาหลักและ dev ภายในสภาพแวดล้อมเสมือนจริง:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . เราติดตามการเปลี่ยนแปลงที่โดดเด่นใน CHANGELOG.md
สำหรับคำถามรายงานข้อผิดพลาดและคำขอคุณสมบัติโปรดยื่นปัญหา
หากคุณต้องการมีส่วนร่วมใน wikipron Codebase โปรดดูที่ Intedning.md
Wikipron เปิดตัวภายใต้ใบอนุญาต Apache 2.0 โปรดดูใบอนุญาตสำหรับรายละเอียด
โปรดทราบว่าข้อมูล wiktionary ใน data/ Directory มีเงื่อนไขการออกใบอนุญาตของตัวเอง