Wikipron adalah alat baris perintah dan API Python untuk menambang data pengucapan multibahasa dari Wiktionary, serta database kamus pengucapan yang ditambang menggunakan alat ini.
Jika Anda menggunakan wikipron dalam penelitian Anda, silakan kutip yang berikut:
Jackson L. Lee, Lucas Fe Ashby, M. Elizabeth Garza, Yeonju Lee-Sikka, Sean Miller, Alan Wong, Arya D. McCarthy, dan Kyle Gorman (2020). Penambangan pengucapan multibahasa yang besar dengan wikipron. Dalam Prosiding Konferensi Sumber Daya dan Evaluasi Bahasa ke-12 , halaman 4223-4228. [Bibtex]
pip install wikipron Setelah instalasi, wikipron perintah terminal akan tersedia. Sebagai contoh dasar, perintah berikut menggosok data G2P untuk bahasa Prancis:
wikipron fra Bahasa ini ditunjukkan oleh kode bahasa ISO 639-3 tiga huruf, misalnya, fra untuk bahasa Prancis. Untuk bahasa mana yang dapat dikikis, berikut adalah daftar lengkap bahasa di Wiktionary yang memiliki entri pengucapan.
Seseorang dapat secara opsional menentukan dialek untuk ditargetkan menggunakan -bendera --dialect . Nama dialek dapat ditemukan bersama dengan transkripsi pada wiktionary. Misalnya, "(Inggris, AS) IPA: /təˈm nyaːtəʊ /". Untuk membatasi penyatuan dialek menggunakan karakter pipa '|': misalnya, --dialect='General American | US' . Transkripsi yang tidak memiliki spesifikasi dialek dipilih terlepas dari nilai bendera ini.
Secara default, Wikipron memilih pengucapan luas dalam kurung miring /seperti ini /. Seseorang dapat memilih transkripsi sempit yang ditulis [seperti ini] menggunakan bendera --narrow . Perhatikan bahwa beberapa bahasa hanya memiliki transkripsi yang luas atau sempit (misalnya, Rusia hanya memiliki yang terakhir.
Secara default, pustaka segments digunakan untuk segmen transkripsi ke whitespace. Segmentasi cenderung menempatkan diakritik IPA dan pengubah pada simbol "induk". Misalnya, [kʰæt] diterjemahkan kʰ æ t . Ini dapat dinonaktifkan menggunakan flag --no-segment .
Beberapa transkripsi berisi tanda kurung untuk menunjukkan pengucapan alternatif. Tanda kurung (tetapi bukan konten) dibuang dalam gesekan kecuali bendera --no-skip-parens digunakan.
Data yang dikikis disusun dengan masing -masing <kata, pengucapan> pasangan pada garisnya sendiri, di mana kata dan pengucapan dipisahkan oleh tab. Perhatikan bahwa pengucapannya dalam alfabet fonetik internasional (IPA), tersegmentasi oleh ruang yang dengan benar menangani diakritik kombinasi dan pengubah untuk keperluan pemodelan, misalnya, kami memiliki kʰ æ t dengan k yang disedot alih -alih k ʰ æ t .
Untuk ilustrasi, berikut adalah cuplikan data Prancis yang dikikis oleh Wikipron:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃Secara default, data yang dikikis muncul di terminal. Untuk menyimpan data dalam file TSV, silakan arahkan output standar ke nama file pilihan Anda:
wikipron fra > fra.tsv Perintah terminal wikipron memiliki serangkaian opsi untuk mengonfigurasi menjalankan pengikis Anda. Untuk daftar lengkap opsi, silakan jalankan wikipron -h .
Modul yang mendasari juga dapat digunakan dari Python. Alur kerja standar terlihat seperti:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...Kami juga menyediakan database lebih dari 3 juta pasangan/pengucapan pasangan yang ditambang menggunakan wikipron.
Kami meng-host model grapheme-to-phoneme dan perangkat lunak pemodelan dalam repositori terpisah.
Kode Sumber Wikipron di-host di GitHub di https://github.com/CUNY-CL/wikipron , di mana pengembangan juga terjadi.
Untuk perubahan terbaru yang belum dirilis melalui pip atau mengerjakan basis kode sendiri, Anda dapat memperoleh kode sumber terbaru melalui GitHub dan git :
Buat garpu repo wikipron di akun GitHub Anda.
Secara lokal, pastikan Anda berada di semacam lingkungan virtual (VENV, VirtualEnv, Conda, dll).
Unduh dan instal perpustakaan dalam mode "dapat diedit" bersama dengan ketergantungan inti dan dev dalam lingkungan virtual:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . Kami melacak perubahan penting di CHANGELOG.md .
Untuk pertanyaan, laporan bug, dan permintaan fitur, silakan mengajukan masalah.
Jika Anda ingin berkontribusi pada basis kode wikipron , silakan lihat Contributing.md.
Wikipron dirilis di bawah lisensi Apache 2.0. Silakan lihat lisensi.txt untuk detailnya.
Harap dicatat bahwa data wiktioner di data/ direktori memiliki persyaratan lisensi sendiri.