تنزيل wikipron - تنزيل رمز مصدر wikipron

wikipron

شفرة المصدر الأخرى

v1.3.3

تنزيل

ويكيبرون

Wikipron هي أداة سطر الأوامر و API Python لاستخراج بيانات النطق متعدد اللغات من Wiktionary ، بالإضافة إلى قاعدة بيانات لقواميس النطق المخصصة باستخدام هذه الأداة.

أداة سطر الأوامر
بيثون API
بيانات
النماذج
تطوير

إذا كنت تستخدم Wikipron في بحثك ، فيرجى الاستشهاد بما يلي:

Jackson L. Lee ، Lucas Fe Ashby ، M. Elizabeth Garza ، Yeonju Lee-Sikka ، Sean Miller ، Alan Wong ، Arya D. McCarthy ، and Kyle Gorman (2020). تعدين النطق متعدد اللغات على نطاق واسع مع ويكيبرون. في وقائع مؤتمر الموارد والتقييم في اللغة الثانية عشرة ، الصفحات 4223-4228. [Bibtex]

أداة سطر الأوامر

تثبيت

pip install wikipron

الاستخدام

بداية سريعة

بعد التثبيت ، سيكون wikipron أمر terminal متاحًا. كمثال أساسي ، يقوم الأمر التالي بإخلاص بيانات G2P للفرنسية:

wikipron fra

تحديد اللغة

يشار إلى اللغة من خلال رمز اللغة ISO 639-3 من ثلاثة أحرف ، على سبيل المثال ، fra للفرنسية. التي يمكن أن يتم كشطها اللغات ، إليك قائمة كاملة باللغات على Wiktionary التي لها إدخالات نطق.

تحديد اللهجة

يمكن للمرء اختياريا تحديد اللهجات لاستهدافها باستخدام علامة --dialect . يمكن العثور على اسم اللهجة مع النسخ على wiktionary. على سبيل المثال ، "(المملكة المتحدة ، الولايات المتحدة) IPA: /təˈmːtəʊ /". لتقييد اتحاد اللهجات ، استخدم حرف الأنابيب "|": على سبيل المثال ، --dialect='General American | US' . يتم تحديد النسخ التي تفتقر إلى مواصفات لهجة بغض النظر عن قيمة هذا العلم.

تحديد مستوى النسخ

بشكل افتراضي ، يختار Wikipron النطق الواسع في أقواس الزاوية /مثل هذا /. يمكن للمرء بدلاً من ذلك تحديد النسخ الضيقة المكتوبة [مثل هذا] باستخدام علامة --narrow . لاحظ أن بعض اللغات لها نسخ واسعة أو ضيقة فقط (على سبيل المثال ، الروسية فقط لديها الأخير.

تجزئة

بشكل افتراضي ، يتم استخدام مكتبة segments لتقسيم النسخ إلى المسافة البيضاء. يميل التجزئة إلى وضع علب IPA ومعدلات على رمز "الوالد". على سبيل المثال ، يتم تقديم [kʰæt] kʰ æ t . يمكن تعطيل ذلك باستخدام علامة --no-segment .

أقواس

تحتوي بعض النسخ على أقواس للإشارة إلى النطق البديل. يتم التخلص من الأقواس (ولكن ليس المحتوى) في الكشط ما لم يتم استخدام علامة- --no-skip-parens .

الإخراج

يتم تنظيم البيانات المكثفة مع كل <كلمة ، نطق> على خطها الخاص ، حيث يتم فصل الكلمة والنطق بعلامة تبويب. لاحظ أن النطق في الأبجدية الصوتية الدولية (IPA) ، المقطوعة بواسطة المساحات التي تتعامل بشكل صحيح مع مجموعات الجمع والمعدل لأغراض النمذجة ، على سبيل المثال ، لدينا kʰ æ t مع k in k ʰ æ t .

للحصول على توضيح ، إليك مقتطف من البيانات الفرنسية التي قام بها ويكيبرون:

 accrémentitielle    a k ʁ e m ɑ̃ t i t j ɛ l
accrescent  a k ʁ ɛ s ɑ̃
accrétion   a k ʁ e s j ɔ̃
accrétions  a k ʁ e s j ɔ̃

بشكل افتراضي ، تظهر البيانات المكثفة في المحطة. لحفظ البيانات في ملف TSV ، يرجى إعادة توجيه الإخراج القياسي إلى اسم ملف من اختيارك:

wikipron fra > fra.tsv

خيارات متقدمة

يحتوي أمر wikipron Terminal على مجموعة من الخيارات لتكوين تشغيل Drassing. للحصول على قائمة كاملة بالخيارات ، يرجى تشغيل wikipron -h .

بيثون API

يمكن أيضًا استخدام الوحدة النمطية الأساسية من Python. يشبه سير العمل القياسي:

 import wikipron

config = wikipron . Config ( key = "fra" )  # French, with default options.
for word , pron in wikipron . scrape ( config ):
    ...

بيانات

نقوم أيضًا بإتاحة قاعدة بيانات تضم أكثر من 3 ملايين زوج من كلمة/نطق مستغلة باستخدام Wikipron.

النماذج

نستضيف نماذج Grapheme-to-Phoneme وبرامج النمذجة في مستودع منفصل.

تطوير

مستودع

يتم استضافة رمز المصدر لـ Wikipron على Github على https://github.com/CUNY-CL/wikipron ، حيث يحدث التطوير أيضًا.

للحصول على أحدث التغييرات التي لم يتم إصدارها بعد من خلال pip أو العمل على قاعدة الشفرة بنفسك ، يمكنك الحصول على أحدث رمز مصدر من خلال GitHub و git :

قم بإنشاء شوكة من repo wikipron على حساب github الخاص بك.
على المستوى المحلي ، تأكد من أنك في بيئة افتراضية (VenV ، VirtualenV ، Conda ، إلخ).

قم بتنزيل وتثبيت المكتبة في وضع "التحرير" مع التبعيات الأساسية و DEV داخل البيئة الافتراضية:

git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e .

نتتبع تغييرات ملحوظة في CHANGELOG.md .