Wikipron هي أداة سطر الأوامر و API Python لاستخراج بيانات النطق متعدد اللغات من Wiktionary ، بالإضافة إلى قاعدة بيانات لقواميس النطق المخصصة باستخدام هذه الأداة.
إذا كنت تستخدم Wikipron في بحثك ، فيرجى الاستشهاد بما يلي:
Jackson L. Lee ، Lucas Fe Ashby ، M. Elizabeth Garza ، Yeonju Lee-Sikka ، Sean Miller ، Alan Wong ، Arya D. McCarthy ، and Kyle Gorman (2020). تعدين النطق متعدد اللغات على نطاق واسع مع ويكيبرون. في وقائع مؤتمر الموارد والتقييم في اللغة الثانية عشرة ، الصفحات 4223-4228. [Bibtex]
pip install wikipron بعد التثبيت ، سيكون wikipron أمر terminal متاحًا. كمثال أساسي ، يقوم الأمر التالي بإخلاص بيانات G2P للفرنسية:
wikipron fra يشار إلى اللغة من خلال رمز اللغة ISO 639-3 من ثلاثة أحرف ، على سبيل المثال ، fra للفرنسية. التي يمكن أن يتم كشطها اللغات ، إليك قائمة كاملة باللغات على Wiktionary التي لها إدخالات نطق.
يمكن للمرء اختياريا تحديد اللهجات لاستهدافها باستخدام علامة --dialect . يمكن العثور على اسم اللهجة مع النسخ على wiktionary. على سبيل المثال ، "(المملكة المتحدة ، الولايات المتحدة) IPA: /təˈmːtəʊ /". لتقييد اتحاد اللهجات ، استخدم حرف الأنابيب "|": على سبيل المثال ، --dialect='General American | US' . يتم تحديد النسخ التي تفتقر إلى مواصفات لهجة بغض النظر عن قيمة هذا العلم.
بشكل افتراضي ، يختار Wikipron النطق الواسع في أقواس الزاوية /مثل هذا /. يمكن للمرء بدلاً من ذلك تحديد النسخ الضيقة المكتوبة [مثل هذا] باستخدام علامة --narrow . لاحظ أن بعض اللغات لها نسخ واسعة أو ضيقة فقط (على سبيل المثال ، الروسية فقط لديها الأخير.
بشكل افتراضي ، يتم استخدام مكتبة segments لتقسيم النسخ إلى المسافة البيضاء. يميل التجزئة إلى وضع علب IPA ومعدلات على رمز "الوالد". على سبيل المثال ، يتم تقديم [kʰæt] kʰ æ t . يمكن تعطيل ذلك باستخدام علامة --no-segment .
تحتوي بعض النسخ على أقواس للإشارة إلى النطق البديل. يتم التخلص من الأقواس (ولكن ليس المحتوى) في الكشط ما لم يتم استخدام علامة- --no-skip-parens .
يتم تنظيم البيانات المكثفة مع كل <كلمة ، نطق> على خطها الخاص ، حيث يتم فصل الكلمة والنطق بعلامة تبويب. لاحظ أن النطق في الأبجدية الصوتية الدولية (IPA) ، المقطوعة بواسطة المساحات التي تتعامل بشكل صحيح مع مجموعات الجمع والمعدل لأغراض النمذجة ، على سبيل المثال ، لدينا kʰ æ t مع k in k ʰ æ t .
للحصول على توضيح ، إليك مقتطف من البيانات الفرنسية التي قام بها ويكيبرون:
accrémentitielle a k ʁ e m ɑ̃ t i t j ɛ l
accrescent a k ʁ ɛ s ɑ̃
accrétion a k ʁ e s j ɔ̃
accrétions a k ʁ e s j ɔ̃بشكل افتراضي ، تظهر البيانات المكثفة في المحطة. لحفظ البيانات في ملف TSV ، يرجى إعادة توجيه الإخراج القياسي إلى اسم ملف من اختيارك:
wikipron fra > fra.tsv يحتوي أمر wikipron Terminal على مجموعة من الخيارات لتكوين تشغيل Drassing. للحصول على قائمة كاملة بالخيارات ، يرجى تشغيل wikipron -h .
يمكن أيضًا استخدام الوحدة النمطية الأساسية من Python. يشبه سير العمل القياسي:
import wikipron
config = wikipron . Config ( key = "fra" ) # French, with default options.
for word , pron in wikipron . scrape ( config ):
...نقوم أيضًا بإتاحة قاعدة بيانات تضم أكثر من 3 ملايين زوج من كلمة/نطق مستغلة باستخدام Wikipron.
نستضيف نماذج Grapheme-to-Phoneme وبرامج النمذجة في مستودع منفصل.
يتم استضافة رمز المصدر لـ Wikipron على Github على https://github.com/CUNY-CL/wikipron ، حيث يحدث التطوير أيضًا.
للحصول على أحدث التغييرات التي لم يتم إصدارها بعد من خلال pip أو العمل على قاعدة الشفرة بنفسك ، يمكنك الحصول على أحدث رمز مصدر من خلال GitHub و git :
قم بإنشاء شوكة من repo wikipron على حساب github الخاص بك.
على المستوى المحلي ، تأكد من أنك في بيئة افتراضية (VenV ، VirtualenV ، Conda ، إلخ).
قم بتنزيل وتثبيت المكتبة في وضع "التحرير" مع التبعيات الأساسية و DEV داخل البيئة الافتراضية:
git clone https://github.com/ < your-github-username > /wikipron.git
cd wikipron
pip install -U pip setuptools
pip install -r requirements.txt
pip install --no-deps -e . نتتبع تغييرات ملحوظة في CHANGELOG.md .
للأسئلة ، تقارير الأخطاء ، وطلبات الميزات ، يرجى تقديم مشكلة.
إذا كنت ترغب في المساهمة في قاعدة كود wikipron ، فيرجى الاطلاع على المساهمة.
يتم إصدار Wikipron بموجب ترخيص Apache 2.0. يرجى الاطلاع على الترخيص. txt للحصول على التفاصيل.
يرجى ملاحظة أن بيانات Wiktionary في data/ الدليل لها شروط الترخيص الخاصة بها.