word2word Download - word2word Source Code Download

word2word

شفرة المصدر الأخرى

1.0.0

تنزيل

Word2word

ترجمات الكلمات سهلة الاستخدام لـ 3564 زوجًا من اللغة.

هذا هو الرمز الرسمي المصاحب لورقة LREC 2020.

ملخص

مجموعة كبيرة من المعجمات ثنائية اللغة متوفرة بحرية وعلنية ل 3564 زوجًا من اللغات عبر 62 لغة فريدة من نوعها.
واجهة Python سهلة الاستخدام للوصول إلى ترجمات Word Top-K وبناء معجم ثنائي اللغة جديد من مجموعة متوازية مخصصة.
تم بناؤه باستخدام نهج بسيط ينتج عن المعجم ثنائي اللغة مع تغطية عالية وجودة ترجمة تنافسية.

الاستخدام

أولاً ، قم بتثبيت الحزمة باستخدام pip :

pip install word2word

أو

git clone https://github.com/kakaobrain/word2word
python setup.py install

بعد ذلك ، في Python ، قم بتنزيل النموذج واسترداد ترجمات Word-5 Word لأي كلمة معينة إلى اللغة المطلوبة:

 from word2word import Word2word
en2fr = Word2word ( "en" , "fr" )
print ( en2fr ( "apple" ))
# out: ['pomme', 'pommes', 'pommier', 'tartes', 'fleurs']

GIF

اللغات المدعومة

نحن نقدم ترجمات من أعلى إلى كلمة عبر جميع الأزواج المتاحة من OpenSubTitles2018. هذا يصل إلى ما مجموعه 3564 زوجًا من اللغات عبر 62 لغة فريدة.

يتم توفير القائمة الكاملة هنا.

المنهجية

يحسب نهجنا ترجمات الكلمات العليا على أساس إحصائيات التداخل المشترك بين أزواج الكلمات عبر اللغات في مجموعة موازية. بالإضافة إلى ذلك ، نقدم مصطلح تصحيح يتحكم في أي تأثير مربك قادم من كلمات المصدر الأخرى في نفس الجملة. الطريقة الناتجة هي نهج فعال وقابل للتطوير يتيح لنا بناء قواميس كبيرة ثنائية اللغة من أي مجموعة متوازية معينة.

لمزيد من التفاصيل ، راجع قسم المنهجية في ورقتنا.

بناء معجم ثنائي اللغة على مجموعة متوازية مخصصة

توفر حزمة word2word أيضًا واجهة لبناء معجم ثنائي اللغة مخصص باستخدام مجموعة مختلفة متوازية. هنا ، نعرض مثالًا على بناء واحدة من مجموعة بيانات Medline English-French:

 from word2word import Word2word

# custom parallel data: data/pubmed.en-fr.en, data/pubmed.en-fr.fr
my_en2fr = Word2word . make ( "en" , "fr" , "data/pubmed.en-fr" )
# ...building...
print ( my_en2fr ( "mitochondrial" ))
# out: ['mitochondriale', 'mitochondriales', 'mitochondrial', 
#       'cytopathies', 'mitochondriaux']

عندما يتم بناؤها من المصدر ، يمكن أيضًا إنشاء المعجم ثنائي اللغة من سطر الأوامر على النحو التالي:

python make.py --lang1 en --lang2 fr --datapref data/pubmed.en-fr

في كلتا الحالتين ، يمكن إعادة تحميل المعجم المخصص (المحفوظ إلى datapref/ افتراضيًا) في Python:

 from word2word import Word2word
my_en2fr = Word2word . load ( "en" , "fr" , "data/pubmed.en-fr" )
# Loaded word2word custom bilingual lexicon from data/pubmed.en-fr/en-fr.pkl

المعالجة المتعددة

في كل من واجهة Python وواجهة سطر الأوامر ، make يستخدم المعالجة المتعددة مع 16 وحدة المعالجة المركزية بشكل افتراضي. يمكن تعديل عدد عمال وحدة المعالجة المركزية عن طريق تعيين num_workers=N (python) أو --num_workers N (سطر الأوامر).

مراجع

إذا كنت تستخدم Word2Word للبحث ، فيرجى الاستشهاد بورقة:

 @inproceedings { choe2020word2word ,
 author = { Yo Joong Choe and Kyubyong Park and Dongwoo Kim } ,
 title = { word2word: A Collection of Bilingual Lexicons for 3,564 Language Pairs } ,
 booktitle = { Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020) } ,
 year = { 2020 }
}

تم إنشاء جميع معجورنا ثنائية اللغة من مجموعة بيانات OpenSubTitles2018 المتاحة للجمهور:

 @inproceedings { lison-etal-2018-opensubtitles2018 ,
    title = " {O}pen{S}ubtitles2018: Statistical Rescoring of Sentence Alignments in Large, Noisy Parallel Corpora " ,
    author = { Lison, Pierre  and
      Tiedemann, J{"o}rg  and
      Kouylekov, Milen } ,
    booktitle = " Proceedings of the Eleventh International Conference on Language Resources and Evaluation ({LREC} 2018) " ,
    month = may,
    year = " 2018 " ,
    address = " Miyazaki, Japan " ,
    publisher = " European Language Resources Association (ELRA) " ,
    url = " https://www.aclweb.org/anthology/L18-1275 " ,
}

المؤلفون

Kyubyong Park و Dongwoo Kim و YJ Choe

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-18
الحجم 140.1KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل