هذا المستودع هو تنفيذ Pytorch الرسمي للورقة التالية:
Yaoyiran Li و Anna Korhonen و Ivan Vulić. 2023. على تحريض معجم ثنائي اللغة مع نماذج لغة كبيرة . في وقائع مؤتمر 2023 حول الأساليب التجريبية في معالجة اللغة الطبيعية (EMNLP 2023). [ورقة] [OpenReview]
يهدف Prompl4bli إلى معالجة مهام ترجمة المعجم ثنائي اللغة (BLI) / Word Translation مع نماذج لغة كبيرة من الانحدار التلقائي (LLMS) . نوضح لأول مرة أن المطالبة بـ LLMs متعددة اللغات لـ BLI يتفوق على أساليب BLI التقليدية التي تعتمد على حساب تضمينات الكلمات عبر اللغات (CLWES). على الرغم من أننا نوضح أن المطالبة بـ LLMs على الرف ، يمكن أن تنشئ بالفعل أداءً جديدًا في أحدث الأداء في العديد من أزواج لغة BLI (إعدادنا التجريبي الرئيسي) ، يوفر repo programbli أيضًا رمزًا للضغط الشديد الذي يمكن أن يزيد من تحسين النتائج (كتجربة جانبية ، موضحة على LLMs الأصغر).
تعتمد الطرق التقليدية على تعلم تعيينات CLWE المعلمة أو وظائف تسجيل زوج الكلمات عبر اللغات وعادة ما تعالج BLI في ثلاثة إعدادات: (1) أشرطة ، تترجمة البذور 5K ؛ (2) أزواج ترجمة بذرة شبه خاضعة للإشراف ؛ (3) غير خاضع للإشراف ، 0 أزواج ترجمة البذور. (راجع عملنا السابق التناقض و Blicer). تختلف عن الطرق التقليدية ، فإن Promplof4bli لا تستخدم سوى LLMs خارج الرف ، ولا تتطلب ضبط LLM أو تحديث أي معلمات يمكن التعلم. ينظر عملنا في الإعدادات التالية:
(ملاحظة: من أجل التحقيق في BLI غير الخاضعة للإشراف ، نوصي باستخدام LLMs المسبق بدلاً من الرسوم المتحركة التي تم ضبطها. لأن إجراءات تعليمات LLMs عادةً ما يغطي بيانات متوازية واسعة النطاق للترجمة الآلية. لذا فإن استخدام LLMs المُثبَّر بالتعليمات مثل نماذج chatgpt ، حتى مع prosping صفرية ، يمكن أن يؤدي إلى مقارنات غير متجانسة مع غيرها من المقارنات.)
تحديث : يرجى الاطلاع على شراع عملنا للمتابعة (ACL 2024) حيث نقوم بزيادة تحسين BLI غير الخاضعة للرقابة بواسطة (1) استنتاج قاموس ترجمة كلمات عالي الثقة مع حطام صفري ، (2) ثم تنقيح اختياريًا للوحد العالي في التقييم بشكل متكرر مع الإجراءات المسبقة بشكل متكرر ، (3). تم تعيين اختبار BLI مع طلقة قليلة كما استنتجت عينات في السياق من أحدث قاموس الثقة العالية. لا تستفيد العملية بأكملها من أي أزواج ترجمة الكلمات المحفوظة في مجال التدريب/التعلم قليلًا وتحسين درجات BLI من خلال 10 ~ 15 p@1 نقاط مقارنة بالطالب الصفري.
| LLM | (معانقة الوجه) معرف النموذج |
|---|---|
| MT5-Small | "Google/MT5-Small" |
| MT5-Base | "Google/MT5-Base" |
| MT5-LARGE | "Google/MT5-Large" |
| MT5-XL | "Google/MT5-XL" |
| MT5-XXL | "Google/MT5-XXL" |
| MT0-Small | "BigScience/MT0-small" |
| قاعدة MT0 | "BigScience/MT0-Base" |
| MT0-LARGE | "BigScience/MT0-LARGE" |
| MT0-XL | "BigScience/MT0-XL" |
| MT0-XXL | "BigScience/MT0-XXL" |
| XGLM-564M | "Facebook/XGLM-564M" |
| XGLM-1.7B | "Facebook/XGLM-1.7B" |
| XGLM-2.9B | "Facebook/XGLM-2.9B" |
| XGLM-4.5B | "Facebook/XGLM-4.5B" |
| XGLM-7.5B | "Facebook/XGLM-7.5B" |
| MGPT | "Sberbank-AI/MGPT" |
| لاما -7 ب | "Huggyllama/Llama-7B" |
| لاما -13 ب | "Huggyllama/Llama-13B" |
| لاما 2-7 ب | "Meta-llama/llama-2-7b-HF" |
| Llama2-13b | "Meta-llama/llama-2-13b-HF" |
| Llama3-8b | "meta-llama/meta-llama-3-8b" |
معظم LLMs المذكورة أعلاه في أبحاثنا هي LLMs المسبقة بدلاً من تلك التي تم ضبطها على التعليمات (نماذج LLAMA التي تحقق أفضل درجات BLI كما ورد في ورقتنا هي أيضًا إصدارات مسبقة). بالإضافة إلى LLMS المعتمدة في ورقتنا الأصلية ، فإننا ندمج بالإضافة إلى ذلك LLAMA2-7B و LLAMA2-13B و LLAMA3-8B في ريبو الكود الحالي (إنها جميع الإصدارات المسبقة بدلاً من الإصدارات التي تم ضبطها). يتم التحقيق في طرز LLAMA2-7B و LLAMA2-13B ويتم الإبلاغ عن النتائج في شراع عملنا (ACL 2024). تقوم SAIL أيضًا بإجراء طلقة صفرية مع GPT-3.5 و GPT-4 (تم ضبط التعليمات). يرجى الرجوع إلى الإبحار للحصول على التفاصيل.
بعد التناقضات و blicer ، يتم الحصول على بياناتنا من XLING (8 لغات ، 56 اتجاهات BLI في المجموع) و Cinglex-BLI (15 لغة منخفضة الموارد ، 210 اتجاهات BLI في المجموع).
الحصول على بيانات xling:
sh get_xling_data.shبالنسبة إلى Panlex-BLI ، يرجى الاطلاع على ./get_panlex_data ، حيث نقدم الرمز لاستخلاص تضمينات الكلمة أحادية اللغة.
قم بإعداد بيانات BLI واستخلص أمثلة داخل السياق لضرب قليلة (XLING):
python run_extract_vocabularies.py
python run_extract_bli_data.pyقم بإعداد بيانات BLI واستخلص أمثلة داخل السياق لضرب قليل من الطرقة (PNELLEX-BLI):
python run_extract_vocabularies_panlex.py
python run_extract_bli_data_panlex.py(اختياري) قم بتشغيل عملية صقل LLM ذات الاتجاه الشامل (تحديد LLM DIR ، ومعدل التعلم ، وحجم الدُفعة ، والبذور العشوائية في Run_training.py):
python run_prepare_training_data.py
python run_training.pyقم بتشغيل تقييم BLI (تحديد حجم قاموس البذور ، N_SHOT ، LLM DIR ، وأزواج اللغة للتقييم يدويًا في RUN_BLI.PY):
python run_bli.pyيرجى الاستشهاد بالورقة إذا وجدت promply4bli مفيدة.
@inproceedings { li-etal-2023-bilingual ,
title = { On Bilingual Lexicon Induction with Large Language Models } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing } ,
year = { 2023 }
}أعمال المتابعة (رمز متاح في الإبحار):
@inproceedings { li-etal-2024-self-augmented ,
title = { Self-Augmented In-Context Learning for Unsupervised Word Translation } ,
author = { Li, Yaoyiran and Korhonen, Anna and Vuli{'c}, Ivan } ,
booktitle = { Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics } ,
year = { 2024 }
}