sockeye
دخل Sockeye وضع الصيانة ولم يعد يضيف ميزات جديدة. نحن ممتنون لكل من ساهم في Sockeye طوال تطوره من خلال طلبات السحب وتقارير الإصدار والمزيد.
Sockeye هو إطار متسلسل مفتوح المصدر للترجمة الآلية العصبية المبنية على Pytorch. إنه ينفذ التدريب الموزع والاستدلال المحسّن للنماذج الحديثة ، وتشغيل ترجمة Amazon وتطبيقات MT الأخرى. يتم تتبع التطورات والتغييرات الحديثة في Changelog لدينا.
للحصول على دليل QuickStart لتدريب نموذج NMT قياسي على أي حجم من البيانات ، راجع برنامج WMT 2014 English-German.
للأسئلة وتقارير المشكلات ، يرجى تقديم مشكلة على Github.
الإصدار 3.1.x: Pytorch فقط
مع الإصدار 3.1.x ، نقوم بإزالة دعم MXNET 2.x. نماذج مدربة مع Pytorch و Sockeye 3.0.x تظل متوافقة مع Sockeye 3.1.x. لا يمكن استخدام النماذج المدربة باستخدام 2.3.x (باستخدام MXNET) وتحويلها إلى Pytorch باستخدام أداة تحويل Sockeye 3.0.x مع Sockeye 3.1.x.
الإصدار 3.0.0: دعم Pytorch و MXNET المتزامن
بدءًا من الإصدار 3.0.0 ، يعتمد Sockeye أيضًا على Pytorch. نحافظ على التوافق مع النماذج MXNET من الإصدار 2.3.x مع 3.0.x. إذا تم تثبيت MXNet 2.x ، فيمكن أن يعمل Sockeye مع Pytorch أو MXNet.
يمكن تحويل جميع النماذج المدربة باستخدام 2.3.x (باستخدام MXNET) إلى نماذج تعمل مع Pytorch باستخدام المحول CLI ( sockeye.mx_to_pt ). سيؤدي ذلك إلى إنشاء ملف معلمة PytorCh ( <model>/params.best ) ونسخ احتياطي ملف المعلمة MxNet الحالي إلى <model>/params.best.mx . لاحظ أن هذا ينطبق فقط على النماذج المدربة بالكامل التي سيتم استخدامها للاستدلال. لا يتم دعم التدريب المستمر لنموذج MXNet مع Pytorch (لأننا لا نقوم بتحويل حالات التدريب والمحسّنة). يتطلب sockeye.mx_to_pt تثبيت MXNET في البيئة.
جميع Clis of الإصدار 3.0.0 استخدم الآن Pytorch افتراضيًا ، على سبيل المثال sockeye-{train,translate,score} . لا تزال وحدات/وحدات CLIs المستندة إلى MXNET تعمل ويمكن الوصول إليها عبر sockeye-{train,translate,score}-mx .
يمكن تثبيت Sockeye 3 وتشغيله بدون MXNet ، ولكن إذا تم تثبيته ، يتم تنفيذ مجموعة اختبار ممتدة لضمان التكافؤ بين طرز Pytorch و MXNet. لاحظ أن تشغيل SOCKEYE 3.0.0 مع MXNET يتطلب تثبيت MXNET 2.x ( pip install --pre -f https://dist.mxnet.io/python 'mxnet>=2.0.0b2021' )
تثبيت
قم بتنزيل الإصدار الحالي من Sockeye:
git clone https://github.com/awslabs/sockeye.git
قم بتثبيت وحدة Sockeye وتبعياتها:
cd sockeye && pip3 install --editable .
لتدريب GPU بشكل أسرع ، قم بتثبيت Nvidia Apex. يوفر Nvidia أيضًا حاويات Pytorch Docker التي تشمل Apex.
الوثائق
- للحصول على معلومات حول كيفية استخدام Sockeye ، يرجى زيارة وثائقنا.
- قد يكون المطورين مهتمين بإرشادات المطورين لدينا.
إصدارات أقدم
- يتوفر Sockeye 3.0 ، استنادًا إلى Pytorch & Mxnet 2.x في فرع
sockeye_30 . - Sockeye 2.x ، استنادًا إلى واجهة برمجة تطبيقات Mxnet Gluon ، متوفرة في فرع
sockeye_2 . - يتوفر Sockeye 1.x ، استنادًا إلى API Mxnet Module ، في فرع
sockeye_1 .
اقتباس
لمزيد من المعلومات حول Sockeye ، انظر أوراقنا (Bibtex).
Sockeye 3.x
فيليكس هيبر ، مايكل دنكوفسكي ، توبياس دومهان ، باربرا داركيز باروس ، سيلينا دونغ يي ، شينغ نيو ، كونغ هوانغ ، كي تران ، بنيامين هسو ، ماريا ناديجدي ، سورافل ليكو ، براشانت ماثور ، آنا كوري ، مارسيلو فيديريكو. Sockeye 3: ترجمة الآلة العصبية السريعة مع Pytorch. مطبوعات Arxiv الإلكترونية.
Sockeye 2.x
توبياس دومان ، مايكل دنكوفسكي ، ديفيد فيلار ، شينغ نيو ، فيليكس هيبر ، كينيث هيفيلد. مجموعة أدوات الترجمة الآلية Sockeye 2 في AMTA 2020. وقائع المؤتمر الرابع عشر لجمعية الترجمة الآلية في الأمريكتين (AMTA'20).
فيليكس هيبر ، توبياس دومان ، مايكل دنكوفسكي ، ديفيد فيلار. Sockeye 2: مجموعة أدوات للترجمة الآلية العصبية. وقائع المؤتمر السنوي 22 للجمعية الأوروبية للترجمة الآلية ، مسار المشروع (EAMT'20).
Sockeye 1.x
فيليكس هيبر ، توبياس دومهان ، مايكل دنكوفسكي ، ديفيد فيلار ، أرتيم سوكولوف ، آن كليفتون ، مات بوست. مجموعة أدوات الترجمة الآلية العصبية Sockeye في AMTA 2018. وقائع المؤتمر الثالث عشر لجمعية الترجمة الآلية في الأمريكتين (AMTA'18).
Felix Hieber ، Tobias Domhan ، Michael Denkowski ، David Vilar ، Artem Sokolov ، Ann Clifton and Matt Post. 2017. Sockeye: مجموعة أدوات للترجمة الآلية العصبية. مطبوعات Arxiv الإلكترونية.
البحث مع Sockeye
تم استخدام Sockeye في البحوث الأكاديمية والصناعية. ويرد أدناه قائمة بالمنشورات المعروفة التي تستخدم SOCKEYE. إذا كنت تعرف المزيد ، فيرجى إخبارنا أو إرسال طلب سحب (آخر تحديث: مايو 2022).
2023
- تشانغ ، شوان ، كيفن دوه ، بول ماكنامي. "مجموعة أدوات التحسين المفرطة لبحوث الترجمة الآلية العصبية". وقائع ACL (2023).
2022
- Currey ، Anna ، Maria Nădejde ، Raghavendra Pappagari ، Mia Mayer ، Stanislas Lauly ، Xing Niu ، Benjamin Hsu ، Georgiana Dinu. "MT-Geneval: مجموعة بيانات معاكسة وسياقية لتقييم دقة الجنسين في الترجمة الآلية". وقائع EMNLP (2022).
- دومان ، توبياس ، إيفا هاسلر ، كي تران ، سوني ترينوس ، بيل بيرن وفيليكس هيبر. "الشيطان في التفاصيل: على مخاطر اختيار المفردات في الترجمة الآلية العصبية". وقائع NAACL-HLT (2022)
- فيشر ، لوكاس ، باتريشيا شيوري ، رافائيل شويتر ، مارتن فولك. "الترجمة الآلية لرسائل القرن السادس عشر من اللاتينية إلى الألمانية". ورشة عمل حول تقنيات اللغة للغات التاريخية والقديمة (2022).
- نولز ، ريبيكا ، باتريك ليتيل. "ذكريات الترجمة كخطوط أساسية للترجمة الآلية منخفضة الموارد". وقائع LREC (2022)
- ماكنامي ، بول ، كيفن دوه. "مجموعة ترجمة المدونات الصغيرة متعددة اللغات: تحسين وتقييم ترجمة النص الذي تم إنشاؤه بواسطة المستخدم". وقائع LREC (2022)
- Nadejde Maria ، Anna Currey ، Benjamin Hsu ، Xing Niu ، Marcello Federico ، Georgiana Dinu. "Cocoa-MT: مجموعة بيانات ومعيار ل MT التي يتم التحكم فيها عبر التباين مع تطبيق على الشكلية". وقائع NAACL (2022).
- ويلر دي ماركو ، ماريون ، ماتياس هاك ، ألكساندر فريزر. "نمذجة المورفولوجيا الجانب المستهدف في الترجمة الآلية العصبية: مقارنة الاستراتيجيات". Arxiv preprint Arxiv: 2203.13550 (2022)
2021
- بيرجمانيس ، تومز ، مارسيس بينس. "تسهيل ترجمة المصطلحات مع التعليقات التوضيحية Lemma المستهدفة". Arxiv preprint Arxiv: 2101.10035 (2021)
- Briakou ، Eleftheria ، carpuat البحرية. "ما وراء الضوضاء: تخفيف تأثير الاختلافات الدلالية الدقيقة على الترجمة الآلية العصبية". Arxiv preprint Arxiv: 2105.15087 (2021)
- هاسلر ، إيفا ، توبياس دومان ، سوني ترينوس ، كي تران ، بيل بيرن ، فيليكس هيبر. "تحسين مفاضلة الجودة للتكيف متعدد المجالات للترجمة الآلية". وقائع EMNLP (2021)
- Tang ، Gongbo ، Philipp Rönchen ، Rico Sennrich ، Joakim Nivre. "إعادة النظر في النفي في الترجمة الآلية العصبية". معاملات جمعية اللغويات 9 (2021)
- فو ، ثوي ، أليساندرو موشتيتي. "تخصيص الترجمة الآلية عبر اختيار بيانات التدريب التلقائي من الويب". Arxiv Preprint Arxiv: 2102.1024 (2021)
- شو ، ويجيا ، كاربوا البحرية. "المحرر: محول قائم على التحرير مع إعادة تحديد موضع الترجمة الآلية العصبية مع قيود معجمية ناعمة." معاملات جمعية اللغويات 9 (2021)
- مولر ، ماتياس ، ريكو سينريتش. "فهم خصائص الحد الأدنى لتفكك المخاطر في الترجمة الآلية العصبية". وقائع الاجتماع السنوي 59 لجمعية اللغويات الحسابية والمؤتمر الدولي الحادي عشر لمعالجة اللغة الطبيعية (المجلد 1: الأوراق الطويلة) (2021)
- بوبوفيتش ، ماجا ، ألبرتو بونسيلاس. "في الترجمة الآلية لمراجعات المستخدم." وقائع RANLP (2021)
- بوبوفيتش ، ماجا. "على الطبيعة وأسباب أخطاء MT المرصودة." وقائع قمة MT الثامنة عشر (المجلد 1: مسار البحث) (2021)
- جاين ، نيشثا ، ماجا بوبوفيتش ، ديكلان غروفز ، إيفا فانماسينهوف. "توليد بيانات معززة بين الجنسين لـ NLP." وقائع ورشة العمل الثالثة حول التحيز بين الجنسين في معالجة اللغة الطبيعية (2021)
- فيلار ، ديفيد ، مارسيلو فيديريكو. "امتداد إحصائي لترميز بايت باير." وقائع IWSLT (2021)
2020
- Dinu ، Georgiana ، Prashant Mathur ، Marcello Federico ، Stanislas Lauly ، Yaser Al-anonaizan. "ترجمة المشتركة وتحويل الوحدة للتوطين الشامل." وقائع IWSLT (2020)
- Exel ، Miriam ، Bianka Buschbeck ، Lauritz Brandt ، Simona Doneva. "ترجمة الآلة العصبية المقيدة المصطلحات في SAP". وقائع EAMT (2020).
- Hisamoto ، Sorami ، Matt Post ، Kevin Duh. "هجمات الاستدلال العضوية على نماذج التسلسل إلى التسلسل: هل البيانات الخاصة بي في نظام الترجمة الآلي الخاص بك؟" معاملات جمعية اللغويات الحسابية ، المجلد 8 (2020)
- Naradowsky ، جيسون ، شوان تشان ، كيفن دوه. "اختيار نظام الترجمة الآلية من ردود الفعل اللصوص." Arxiv Preprint Arxiv: 2002.09646 (2020)
- NIU ، Xing ، Prashant Mathur ، Georgiana Dinu ، Yaser Al-anonaizan. "تقييم المتانة لإدخال اضطرابات للترجمة الآلية العصبية". Arxiv Preprint Arxiv: 2005.00580 (2020)
- Niu ، Xing ، carpuat البحرية. "السيطرة على الشكليات الآلية العصبية مع الإشراف الاصطناعي." وقائع AAAI (2020)
- Keung ، Phillip ، Julian Salazar ، Yichao Liu ، Noah A. Smith. "تعدين وترجمة لدغة غير خاضعة للرقابة عبر التضمينات السياقية المدربة ذاتيا." Arxiv preprint Arxiv: 2010.07761 (2020).
- سوكولوف ، أليكس ، تريسي روهلين ، أريا راستو. "ترجمة الآلة العصبية لتحويل Grapheme إلى Phoneme متعدد اللغات." Arxiv Preprint Arxiv: 2006.14194 (2020)
- Stafanovičs ، Artūrs ، Toms Bergmanis ، Mārcis Pinnis. "تخفيف التحيز بين الجنسين في الترجمة الآلية مع التعليقات التوضيحية بين الجنسين المستهدفة." Arxiv Preprint Arxiv: 2010.06203 (2020)
- ستوجانوفسكي ، داريو ، ألكساندر فريزر. "معالجة مجالات الموارد الصفرية باستخدام سياق مستوى المستند في الترجمة الآلية العصبية." Arxiv preprint arxiv preprint arxiv: 2004.14927 (2020)
- Stojanovski ، Dario ، Benno Krojer ، Denis Peskov ، Alexander Fraser. "Contracat: قوالب تحليلية متناقضة Coreference للترجمة الآلية". وقائع كولين (2020)
- تشانغ ، شوان ، كيفن دوه. "المعايير القابلة للتكرار والفعالة لتحسين الفائقة من أنظمة الترجمة الآلية العصبية." معاملات جمعية اللغويات الحسابية ، المجلد 8 (2020)
- Swe Zin Moe ، Ye Kyaw Thu ، Hnin Aye Thant ، Nandar Win Min ، و thepchai Supnithi ، "ترجمة الآلة العصبية غير الخاضعة للإشراف بين لغة علامة ميانمار ولغة ميانمار" ، مجلة المعلوماتية الذكية والتكنولوجيا الذكية ، الإصدار الأول من أبريل ، 2020 ، 53-61. (تم تقديمه في 21 ديسمبر 2019 ؛ تم قبوله في 6 مارس 2020 ؛ تمت مراجعته في 16 مارس 2020 ؛ تم نشره على الإنترنت في 30 أبريل 2020)
- Thazin Myint Oo ، Ye Kyaw Thu ، Khin Mar Soe و thepchai Supnithi ، "الترجمة الآلية العصبية بين ميانمار (بورميز) ودووي (تافويان)" ، في وقائع المؤتمر الدولي الثامن عشر حول تطبيقات الكمبيوتر (ICCA 2020) ، 27-28 ، 2020 ، يانغون ، Myanmar ، Myanmar ، PP.
- مولر ، ماتياس ، أنيت ريوس ، ريكو سينريتش. "متانة المجال في الترجمة الآلية العصبية." وقائع AMTA (2020)
- Rios ، Annette ، Mathias Müller ، Rico Sennrich. "تجزئة الكلمات الفرعية ولغة جسر واحد تؤثر على ترجمة الآلة العصبية صفرية." وقائع WMT الخامس: أوراق البحث (2020)
- بوبوفيتش ، ماجا ، ألبرتو بونسيلاس. "الترجمة الآلية العصبية بين اللغات الجنوبية المنطقية." وقائع WMT الخامس: أوراق البحث (2020)
- بوبوفيتش ، ماجا ، ألبرتو بونسيلاس. "استخراج الأجزاء المحاذاة بشكل صحيح من البيانات المتوازية غير النظيفة باستخدام مطابقة الحرف n-gram." وقائع المؤتمر حول تقنيات اللغة والعلوم الإنسانية الرقمية (JTDH 2020).
- بوبوفيتش ، ماجا ، ألبرتو بونسيلاس ، ماريجا بركيتش ، آندي واي. "الترجمة الآلية العصبية للترجمة إلى الكرواتية والصربية." وقائع ورشة العمل السابعة على NLP للغات والأصناف واللهجات المماثلة (2020)
2019
- Agrawal ، Sweta ، Carpuat البحرية. "التحكم في تعقيد النص في الترجمة الآلية العصبية." وقائع EMNLP (2019)
- بيك ، دانيال ، تريفور كوهن ، جولامريزا هافاري. "ترجمة الكلام العصبي باستخدام تحولات شعرية وشبكات الرسوم البيانية." وقائع TextGraphs-13 (EMNLP 2019)
- كوري ، آنا ، كينيث هيفيلد. "ترجمة الآلة العصبية صفر الموارد مع بيانات المحور أحادي اللغة." وقائع EMNLP (2019)
- غوبتا ، برابهاكار ، مايانك شارما. "تقدير جودة الترجمة غير الخاضعة للرقابة لترجمات محتوى الترفيه الرقمي." مجلة IEEE الدولية للحوسبة الدلالية (2019)
- Hu ، J. Edward ، Huda Khayrallah ، Ryan Culkin ، Patrick Xia ، Tongfei Chen ، Matt Post ، and Benjamin Van Durme. "تحسن فك التشفير المعجم للترجمة وإعادة كتابة أحادي اللغة." وقائع NAACL-HLT (2019)
- Rosendahl ، Jan ، Christian Herold ، Yunsu Kim ، Miguel Graça ، Weiyue Wang ، Parnia Bahar ، Yingbo Gao و Hermann Ney "The Rewth Aachen Machine Translation Systems for WMT 2019" Proceedings of the 4th Wmt: Search (2019)
- طومسون ، براين ، جيريمي جوينوب ، هدى خايير الله ، كيفن دوه ، وفيليب كوين. "التغلب على النسيان الكارثي أثناء تكييف المجال للترجمة الآلية العصبية." وقائع NAACL-HLT 2019 (2019)
- Tättar ، Andre ، Elizaveta Korotkova ، Mark Fishel "University of Tartu متعددة المجالات متعددة المجالات WMT19 التقديم المشتركة للمهمة" من WMT 4th: أوراق البحث (2019)
- Thazin Myint Oo ، Ye Kyaw Thu و Khin Mar Soe ، "ترجمة الآلة العصبية بين ميانمار (بورميز) و Rakhine (Arakanese)" ، في وقائع ورشة العمل السادسة على NLP للولايات المتحدة ، 80 إلى 88 عامًا ، 80 إلى 88 عامًا.
2018
- دومان ، توبياس. "ما مقدار الاهتمام الذي تحتاجه؟ تحليل محبب للبنية الترجمة الآلية العصبية". وقائع ACL 56 (2018)
- كيم ، يونسو ، يينغو غاو ، وهيرمان ني. "النقل الفعال عبر اللغات لنماذج الترجمة الآلية العصبية دون مفردات مشتركة." Arxiv Preprint Arxiv: 1905.05475 (2019)
- Korotkova ، Elizaveta ، Maksym Del ، و Mark Fishel. "نقل نمط الصفر أحادي اللغات." Arxiv Preprint Arxiv: 1808.00179 (2018)
- Niu و Xing و Michael Denkowski و Marine Carpuat. "ترجمة الآلة العصبية ثنائية الاتجاه مع بيانات متوازية اصطناعية." Arxiv preprint Arxiv: 1805.11213 (2018)
- Niu ، Xing ، Sudha Rao ، و Marine Carpuat. "النماذج العصبية متعددة المهام للترجمة بين الأنماط داخل اللغات وعبرها." كولين (2018)
- بوست ، مات وديفيد فيلار. "فك التشفير السريع المعجم مع تخصيص الحزمة الديناميكية للترجمة الآلية العصبية." وقائع NAACL-HLT (2018)
- شامبر ، جوليان ، جان روزندال ، بارنيا بهار ، يونسو كيم ، آرني نيكس ، وهيرمان ني. "أشرف جامعة RWTH Aachen على أنظمة الترجمة الآلية لـ WMT 2018." وقائع WMT الثالث: أوراق المهام المشتركة (2018)
- شولز ، فيليب ، ويلكر عزيز ، وتريفور كوهن. "فك ترميز العشوائي للترجمة الآلية العصبية." Arxiv Preprint Arxiv: 1805.10844 (2018)
- تامر ، ألكولي ، غابرييل بريتشنر ، وهيرمان ني. "حول مشكلة المحاذاة في ترجمة الآلة العصبية متعددة الرأس." وقائع المركز الثالث: أوراق البحث (2018)
- تانغ ، غونغبو ، ريكو سينريتش ، وجواكيم نيفر. "تحليل لآليات الانتباه: حالة الإحساس بالمعنى في الترجمة الآلية العصبية." وقائع 3rd WMT: أوراق البحث (2018)
- طومسون ، برايان ، هدى خاير الله ، أنطونيوس أناستاسوبولوس ، آريا مكارثي ، كيفن دوه ، ريبيكا مارفن ، بول ماكنامي ، جيريمي جوينوب ، تيم أندرسون ، وفيليب كوهين. "تجميد الشبكات الفرعية لتحليل تكييف المجال في الترجمة الآلية العصبية." Arxiv preprint Arxiv: 1809.05218 (2018)
- فيلار ، ديفيد. "تعلم مساهمة الوحدة الخفية لتكييف نماذج الترجمة الآلية العصبية." وقائع NAACL-HLT (2018)
- Vyas و Yogarshi و Xing Niu و Carpuat البحرية "تحديد الاختلافات الدلالية في نص متوازي بدون تعليقات". وقائع NAACL-HLT (2018)
- وانغ ، ويويو ، ديروي تشو ، تامر الخولي ، زيكسوان غان ، وهيرمان ني. "نموذج ماركوف المخفي العصبي للترجمة الآلية". وقائع ACL 56 (2018)
- تشانغ ، شوان ، غوراف كومار ، هدى خايير الله ، كنتون موراي ، جيريمي جوينوب ، ماريانا ج. مارتينديل ، بول ماكنامي ، كيفن دوه ، ومارين كارباتات. "استكشاف تجريبي لتعلم المناهج الدراسية للترجمة الآلية العصبية." Arxiv preprint Arxiv: 1811.00739 (2018)
- Swe Zin Moe ، Ye Kyaw Thu ، Hnin Aye Thant و Nandar Win Min ، "الترجمة الآلية العصبية بين لغة علامة ميانمار والنص المكتوب في ميانمار" ، في المؤتمر الإقليمي الثاني حول التعرف على الشخصية البصرية وتقنيات معالجة اللغة الطبيعية للغات ASEAN 2018 (ONA 2018) ، 13 ديسمبر ، 2018 ، Phnom Penh ، Cambodia.
- Tang ، Gongbo ، Mathias Müller ، Annette Rios و Rico Sennrich. "لماذا الاهتمام الذاتي؟ تقييم مستهدف لهويات الترجمة الآلية العصبية." وقائع EMNLP (2018)
2017
- دومان ، توبياس وفيليكس هيبر. "باستخدام البيانات أحادية الجانب المستهدفة للترجمة الآلية العصبية من خلال التعلم متعدد المهام." وقائع EMNLP (2017).