
DGMS 4 NLP. نماذج توليدية عميقة لمعالجة اللغة الطبيعية. خريطة الطريق.
ياو فو ، جامعة إدنبرة ، [email protected]
** تحديث **: كيف تحصل GPT على قدرتها؟ تتبع القدرات الناشئة لنماذج اللغة إلى مصادرها
** تحديث **: نظرة فاحصة على القدرات الناشئة على نموذج اللغة
** تحديث **: نماذج لغات كبيرة
** تحديث **: التبعية بعيدة المدى ؛ لماذا S4 جيد في التسلسل الطويل: تذكر تسلسل مع تقريب الوظيفة عبر الإنترنت
** تودو 1 **: المعايرة ؛ المطالبة محولات طويلة المدى. نماذج مساحة الدولة
** TODO 2 **: مصفوفة العامل وتضمين الكلمات ؛ نواة عملية غاوسية
** TODO 3 **: العلاقة بين الاستدلال و RL ؛
(مكتوب في أوائل عام 2019 ، نشأت من ندوة DGM في كولومبيا)
لماذا نريد نماذج توليدية عميقة؟ لأننا نريد أن نتعلم العوامل الأساسية التي تولد اللغة. تحتوي اللغة البشرية على عوامل كامنة غنية ، وقد تكون العاطفة المستمرة هي العاطفة والنية وغيرها ، وقد تكون العوامل المنفصلة/ الهيكلية هي علامات POS/ NER أو أشجار بناء الجملة. كثير منهم كامن كما في معظم الحالات ، نلاحظ الجملة فقط. إنها أيضًا توليدية: يجب أن ينتج الإنسان لغة بناءً على الفكرة العامة ، والعاطفة الحالية ، وبناء الجملة ، وجميع الأشياء الأخرى التي يمكننا أو لا نستطيع تسميتها.
كيف تصمم عملية اللغة التوليدية بطريقة مبدئية إحصائية؟ هل يمكن أن يكون لدينا إطار عمل مرن يسمح لنا بدمج إشارات الإشراف الصريحة عندما يكون لدينا ملصقات ، أو إضافة إشراف بعيدة أو قيود منطقية/ إحصائية عندما لا يكون لدينا علامات ولكن لدينا معرفة مسبقة أخرى ، أو استنتاج كل ما هو أكثر منطقية عندما لا يكون لدينا علامات أو مسبقًا؟ هل من الممكن أن نستغل قوة النمذجة للبنية العصبية المتقدمة بينما لا نزال نكون رياضيًا واحتمالية؟ تسمح لنا DGMS بتحقيق هذه الأهداف.
دعونا نبدأ الرحلة.

الاقتباس:
@article{yao2019DGM4NLP,
title = "Deep Generative Models for Natual Language Processing",
author = "Yao Fu",
year = "2019",
url = "https://github.com/FranxYao/Deep-Generative-Models-for-Natural-Language-Processing"
}
كيفية كتابة الاستدلال المتغير والنماذج التوليدية لـ NLP: وصفة. هذا يقترح بقوة للمبتدئين أوراق كتابة عن VAES لـ NLP.
برنامج تعليمي عن نماذج متغيرة كامنة عميقة للغة الطبيعية (LINK) ، EMNLP 18
نماذج الهيكل الكامن لـ NLP. رابط تعليمي ACL 2019
كولومبيا ستات 8201 - نماذج توليدية عميقة ، بقلم جون كننغهام
Stanford CS 236 - نماذج توليدية عميقة ، بقلم ستيفانو إرمون
U TORONTO CS 2541 - الاستدلال والموديلات التوليدية ، CS 2547 تعلم الهياكل الكامنة المنفصلة ، CSC 2547 خريف 2019: تعلم البحث. بقلم ديفيد دوفينو
U Toronto Sta 4273 Winter 2021 - تقليل التوقعات. بقلم كريس ماديسون
بيركلي CS294-158 - التعلم العميق غير الخاضع للإشراف. بقلم بيتر أبيل
كولومبيا STCS 8101 - التعلم التمثيل: منظور احتمالي. بقلم ديفيد بلي
Stanford CS324 - نماذج لغة كبيرة. بقلم بيرسي ليانغ ، تاتسونوري هاشيموتو وكريستوفر ري
U Toronto CSC2541 - ديناميات التدريب الصافية العصبية. بقلم روجر جروس.
تم بناء تمويل DGMS على نماذج رسومية احتمالية. لذلك نحن نلقي نظرة على الموارد التالية
دورة Blei's Foundation of Prackice Models ، Stat 6701 في كولومبيا (LINK)
النماذج الرسومية المحتملة لـ Xing ، 10-708 في CMU (LINK)
معالجة اللغة الطبيعية لكولينز ، كومز 4995 في كولومبيا (رابط)
التعرف على الأنماط والتعلم الآلي. كريستوفر م. الأسقف. 2006
التعلم الآلي: منظور احتمالي. كيفن ب. ميرفي. 2012
النماذج الرسومية والأسر الأسية والاستدلال المتغير. 2008
التنبؤ الهيكل اللغوي. 2011
العملية النحوية. 2000
توليد جمل من مساحة مستمرة ، conll 15
الاستدلال التباين العصبي لمعالجة النص ، ICML 16
تعلم القوالب العصبية لتوليد النص. EMNLP 2018
نماذج قائمة على الطاقة المتبقية لتوليد النص. ICLR 20
إعادة صياغة الجيل مع كيس الكامنة من الكلمات. Neupips 2019.
مكتبة فك تشفير فيرسيك. [جيثب]
Controlabel توليد النص العصبي [Lil'log]
أفضل البحث الشعاع الأول. TACL 2020
حالة غريبة من تنكس النص العصبي. ICLR 2020
مقارنة بين طرق فك التشفير المتنوعة من نماذج اللغة الشرطية. ACL 2019
الحزم العشوائية وأين يمكن العثور عليها: خدعة Gumbel-Top-K لأخذ أخذ العينات دون استبدال. ICML 19
شرطية البحث عن شعاع بويسون العشوائي. EMNLP 2021
فك تشفير النطاق الضخم لتوليد النص باستخدام الشبكات. 2021
فك التشفير المعجم لتوليد التسلسل باستخدام بحث شعاع الشبكة. ACL 2017
تفكك سريع التقيد مع المعجم مع تخصيص الحزمة الديناميكية للترجمة الآلية العصبية. NAACL 2018
تحسن فك التشفير المعجم للترجمة وإعادة كتابة أحادي اللغة. NAACL 2019
نحو فك التشفير كتحسين مستمر في الترجمة الآلية العصبية. EMNLP 2017
توليد نص محظور معجمي بتوجيه غير إشرافي. EMNLP 2020
توليد النص المتحكم فيه كتحسين مستمر مع قيود متعددة. 2021
فك التشفير العصبي: (الأمم المتحدة) خاضع للإشراف على توليد النص العصبي مع قيود المنطق المسند. NAACL 2021
فك التشفير العصبي A*esque: توليد نص مقيد مع استدلال Lookahead. 2021
فك تشفير البرد: توليد النص المقيد على الطاقة مع ديناميات Langevin. 2022
ملاحظة: لم أتجاوز هذا الفصل تمامًا ، من فضلك أعطني اقتراحات!
ترجمة الآلة العصبية غير العائلية. ICLR 2018
الترجمة الآلية العصبية غير التابعة للكسر: حيل التجارة.
فك تشفير سريع في نماذج التسلسل باستخدام متغيرات كامنة منفصلة. ICML 2021
توليد النص المتتالي مع محولات ماركوف. Arxiv 20
محول إلقاء نظرة على الترجمة الآلية العصبية غير العائلية. ACL 2021
تودو: المزيد عن ذلك
أوراق سريعة ، thunlp (رابط)
CTRL: نموذج لغة محول مشروط لتوليد يمكن التحكم فيه. Arxiv 2019
نماذج لغة التوصيل والتشغيل: نهج بسيط لتوليد النصوص المتحكم فيه
بنية الشعلة: مكتبة تنبؤ منظمة عميقة. جيثب ، ورقة ، وثائق
مقدمة إلى الحقول العشوائية الشرطية. 2012
الخوارزميات الداخلية إلى الخارج والخوارزميات الأمامية هي مجرد خلفية. 2016.
التعلم مع خسائر fenchel-young. JMLR 2019
شبكات الاهتمام المنظمة. ICLR 2017
البرمجة الديناميكية الفاصلة للتنبؤ المنظم والاهتمام. ICML 2018
قواعد الشبكة العصبية المتكررة. NAACL 16
قواعد الشبكة العصبية المتكررة غير الخاضعة للرقابة ، NAACL 19
قابلة للتفاضلت من الحجم والهراوات: تحليل شبه إشراف مع Autoencoder المتغير منظم ، ICLR 19
العملية النحوية. 2020
اللغوية المستنيرة لتوفير الدور الدلالي. EMNLP 2018 أفضل جائزة الورق
التحليل الدلالي مع أجهزة الترميز التلقائي المتسلسل شبه الخاضع للإشراف. 2016
تعميم تكوين في NLP. قائمة الورق
التعميم بدون منهجي: على المهارات التكوينية للشبكات المتكررة التسلسل إلى التسلسل. ICML 2019
تحسين منهجية تقييم النص إلى SQL. ACL 2018
الاستدلال الاحتمالي باستخدام طرق Markov Monte Carlo. 1993
عناصر من مونت كارلو المتسلسل (رابط)
مقدمة مفاهيمية لهاملتون مونتي كارلو (رابط)
أخذ عينات المرشح (الرابط)
التقدير المريح للضوضاء: مبدأ تقدير جديد للنماذج الإحصائية غير الطبيعية. Aistata 2010
* أخذ العينات. NIPS 2014 أفضل جائزة الورق
مجموعة قراءة الاستدلال المتنوعة في كامبريدج (رابط)
الاستدلال التباين: مراجعة للإحصائيين.
الاستدلال المتغير العشوائي
استنتاج بايزي التباين مع البحث العشوائي. ICML 12
ترميز تلقائي بايز ، ICLR 14
Beta-VAE: تعلم المفاهيم البصرية الأساسية مع إطار اختلاف مقيد. ICLR 2017
أهمية مرجحة السيارات. ICLR 2015
backpropagation العشوائية والاستدلال التقريبي في النماذج التوليدية العميقة. ICML 14
أدوات تلقائية متباينة شبه إبطال ، ICML 18
أجهزة الترميز التلقائي المنتظمة بشكل خصم ، ICML 18
المزيد عن إعادة التمييز: لإعادة تجديد الخليط الغوسي ، ومصفوفة التقليب ، وأخذ عينات الرفض (جاما وديريشليت).
Backpropagation العشوائي من خلال توزيعات كثافة الخليط ، Arxiv 16
تدرجات إعادة التثبيت من خلال خوارزميات أخذ عينات رفض القبول. Aistats 2017
تدرجات إعادة التثبيت الضمنية. Neups 2018.
إعادة التعبير الفئوي مع Gumbel-Softmax. ICLR 2017
التوزيع الخرساني: الاسترخاء المستمر للمتغيرات العشوائية المنفصلة. ICLR 2017
إعادة التثبيط الغاوسي المقلوب: إعادة النظر في Gumbel-Softmax. 2020
أخذ عينات من مجموعة فرعية قابلة لإعادة التكرار عن طريق الاسترخاء المستمر. ijcai 2019
شبكات الخصومة التوليدية ، NIPS 14
نحو الأساليب المبدئية لتدريب شبكات العدوانية ، ICLR 2017
Wasserstein غان
Infogan: التمثيل القابل للتفسير تعلم عن طريق تعظيم المعلومات الشباك العدائية التوليدية. NIPS 2016
تعلّم خصودية الاستدلال. ICLR 2017
النماذج العميقة القائمة على التدفق ، من سجل ليل
الاستدلال المتغير مع التدفقات التطبيع ، ICML 15
التعرف على اللغة مع تطبيع التدفقات
تحسين الاستدلال المتغير مع تدفق الانحدار الذاتي العكسي
تقدير الكثافة باستخدام NVP الحقيقي. ICLR 17
التعلم غير الخاضع للإشراف للبنية النحوية مع التوقعات العصبية المقلوبة. EMNLP 2018
تدفقات تطبيع كامنة للتسلسلات المنفصلة. ICML 2019.
التدفقات المنفصلة: النماذج التوليدية القابلة للانقلاب للبيانات المنفصلة. 2019
FlowSeq: توليد التسلسل الشرطي غير المتسابق مع التدفق التوليدي. EMNLP 2019
الترجمة الآلية العصبية المتغيرة مع تطبيع التدفقات. ACL 2020
على الجملة التضمينات من نماذج اللغة التي تم تدريبها مسبقًا. EMNLP 2020
السنة المالية: تحتاج إلى معرفة كيفية استخدام النماذج التوليدية المستندة إلى النقاط ونماذج الانتشار للتسلسلات المنفصلة
النمذجة التوليدية عن طريق تقدير التدرجات لتوزيع البيانات. مدونة 2021
أوراق النمذجة التوليدية القائمة على النتيجة
النمذجة التوليدية عن طريق تقدير التدرجات لتوزيع البيانات. Neupips 2019
ما هي نماذج الانتشار؟ 2021
نماذج الانتشار الرائعة
التعلم العميق غير الخاضع للإشراف باستخدام الديناميكا الحرارية nonequilibrium. 2015
نماذج الانتشار الاحتمالية. Neupips 2020
تدفقات Argmax والانتشار متعدد الحدود: تعلم التوزيعات الفئوية. Neupips 2021
نماذج انتشار منظمة منظمة في مساحات الحالة المنفصلة. Neupips 2021
نماذج الانتشار التلقائي. ICLR 2022
Diffusion-LM يحسن توليد النص القابل للتحكم. 2022
نماذج انتشار النص إلى نص الصور مع فهم اللغة العميقة. 2022
الخلايا العصبية المطلوبة: دمج الأشجار المهيكلة في الشبكات العصبية المتكررة
يمكن لـ RNNs توليد لغات هرمية محدودة مع ذاكرة مثالية
تحليل الاهتمام الذاتي متعدد الرأس: يقوم الرؤوس المتخصصة بالرفع الثقيل ، ويمكن تقليم الباقي. ACL 2019
القيود النظرية للاعتداء الذاتي في نماذج التسلسل العصبي. TACL 2019
إعادة النظر في الاهتمام مع فناني الأداء. 2020
Thunlp: قائمة ورق النموذج اللغات المسبق (الرابط)
أوراق توموهيد شيباتا ذات الصلة بيرت
Hippo: ذاكرة متكررة مع الإسقاطات متعددة الحدود المثلى. Neupips 2020
الجمع بين النماذج المتكررة والتلافقية والوقت المستمر مع طبقة مساحة الحالة الخطية. Neupips 2021
النمذجة بكفاءة تسلسل طويل مع مساحات الحالة المنظمة. ICLR 2022
لماذا S4 جيد في التسلسل الطويل: تذكر تسلسل مع تقريب الوظيفة عبر الإنترنت. 2022
GPT3 (175B). نماذج اللغة هي متعلمين قليلة. مايو 2020
Megatron-Turing NLG (530B). باستخدام Deepeded و Megatron لتدريب Megatron-Turing NLG 530B ، وهو نموذج لغة توليدية واسعة النطاق. يناير 2022
لامدا (137 ب). لامدا: نماذج لغة لتطبيقات الحوار. يناير 2022
غوفر (280B). نماذج لغة التحجيم: الأساليب والتحليل والرؤى من تدريب Gopher. ديسمبر 2021
شينشيلا (70 ب). تدريب النماذج اللغوية الحساسية. مارس 2022
النخيل (540 ب). النخيل: نمذجة لغة التحجيم مع المسارات. أبريل 2022
OPT (175B). OPT: افتح نماذج لغة المحولات مسبقًا. مايو 2022
بلوم (176 ب): نموذج لغة متعددة اللغات مفتوحة العلوم الكبيرة. مايو 2022
Blenderbot 3 (175b): وكيل محادثة تم نشره يتعلم باستمرار المشاركة بمسؤولية. أغسطس 2022
تحجيم قوانين لنماذج اللغة العصبية. 2020
القدرات الناشئة لنماذج اللغة الكبيرة. 2022
تقليل التوقعات. كريس ماديسون
تقدير تدرج Monte Carlo في التعلم الآلي
الاستدلال المتغير لأهداف مونت كارلو. ICML 16
حديد التسليح: تقديرات التدرج المنخفض ، غير المتحيز للنماذج المتغيرة الكامنة المنفصلة. NIPS 17
backpropagation من خلال الفراغ: تحسين متغيرات التحكم لتقدير التدرج السوداء. ICLR 18
backpropaging من خلال Argmax المهيكلة باستخدام حنفية. ACL 2018 أفضل ورقة ذكر مشرف.
فهم ميكانيكا الحنفية: التدرجات البديلة للتعلم الهيكل الكامن. EMNLP 2020
التعلم مع مُحسّنات مضطربة. Neupips 2020
تقدير التدرج مع الحيل العشوائية softmax. Neupips 2020
البرمجة الديناميكية الفاصلة للتنبؤ المنظم والاهتمام. ICML 18
التحسين العشوائي لشبكات الفرز عبر الاسترخاء المستمر
صفوف قابلة للتمييز وفرز باستخدام النقل الأمثل
إعادة صياغة birkhoff polytope لاستنتاج التقليب التباين. Aistats 2018
إطار منظم للاهتمام العصبي المتفرق ومنظم. Neupips 2017
sparsemap: استدلال منظم متناثر. ICML 2018
التداخل المسمى الاعتراف بالكيان مع treecrfs المراقبة جزئيا. AAAI 2021
التدرجات العشوائية Rao-Blackwellized للتوزيعات المنفصلة. ICML 2019.
تهميش فعال للمتغيرات الكامنة المنفصلة والمهيكلة عن طريق التباين. Neupips 2020
التنظيم الخلفي للنماذج المتغيرة الكامنة المنظمة. JMLR 2010
السيطرة الخلفية لتوليد blackbox. 2019
تحريض القواعد النحوية مع محلل قائم على الانتقال العصبي. AAAI 2019
(باللغة الصينية) 微分几何与拓扑学简明教程
يجب أن يتعلم بايز فقط مشعبًا (حول تقدير بنية هندسية تفاضلية من البيانات). Arxiv 2018
هندسة ريمانيان للنماذج التوليدية العميقة. CVPRW 2018
هندسة نماذج الصور التوليدية العميقة وتطبيقاتها. ICLR 2021
مقاييس النماذج التوليدية العميقة. Aistats 2017
خوارزميات من الدرجة الأولى لتحسين min-max في المساحات المترية الجيوديسية. 2022
ميزات عشوائية لآلات النواة واسعة النطاق. Neupips 2007
العثور على بنية مع العشوائية: خوارزميات احتمالية لبناء تحلل مصفوفة تقريبية. سيام 2011
تحسين كفاءة للحلقات والحدود مع مبالغ التلسكوب العشوائية. ICML 2019
تقدير نسبة كثافة التلسكوب. Neupips 2020
عمليات غاوسية قابلة للتطوير خالية من التحيز عبر اقتطاعات عشوائية. ICML 2021
تمايز تلقائي عشوائي. ICLR 2021
تحجيم الاستدلال المنظم مع التوزيع العشوائي. 2021
عناصر نظرية المعلومات. تغطية وتوماس. 1991
على حدود التباين للمعلومات المتبادلة. ICML 2019
تعلم تمثيلات عميقة من خلال تقدير المعلومات المتبادلة وتعظيمها. ICLR 2019
منجم: المعلومات المتبادلة التقدير العصبي
معلومات التباين العميقة عنق الزجاجة. ICLR 2017
تحديد نماذج خليط بايزي
disentangling disentanglement في أدوات التوقيت المتنوع. ICML 2019
تحدي الافتراضات المشتركة في التعلم غير الخاضع للإشراف للتمثيلات غير المنفصلة. ICML 2019
ظهور الثبات والتفكيك في التمثيلات العميقة
تقليل المخاطر الثابت
إصلاح إلبو المكسور. ICML 2018.
الحدود المتنوعة الأكثر إحكاما ليست بالضرورة أفضل. ICML 2018
Bernoulli المستمر: إصلاح خطأ منتشرة في أجهزة الترميز التلقائي المتغير. Neupips 2019
هل تعرف النماذج التوليدية العميقة ماذا لا يعرفون؟ ICLR 2019
تقدير فعال لنماذج اللغة التوليدية العميقة. ACL 2020
ما مدى جودة خلفي بايز في الشبكات العصبية العميقة حقًا؟ ICML 2020
نظرية إحصائية للخلايا الخلفية الباردة في الشبكات العصبية العميقة. ICLR 2021
قيود النماذج التلقائية وبدائلها. NAACL 2021