LLM · NLP
text2all · all2all
متعدد الوسائط · متعددة المهام
يزدهر الذكاء البشري على مفهوم التآزر المعرفي ، حيث يعطي التعاون وتكامل المعلومات بين العمليات المعرفية المختلفة نتائج متفوقة مقارنة بالعمليات المعرفية الفردية في عزلة. على الرغم من أن نماذج اللغة الكبيرة (LLMS) أظهرت الأداء الواعد كوكلاء عامين لحل المهام ، إلا أنها لا تزال تكافح مع المهام التي تتطلب معرفة مجال مكثف وتفكير معقد. في هذا العمل ، نقترح مطالبة الأداء الفردي (SPP) ، الذي يحول LLM واحد إلى تآزري إدراكي من خلال الانخراط في عملية التورط الذاتي متعددة مع شخصيات متعددة. يشير التآزر المعرفي إلى وكيل ذكي يتعاون مع عقول متعددة ، ويجمع بين نقاط القوة والمعرفة الفردية ، لتعزيز حل المشكلات والأداء العام في المهام المعقدة. من خلال تحديد ومحاكاة شخصيات مختلفة بشكل ديناميكي بناءً على مدخلات المهمة ، يطلق SPP إمكانات التآزر المعرفي في LLMS. لقد اكتشفنا أن تعيين شخصيات متعددة ذات الحبيبات الدقيقة في LLMS يثير قدرات أفضل لحل المشكلات مقارنة باستخدام عدد واحد أو ثابت من الشخصيات. نقوم بتقييم SPP على ثلاث مهام صعبة: Trivia Crative Writing ، و Codenames Collaborative ، and Logic Grid Puzzle ، يشمل كل من الأنواع المكثفة للمعرفة وكثافة التفكير. على عكس الأعمال السابقة ، مثل سلسلة الفكر ، التي تعزز فقط قدرات المنطق في LLMS ، فإن SPP يثير قدرة على اكتساب المعرفة الداخلية بشكل فعال ، ويقلل من الهلوسة ، ويحافظ على قدرات التفكير القوية. يمكن العثور على الكود والبيانات والمطالبات على: عنوان URL HTTPS هذا.
نقدم LLM-BLENDER ، وهو إطار عمل مصمم لتحقيق أداء متفوق باستمرار من خلال الاستفادة من نقاط القوة المتنوعة لنماذج لغة كبيرة مفتوحة المصدر (LLMS). يتكون إطار عملنا من وحدتين: Pairranker و Genfuser ، معالجة الملاحظة التي يمكن أن تختلف LLMs المثلى للأمثلة المختلفة بشكل كبير. توظف PairRanker طريقة مقارنة متخصصة للزوج لتمييز الاختلافات الدقيقة بين مخرجات المرشح. إنه يشفر بشكل مشترك نص الإدخال وزوج من المرشحين ، باستخدام ترميزات الالتحاق المتقاطعة لتحديد الناتج المتفوق. توضح نتائجنا أن Pairranker يعرض أعلى ارتباط مع الترتيب القائم على ChatGPT. بعد ذلك ، يهدف Genfuser إلى دمج المرشحين الأعلى تصنيفًا ، مما يولد إنتاجًا محسّنًا من خلال الاستفادة من نقاط قوتهم وتخفيف نقاط ضعفهم. لتسهيل التقييم على نطاق واسع ، نقدم مجموعة بيانات قياسية ، Mixinstruct ، وهو مزيج من مجموعات بيانات التعليمات المتعددة التي تتميز بمقارنات Oracle Pairwise. تتفوق LLM-BLENDE على LLMs الفردية وأساليب خط الأساس عبر مقاييس مختلفة ، مما يضع فجوة كبيرة في الأداء.
أظهرت نماذج اللغة الكبيرة (LLMS) وعدًا في إثبات نظريات رسمية باستخدام مساعدين إثبات مثل Lean. ومع ذلك ، يصعب إعادة إنتاج الأساليب الحالية أو البناء عليها بسبب الكود الخاص والبيانات ومتطلبات حساب كبيرة. وقد خلق هذا حواجز كبيرة أمام البحث في أساليب التعلم الآلي لإثبات نظرية. تزيل هذه الورقة هذه الحواجز من خلال تقديم Leandojo: ملعب Lean مفتوح المصدر يتكون من مجموعات الأدوات والبيانات والموديلات والمعايير. يستخلص Leandojo البيانات من Lean ويمكّن التفاعل مع بيئة الإثبات برمجيًا. أنه يحتوي على شروح دقيقة للمباني في البراهين ، مما يوفر بيانات قيمة لاختيار الفرضية-عنق الزجاجة الرئيسي في نظرية إثبات. باستخدام هذه البيانات ، نقوم بتطوير Reprovers (المثل الذي تم التغلب عليه الاسترجاع): أول Prover المستندة إلى LLM والذي يتم زيادة الاسترجاع لاختيار أماكن من مكتبة الرياضيات الشاسعة. إنه غير مكلف ويحتاج إلى أسبوع واحد فقط من GPU من التدريب. يستفيد Retriever من إمكانية تحليل برنامج Leandojo لتحديد المباني التي يمكن الوصول إليها والأمثلة السلبية الصعبة ، مما يجعل الاسترجاع أكثر فعالية. علاوة على ذلك ، نقوم ببناء معيار جديد يتكون من 96،962 نظرية وإثباتًا مستخرجة من مكتبة الرياضيات في Lean. إنه يتميز بتقسيم البيانات الصعبة التي تتطلب من المثل أن تعمم على النظريات التي تعتمد على أماكن جديدة لا تستخدم في التدريب. نحن نستخدم هذا المعيار للتدريب والتقييم ، وتظهر النتائج التجريبية فعالية التكرار على خطوط الأساس غير البارزة و GPT-4. وبالتالي ، فإننا نقدم المجموعة الأولى من محولات نظرية LLM مفتوحة المصدر دون أي مجموعات بيانات خاصة ونطلقها بموجب ترخيص معهد ماساتشوستس للتكنولوجيا لتسهيل مزيد من البحث.
الإجابة على الاستعلامات المرئية هي مهمة معقدة تتطلب كل من المعالجة المرئية والتفكير. لا تفرق النماذج من طرف إلى طرف ، وهي النهج السائد لهذه المهمة ، بشكل صريح بين الاثنين ، مما يحد من القابلية للتفسير والتعميم. يقدم تعلم البرامج المعيارية بديلاً واعداً ، لكنه أثبت تحديًا بسبب صعوبة تعلم كل من البرامج والوحدات النمطية في وقت واحد. نقدم Vipergpt ، وهو إطار يعمل على الاستفادة من نماذج جيل الكود لتكوين نماذج الرؤية واللغة في روتين فرعي لإنتاج نتيجة لأي استعلام. يستخدم Vipergpt واجهة برمجة تطبيقات متوفرة للوصول إلى الوحدات النمطية المتاحة ، وتؤلفها عن طريق إنشاء رمز Python الذي يتم تنفيذه لاحقًا. لا يتطلب هذا النهج البسيط أي تدريب إضافي ، ويحقق نتائج حديثة عبر مختلف المهام البصرية المعقدة.
أصبح طول تسلسل التحجيم طلبًا حاسمًا في عصر نماذج اللغة الكبيرة. ومع ذلك ، فإن الأساليب الحالية تكافح مع التعقيد الحسابي أو التعبير النموذجية ، مما يجعل الحد الأقصى لطول التسلسل مقيدًا. في هذا العمل ، نقدم LongNet ، وهو متغير محول يمكنه قياس طول التسلسل إلى أكثر من مليار رمز ، دون التضحية بالأداء على تسلسل أقصر. على وجه التحديد ، نقترح الانتباه المتوسع ، والذي يوسع الحقل اليقظ بشكل كبير مع نمو المسافة. Longnet له مزايا كبيرة: 1) لديها تعقيد حساب خطي واعتماد لوغاريتم بين الرموز ؛ 2) يمكن تقديمه كمدرب موزع لتسلسل طويل للغاية ؛ 3) اهتمامها المتوسع هو بديل للانتباه القياسي ، والذي يمكن دمجه بسلاسة مع التحسين القائم على المحول الحالي. توضح نتائج التجارب أن LongNet تعطي أداءًا قويًا على كل من نمذجة التسلسل الطويل ومهام اللغة العامة. يفتح عملنا إمكانيات جديدة لنمذجة تسلسل طويل جدًا ، على سبيل المثال ، معالجة مجموعة كاملة أو حتى الإنترنت بأكمله كتسلسل.
هناك تقارب كبير في اللغة والرؤية والتدريب المتعدد الوسائط الناشئة. في هذا العمل ، نقدم نموذج الأساس متعدد الوسائط للأغراض العامة BEIT-3 ، والذي يحقق أداء النقل الحديث على كل من مهام الرؤية ولغة الرؤية. على وجه التحديد ، نتقدم إلى التقارب الكبير من ثلاثة جوانب: العمارة العمود الفقري ، ومهمة التدريب المسبق ، وتوسيع نطاق النموذج. نقدم محولات متعددة الممرات للنمذجة للأغراض العامة ، حيث تتيح البنية المعيارية كل من الانصهار العميق والترميز الخاص بالطريقة. استنادًا إلى العمود الفقري المشترك ، نقوم بإجراء نمذجة "لغة" مقنعة على الصور (imglish) والنصوص (الإنجليزية) وأزواج النص ("الجمل الموازية") بطريقة موحدة. تُظهر النتائج التجريبية أن BEIT-3 يحصل على أحدث أداء على الكشف عن الكائنات (COCO) ، والتجزئة الدلالية (ADE20K) ، وتصنيف الصور (ImageNet) ، والمنطق البصري (NLVR2) ، والرد البصري للرد (VQAV2) ، وتوضيح الصور (COCO) ، والاسترداد المتقاطع (flickr30k).
شهدت نماذج اللغة الكبيرة (LLMS) موجة رائعة من التطورات مؤخرًا ، حيث تتفوق النماذج الآن في مجموعة متنوعة من المهام ، مثل التفكير الرياضي وتوليف البرنامج. ومع ذلك ، فإن إمكاناتها لاستخدام الأدوات بفعالية عبر مكالمات API لا تزال غير محققة. هذه مهمة صعبة حتى بالنسبة لـ LLMs الحديثة اليوم مثل GPT-4 ، ويرجع ذلك إلى حد كبير إلى عدم قدرتها على توليد حجج مدخلات دقيقة وميلها إلى الهلوس للاستخدام الخاطئ لمكالمة API. نطلق سراح Gorilla ، وهو نموذج قائم على Llama الذي تم تحريكه يتجاوز أداء GPT-4 في كتابة مكالمات API. عند دمجها مع مسترد المستندات ، يوضح غوريلا قدرة قوية على التكيف مع تغييرات مستند وقت الاختبار ، مما يتيح تحديثات المستخدم المرنة أو تغييرات الإصدار. كما أنه يخفف إلى حد كبير من مسألة الهلوسة ، التي تمت مواجهتها عادة عند دفع LLMS مباشرة. لتقييم قدرة النموذج ، نقدم Apibench ، مجموعة بيانات شاملة تتكون من Huggingface و Torchhub و TensorHub واجهات برمجة التطبيقات. يوضح التكامل الناجح لنظام الاسترجاع مع الغوريلا إمكانية استخدام LLMs للأدوات بشكل أكثر دقة ، ومواكبة الوثائق المحدثة بشكل متكرر ، وبالتالي زيادة موثوقية مخرجاتها وتطبيقها. يتوفر نموذج ورمز الغوريلا على https://github.com/shishirpatil/gorilla.
حققت نماذج اللغة الكبيرة (LLMS) تقدمًا ملحوظًا في مهام معالجة اللغة الطبيعية المختلفة ذات القدرات الناشئة. ومع ذلك ، فإنهم يواجهون قيودًا متأصلة ، مثل عدم القدرة على الوصول إلى المعلومات الحديثة ، أو الاستفادة من الأدوات الخارجية ، أو أداء التفكير الرياضي الدقيق. في هذه الورقة ، نقدم Chameleon ، وهو إطار تفكير تكويني للتشكيل والتشغيل الذي يعزز LLMs للمساعدة في مواجهة هذه التحديات. يقوم Chameleon بتجميع البرامج لتكوين أدوات مختلفة ، بما في ذلك طرز LLM ، ونماذج الرؤية الجاهزة ، ومحركات البحث على الويب ، ووظائف Python ، والوحدات النمطية القائمة على القواعد المصممة لصالح المستخدمين. تم تصميم Chameleon على قمة LLM كمخطط للغة الطبيعية ، وتسلسل الأدوات المناسب لتكوين وتنفيذ من أجل توليد استجابة نهائية. نعرض القدرة على التكيف وفعالية الحرباء في مهمتين: ScienceQa و TabMWP. والجدير بالذكر أن Chameleon مع GPT-4 يحقق دقة 86.54 ٪ على ScienceQA ، مما يتحسن بشكل كبير على أفضل طراز قليلة المنشور بنسبة 11.37 ٪ ؛ باستخدام GPT-4 باعتباره LLM الأساسي ، يحقق Chameleon زيادة بنسبة 17.8 ٪ عن طراز أحدث ، مما يؤدي إلى دقة إجمالية بنسبة 98.78 ٪ على TABMWP. تشير الدراسات الإضافية إلى أن استخدام GPT-4 كمخطط يعرض اختيارًا أكثر اتساقًا وأدوات عقلانية وأنه قادر على استنتاج القيود المحتملة بالنظر إلى التعليمات ، مقارنةً بـ LLMs الأخرى مثل ChatGPT.
إن كيفية تحويل نماذج اللغة الكبيرة (LLMS) بكفاءة إلى متابعين التعليم هو في الآونة الأخيرة اتجاه بحث شائع ، في حين أن تدريب LLM للتفكير متعدد الوسائط لا يزال أقل استكشافًا. على الرغم من أن Llama-Adapter الأخيرة يوضح القدرة على التعامل مع المدخلات البصرية مع LLMs ، إلا أنه لا يزال من غير الممكن تعميمه جيدًا على التعليمات المرئية المفتوحة وتتخلف عن GPT-4. في هذه الورقة ، نقدم LLAMA-ADAPTER V2 ، وهو نموذج تعليمات بصرية فعال معلمة. على وجه التحديد ، نقوم أولاً بزيادة LLAMA-ADAPTER عن طريق فتح معلمات أكثر قابلية للتعلم (على سبيل المثال ، NORM ، التحيز والمقياس) ، والتي توزع القدرة على متابعة التعليمات عبر نموذج LAMA بأكمله إلى جانب المحولات. ثانياً ، نقترح استراتيجية اندماج مبكرة لتغذية الرموز البصرية فقط في طبقات LLM المبكرة ، مما يساهم في دمج المعرفة البصرية بشكل أفضل. ثالثًا ، يتم تقديم نموذج تدريب مشترك لأزواج النص النصية وبيانات تتبع التعليمات من خلال تحسين مجموعات مفككة من المعلمات القابلة للتعلم. هذه الاستراتيجية تخفف بشكل فعال من التداخل بين المهمتين لمحاذاة نص الصورة والتعليمات التالية وتحقق التفكير القوي متعدد الوسائط مع فقط مجموعة بيانات صورة صغيرة على نطاق صغير. أثناء الاستدلال ، ندمج نماذج خبراء إضافية (مثل أنظمة التعليق/التعليق على الحروف) في Llama-Adapter لتعزيز قدرتها على فهم الصور دون تكبد تكاليف التدريب. بالمقارنة مع Llama-Adapter الأصلي ، يمكن لـ Llama-Adapter V2 إجراء تعليمات متعددة الوسائط مفتوحة من خلال مجرد تقديم 14 مترًا على Llama. يُظهر الإطار المصمم حديثًا أيضًا إمكانات متابعة للتعليمات في اللغة أقوى وحتى يتفوق في تفاعلات الدردشة. تتوفر الكود والنماذج الخاصة بنا في عنوان URL HTTPS هذا.
يمكن للوكلاء المعقولين للسلوك البشري تمكين التطبيقات التفاعلية التي تتراوح من البيئات الغامرة إلى المساحات البروفة للاتصال بين الأشخاص إلى أدوات النماذج الأولية. في هذه الورقة ، نقدم عوامل توليدية-وكلاء البرمجيات الحاسوبية التي تحاكي السلوك البشري المعقول. يستيقظ الوكلاء التوليديون ويطبخون وجبة الإفطار والتوجه إلى العمل ؛ يرسم الفنانون ، بينما يكتب المؤلفون ؛ إنهم يشكلون آراء ، ويلاحظون بعضهم البعض ، ويبدأون المحادثات ؛ إنهم يتذكرون ويتفكرون في الأيام الماضية لأنهم يخططون في اليوم التالي. لتمكين العوامل التوليدية ، وصفنا بنية تمتد نموذج لغة كبير لتخزين سجل كامل لتجارب الوكيل باستخدام اللغة الطبيعية ، وتوليف تلك الذكريات مع مرور الوقت إلى تأملات عالية المستوى ، واستردادها ديناميكيًا لتخطيط السلوك. نحن نستند إلى إنشاء عوامل توليدية لتوزيع بيئة رمل تفاعلية مستوحاة من SIMS ، حيث يمكن للمستخدمين النهائيين التفاعل مع بلدة صغيرة مكونة من خمسة وعشرين وكيلًا باستخدام اللغة الطبيعية. في التقييم ، تنتج هذه العوامل التوليدية سلوكيات اجتماعية فردية وناشطة: على سبيل المثال ، بدءًا من فكرة واحدة محددة للمستخدم فقط بأن أحد العوامل يريد رمي حفلة عيد الحب ، وينشر الوكلاء الدعوات بشكل مستقل إلى الحزب على مدار اليومين المقبلين. نوضح من خلال الاجتثاث أن مكونات بنية وكيلنا-الحفظ والتخطيط والتفكير-تساهم بشكل نقدي في تصدّر سلوك الوكيل. من خلال دمج نماذج اللغة الكبيرة مع العوامل الحسابية والتفاعلية ، يقدم هذا العمل أنماطًا معمارية وتفاعلًا لتمكين عمليات المحاكاة المعقولة للسلوك البشري.
أظهرت التطورات الحديثة في اتخاذ القرارات وكلاء نموذج اللغة الكبير (LLM) أداءً مثيرًا للإعجاب عبر مختلف المعايير. ومع ذلك ، فإن هذه الأساليب الحديثة تتطلب عادةً النموذج الداخلي للضبط الدقيق أو النموذج الخارجي بشكل دقيق أو تحسين السياسة على مساحة حالة محددة. يمكن أن يثبت تنفيذ هذه الأساليب تحديًا بسبب ندرة بيانات التدريب عالية الجودة أو عدم وجود مساحة حكومية محددة جيدًا. علاوة على ذلك ، لا تمتلك هؤلاء الوكلاء صفات معينة متأصلة في عمليات صنع القرار البشري ، وتحديداً القدرة على التعلم من الأخطاء. يسمح الانعكاس الذاتي للبشر بحل المشكلات الجديدة بكفاءة من خلال عملية التجربة والخطأ. بناءً على الأبحاث الحديثة ، نقترح الانعكاس ، وهو نهج يمنح وكيلًا يتمتع بذاكرة ديناميكية وقدرات الانعكاس الذاتي لتعزيز قدراتها الحالية في اختيار التتبع وقدرات اختيار العمل الخاصة بها. لتحقيق الأتمتة الكاملة ، نقدم إرشاديًا مباشرًا ولكنه فعال يمكّن الوكيل من تحديد مثيلات الهلوسة ، وتجنب التكرار في تسلسل الإجراءات ، وفي بعض البيئات ، قم ببناء خريطة ذاكرة داخلية للبيئة المحددة. لتقييم نهجنا ، نقوم بتقييم قدرة الوكيل على إكمال مهام صنع القرار في بيئات ALFWORLD ومهام أسئلة وأجوبة مكثفة في مجال البحث في بيئات Hotpotqa. نلاحظ معدلات النجاح بنسبة 97 ٪ و 51 ٪ ، على التوالي ، ونقدم مناقشة حول الخاصية الناشئة عن التفكير الذاتي.
مثل People ، لا تقوم LLMs دائمًا بإنشاء أفضل نص لمشكلة جيل معينة في المحاولة الأولى (على سبيل المثال ، الملخصات ، الإجابات ، التفسيرات). مثلما يقوم الناس بتحسين نصهم ، نقدم التردد الذاتي ، وهو إطار لتحسين المخرجات الأولية مماثلة من LLMS من خلال التغذية المرتدة والتكرار. الفكرة الرئيسية هي إنشاء إخراج باستخدام LLM ، ثم السماح للنموذج نفسه بتوفير ملاحظات متعددة الأمن لإخراجها ؛ أخيرًا ، يقوم النموذج نفسه بتحسين إخراجه الذي تم إنشاؤه مسبقًا بالنظر إلى ملاحظاته الخاصة. على عكس العمل السابق ، لا يتطلب إطار التحسين التكراري لدينا بيانات تدريب خاضعة للإشراف أو تعلم تعزيز ، ويعمل مع LLM واحد. نحن نجرب 7 مهام متنوعة ، بدءًا من إعادة الكتابة إلى التفكير في الرياضيات ، مما يدل على أن نهجنا يتفوق على الأداء المباشر. في جميع المهام ، يفضل البشر المخرجات التي تم إنشاؤها مع العربات الذاتية من قبل البشر والمقاييس الآلية على تلك التي تم إنشاؤها مباشرة مع GPT-3.5 و GPT-4 ، وتحسن في المتوسط بنسبة 20 ٪ المطلقة عبر المهام.
يعد حل مهام الذكاء الاصطناعي المعقدة مع مجالات وطرائق مختلفة خطوة أساسية نحو الذكاء الاصطناعي المتقدم. في حين أن هناك نماذج وفيرة من الذكاء الاصطناعى متوفرة للمجالات والطوجل المختلفة ، إلا أنها لا تستطيع التعامل مع مهام الذكاء الاصطناعي المعقدة. بالنظر إلى أن نماذج اللغة الكبيرة (LLMS) أظهرت قدرة استثنائية في فهم اللغة ، وتوليدها ، والتفاعل ، والتفكير ، ندافع عن أن LLMs يمكن أن تعمل كوحدة تحكم لإدارة نماذج الذكاء الاصطناعى الحالية لحل مهام الذكاء الاصطناعى المعقدة واللغة يمكن أن تكون واجهة عامة لتمكين هذا. استنادًا إلى هذه الفلسفة ، نقدم HuggingGpt ، وهو إطار يعمل على الاستفادة من LLMS (على سبيل المثال ، chatgpt) لربط نماذج الذكاء الاصطناعى المختلفة في مجتمعات التعلم الآلي (على سبيل المثال ، معانقة الوجه) لحل مهام الذكاء الاصطناعي. على وجه التحديد ، نستخدم chatgpt لإجراء تخطيط المهام عند تلقي طلب المستخدم ، وحدد النماذج وفقًا لوصف الوظائف المتوفرة في وجه المعانقة ، وتنفيذ كل مهام فرعية باستخدام نموذج الذكاء الاصطناعي المحدد ، وتلخيص الاستجابة وفقًا لنتائج التنفيذ. من خلال الاستفادة من القدرة اللغوية القوية لنماذج ChatGpt ونماذج AI الوفيرة في وجه المعانقة ، فإن Hugginggpt قادر على تغطية العديد من مهام الذكاء الاصطناعى المتطورة في طرائق ومجالات مختلفة وتحقيق نتائج مثيرة للإعجاب في اللغة والرؤية والكلام والمهام الصعبة الأخرى ، والتي تهدف إلى الذكاء الاصطناعي المتقدم.
Auto-GPT هو تطبيق تجريبي مفتوح المصدر يعرض إمكانات نموذج لغة GPT-4. هذا البرنامج ، مدفوعًا بـ GPT-4 ، يتنقل مع "أفكار" LLM ، لتحقيق أي هدف تحدده بشكل مستقل. كواحد من الأمثلة الأولى لـ GPT-4 تعمل بشكل مستقل بالكامل ، يدفع GPT التلقائي حدود ما هو ممكن مع الذكاء الاصطناعي.
هناك عدد متزايد من نماذج اللغة الكبيرة (LLMs) التي يمكن للمستخدمين الاستعلام عن رسوم. نقوم بمراجعة التكلفة المرتبطة بالاستعلام عن واجهات برمجة التطبيقات LLM الشهيرة ، مثل GPT-4 ، ChatGPT ، J1-Jumbo ، ونجد أن هذه النماذج لها هياكل تسعير غير متجانسة ، مع الرسوم التي يمكن أن تختلف عن طريقتين من حيث الحجم. على وجه الخصوص ، يمكن أن يكون استخدام LLMs على مجموعات كبيرة من الاستفسارات والنص مكلفًا. بدافع من هذا ، نضع ونناقش ثلاثة أنواع من الاستراتيجيات التي يمكن للمستخدمين استغلالها لتقليل تكلفة الاستدلال المرتبطة باستخدام LLMS: 1) التكيف السريع ، 2) تقريب LLM ، و 3) شلالات LLM. على سبيل المثال ، نقترح FrugalGPT ، وهو مثيل بسيط ومرن من سلسلة LLM التي تتعلم مجموعات LLMs لاستخدامها في استعلامات مختلفة من أجل تقليل التكلفة وتحسين الدقة. تبين تجاربنا أن FrugalGPT يمكن أن يتطابق مع أداء أفضل LLM فردي (على سبيل المثال GPT-4) مع تخفيض تكلفة ما يصل إلى 98 ٪ أو تحسين الدقة أكثر من GPT-4 بمقدار 4 ٪ بنفس التكلفة. الأفكار والنتائج المقدمة هنا تقع أساسًا لاستخدام LLMs بشكل مستدام وكفاءة.
أظهرت نماذج اللغة الكبيرة (LLMS) وعدًا في إثبات نظريات رسمية باستخدام مساعدين إثبات مثل Lean. ومع ذلك ، يصعب إعادة إنتاج الأساليب الحالية أو البناء عليها بسبب الكود الخاص والبيانات ومتطلبات حساب كبيرة. وقد خلق هذا حواجز كبيرة أمام البحث في أساليب التعلم الآلي لإثبات نظرية. تزيل هذه الورقة هذه الحواجز من خلال تقديم Leandojo: ملعب Lean مفتوح المصدر يتكون من مجموعات الأدوات والبيانات والموديلات والمعايير. يستخلص Leandojo البيانات من Lean ويمكّن التفاعل مع بيئة الإثبات برمجيًا. أنه يحتوي على شروح دقيقة للمباني في البراهين ، مما يوفر بيانات قيمة لاختيار الفرضية-عنق الزجاجة الرئيسي في نظرية إثبات. باستخدام هذه البيانات ، نقوم بتطوير Reprovers (المثل الذي تم التغلب عليه الاسترجاع): أول Prover المستندة إلى LLM والذي يتم زيادة الاسترجاع لاختيار أماكن من مكتبة الرياضيات الشاسعة. إنه غير مكلف ويحتاج إلى أسبوع واحد فقط من GPU من التدريب. يستفيد Retriever من إمكانية تحليل برنامج Leandojo لتحديد المباني التي يمكن الوصول إليها والأمثلة السلبية الصعبة ، مما يجعل الاسترجاع أكثر فعالية. علاوة على ذلك ، نقوم ببناء معيار جديد يتكون من 96،962 نظرية وإثباتًا مستخرجة من مكتبة الرياضيات في Lean. إنه يتميز بتقسيم البيانات الصعبة التي تتطلب من المثل أن تعمم على النظريات التي تعتمد على أماكن جديدة لا تستخدم في التدريب. نحن نستخدم هذا المعيار للتدريب والتقييم ، وتظهر النتائج التجريبية فعالية التكرار على خطوط الأساس غير البارزة و GPT-4. وبالتالي ، فإننا نقدم المجموعة الأولى من محولات نظرية LLM مفتوحة المصدر دون أي مجموعات بيانات خاصة ونطلقها بموجب ترخيص معهد ماساتشوستس للتكنولوجيا لتسهيل مزيد من البحث.
لقد أظهر العمل الأخير أن حث نماذج اللغة مع تمثيلات تشبه الكود للغة الطبيعية تؤدي إلى تحسينات في الأداء على مهام التفكير المنظمة. ومع ذلك ، فإن هذه المهام تشمل فقط مجموعة فرعية صغيرة من جميع مهام اللغة الطبيعية. في عملنا ، نسعى إلى الإجابة على ما إذا كانت عملية توصيل التعليمات البرمجية هي الطريقة المفضلة للتفاعل مع نماذج اللغة بشكل عام. نقوم بمقارنة مطالبات التعليمات البرمجية والنص عبر ثلاثة نماذج GPT الشهيرة (Davinci ، و Code-Davinci-002 ، و Text-Davinc-002) بشأن مجموعة أوسع من المهام (على سبيل المثال ، QA ، المشاعر ، الملخص) وتجد أنه مع استثناءات قليلة ، لا تتفوق مطالبات الكود باستمرار على المطالبات النصية. علاوة على ذلك ، نظهر أن نمط موجه الكود له تأثير كبير على الأداء لبعض المهام ولكن ليس جميعها وأن ضبط تعليمات النص يؤدي إلى أداء أفضل لمطالبات الكود.
تؤدي نماذج اللغة الكبيرة (LLMS) تفكيرًا معقدًا عن طريق توليد تفسيرات لتنبؤاتها. ومع ذلك ، فإن الهدف التكميلي للتفسيرات هو توصيل المعرفة المفيدة التي تحسن العوامل الأضعف. وبالتالي ، فإننا نتحقق مما إذا كانت LLMs أيضًا تجعل المعلمين الجيدين للعوامل الأضعف. على وجه الخصوص ، نحن نعتبر إطار عمل للطلاب بين اثنين من الوكلاء LLM وندرس إذا ومتى ، وكيف يجب أن يتدخل المعلم مع تفسيرات اللغة الطبيعية لتحسين أداء الطالب. نظرًا لأن التواصل مكلف ، فإننا نحدد ميزانية بحيث يقوم المعلم بتوصيل تفسيرات لجزء صغير من البيانات ، وبعد ذلك يجب على الطالب أداءً جيدًا من تلقاء نفسه. نحن نتحلل مشكلة التدريس على طول أربعة محاور: (1) إذا كان التدخل وقت اختبار المعلم يحسن تنبؤات الطلاب ، (2) عندما يكون من المفيد شرح نقطة بيانات ، (3) كيف ينبغي للمعلم تخصيص التفسيرات لتعليم الطالب بشكل أفضل ، و (4) إذا كانت توضيحات المعلم تحسن أيضًا أداء الطالب على البيانات غير المبررة في المستقبل. نظهر أولاً أن LLMs للمعلم يمكن أن يتدخل بالفعل في تفكير الطلاب لتحسين أدائهم. بعد ذلك ، نقترح نهج نظرية العقل ، حيث يقوم المعلم ببناء نماذج عقلية قليلة للطالب. يحدد النموذج الأول وظيفة التدخل التي تحاكي فائدة التدخل ، مما يسمح للمعلم بالتدخل عندما تكون هذه الأداة هي أعلى أداء للطالب في الميزانيات المنخفضة. يمكّن النموذج الثاني المعلم من تخصيص تفسيرات لطالب معين ويتفوق على المعلمين غير الشخصيين. نوضح أيضًا أنه في التفاعلات متعددة المنعطفات ، تعمم تفسيرات المعلمين والتعلم من البيانات الموضحة على تحسين أداء الطالب على البيانات غير المبررة في المستقبل. أخيرًا ، نتحقق أيضًا من أن المعلمين غير المحاذاة يمكنهم خفض أداء الطلاب إلى فرصة عشوائية عن طريق تضليلهم عن قصد.
نقدم KOSMOS-2 ، وهو نموذج لغة كبير متعدد الوسائط (MLLM) ، مما يتيح قدرات جديدة لإدراك أوصاف الكائنات (على سبيل المثال ، مربعات محددة) ونص الأساس للعالم البصري. على وجه التحديد ، نحن نمثل التعبيرات المرجعية كروابط في Markdown ، أي ، "[SPANS SPAN] (مربعات محددة)" ، حيث تكون أوصاف الكائنات متسلسلة من رموز الموقع. جنبا إلى جنب مع الشركات متعددة الوسائط ، نقوم ببناء بيانات واسعة النطاق من أزواج نص الصور الأرضية (تسمى GRIT) لتدريب النموذج. بالإضافة إلى القدرات الحالية لـ MLLMS (على سبيل المثال ، إدراك الطرائق العامة ، وبعد الإرشادات ، وأداء التعلم داخل السياق) ، يدمج Kosmos-2 قدرة التأريض في تطبيقات المصب. نقوم بتقييم kosmos-2 على مجموعة واسعة من المهام ، بما في ذلك (1) التأريض متعدد الوسائط ، مثل إحالة فهم التعبير ، وتأريض العبارات ، (2) الإشارة متعددة الوسائط ، مثل إحالة توليد التعبير ، (3) مهام الإدراك التي تتولى اللغة ، و (4) فهم اللغة وتوليدها. يضع هذا العمل الأساس لتطوير تجسيد الذكاء الاصطناعى ويسلق الضوء على التقارب الكبير للغة ، والإدراك متعدد الوسائط ، والعمل ، ونمذجة العالم ، وهي خطوة أساسية نحو الذكاء العام الاصطناعي. تتوفر النماذج الرمز والنماذج المسبقة في عنوان URL HTTPS هذا.
نقدم Palm 2 ، وهو نموذج لغوي جديد على أحدث طراز له قدرات متعددة اللغات والمنطق وأكثر كفاءة في حسابها. PALM 2 هو نموذج قائم على المحول المدرب باستخدام مزيج من الأهداف. من خلال تقييمات واسعة النطاق على اللغة الإنجليزية والمتعددة اللغات ، ومهام التفكير ، نوضح أن Palm 2 قد تحسنت بشكل كبير من الجودة في مهام المصب عبر أحجام نموذجية مختلفة ، بينما تظهر في وقت واحد استنتاج أسرع وأكثر كفاءة مقارنة بالنخيل. تتيح هذه الكفاءة المحسنة النشر أوسع مع السماح أيضًا للنموذج بالاستجابة بشكل أسرع ، للحصول على وتيرة أكثر طبيعية للتفاعل. PALM 2 يوضح قدرات التفكير القوية التي تمثلها تحسينات كبيرة على النخيل على المقعد الكبير وغيرها من مهام التفكير. يعرض Palm 2 أداءً مستقرًا على مجموعة من تقييمات الذكاء الاصطناعى المسؤولة ، ويمكّن التحكم في وقت الاستدلال على السمية دون أن يكون هناك حمولة إضافية أو تأثير على القدرات الأخرى. بشكل عام ، يحقق Palm 2 أداءً أحدث عبر مجموعة متنوعة من المهام والقدرات.
إن توليد حركة إنسانية واقعية من أوصاف العمل المعطاة قد شهد تطورات كبيرة بسبب المتطلبات الناشئة للإنسان الرقميين. على الرغم من أن الأعمال الحديثة حققت نتائج مثيرة للإعجاب في توليد حركة مباشرة من أوصاف الإجراء النصية ، إلا أنها غالبًا ما تدعم طريقة واحدة فقط من إشارة التحكم ، والتي تحد من تطبيقها في صناعة الإنسان الرقمية الحقيقية. تقدم هذه الورقة مولدًا للأغراض العامة (MotionGPT) يمكنه استخدام إشارات التحكم متعددة الوسائط ، على سبيل المثال ، يطرح النص والإطار الفردي ، لتوليد حركات بشرية متتالية من خلال التعامل مع إشارات متعددة الوسائط كرموز إدخال خاصة في نماذج لغة كبيرة (LLMs). على وجه التحديد ، نقوم أولاً بتعيين إشارات التحكم متعددة الوسائط في رموز منفصلة ثم صياغتها في تعليمات موجهة موحدة لمطالبة LLMs بإنشاء إجابة الحركة. يوضح MotionGPT لدينا نموذج توليد الحركة البشرية الموحدة مع إشارات التحكم متعددة الوسائط عن طريق ضبط 0.4 ٪ فقط من معلمات LLM. على حد علمنا ، فإن MotionGPT هي الطريقة الأولى لتوليد الحركة البشرية من خلال إشارات التحكم متعددة الوسائط ، والتي نأمل أن تتمكن من إلقاء الضوء على هذا الاتجاه الجديد. يجب إطلاق الرموز عند القبول.
أظهرت نماذج اللغة الكبيرة (LLMS) أداءً مثيرًا للإعجاب على التفكير المعقد من خلال الاستفادة من سلسلة الفكرة (COT) مما يؤدي إلى توليد سلاسل التفكير المتوسطة كأساس منطقي لاستنتاج الإجابة. ومع ذلك ، ركزت دراسات COT الحالية على طريقة اللغة. نقترح الطلاء متعدد الوسائط الذي يدمج طرائق اللغة (النص) والرؤية (الصور) في إطار من مرحلتين يفصل توليد الأساس المنطقي واستدلال الإجابة. وبهذه الطريقة ، يمكن للاستدلال الإجابة الاستفادة من الأسباب المنطقية التي تم إنشاؤها بشكل أفضل والتي تستند إلى معلومات متعددة الوسائط. مع وجود COT متعدد الوسائط ، يتفوق نموذجنا الذي يقل عن مليار معلمة على أحدث طراز LLM (GPT-3.5) بمقدار 16 نقطة مئوية (75.17 ٪-> 91.68 ٪ من الدقة) على معيار ScienceQA وحتى يتجاوز الأداء البشري. الكود متاح للجمهور في عنوان URL HTTPS هذا.
Llama 2: Open Foundation ونماذج الدردشة التي تم ضبطها
يونيلم: التدريب على نطاق واسع على نطاق واسع عبر المهام واللغات والطرائق
الشبكات العصبية الكبيرة بشكل شنيع: طبقة الخبرة المتفوقة البارزة
glam: تحجيم فعال لنماذج اللغة مع الخبراء الخليط
تحجيم الرؤية مع مزيج متفرق من الخبراء
تصنيف النص "منخفض الموارد": طريقة تصنيف خالية من المعلمات مع الضواغط
AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks
Textbooks Are All You Need
Model Card and Evaluations for Claude Models
Full Parameter Fine-tuning for Large Language Models with Limited Resources
Augmenting Language Models with Long-Term Memory
Unifying Large Language Models and Knowledge Graphs: A Roadmap
Knowledge Distillation of Large Language Models
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
QLoRA: Efficient Finetuning of Quantized LLMs
LIMA: Less Is More for Alignment
Orca: Progressive Learning from Complex Explanation Traces of GPT-4
RWKV: Reinventing RNNs for the Transformer Era
Dr. LLaMA: Improving Small Language Models Through Generative Data Augmentation
The FLAN Instruction Tuning Repository
Phoenix: Democratizing ChatGPT across Languages
Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length
RedPajama-INCITE
China's Baidu claims its Ernie Bot beats ChatGPT on key tests as AI race heats up
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
LTM-1: an LLM with a 5,000,000 token context window
Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM
StarCoder: may the source be with you!
Cross-lingual Language Model Pretraining
Language Is Not All You Need: Aligning Perception with Language Models
Tackling multiple tasks with a single visual language model
Large Language Models are Zero-Shot Reasoners
Larger language models do in-context learning differently
GPT Understands, Too
P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
∞-former: Infinite Memory Transformer
Improving language models by retrieving from trillions of tokens
Augmented Language Models: a Survey
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Structure and Content-Guided Video Synthesis with Diffusion Models
MusicLM: Generating Music From Text
InstructGPT : Training language models to follow instructions with human feedback
BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
Multimodal Chain-of-Thought Reasoning in Language Models
Constitutional AI: Harmlessness from AI Feedback
Provable Copyright Protection for Generative Models
What learning algorithm is in-context learning? Investigations with linear models
A Path Towards Autonomous Machine Intelligence
PAL: Program-aided Language Models
Toolformer: Language Models Can Teach Themselves to Use Tools
LLaMA: Open and Efficient Foundation Language Models
Improving alignment of dialogue agents via targeted human judgements
Training Compute-Optimal Large Language Models
LLaMA-based ChatGPT training, ChatLLaMA
RLHF: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
BaGuaLu: Targeting Brain Scale Pretrained Models with over 37 Million Cores
LLaMA-7B, LLAMA Up-data, LLaMA: INT8 edition, UForm
Flamingo: a Visual Language Model for Few-Shot Learning, Blog
Multimodal Chain-of-Thought Reasoning in Language Models
How to use UForm
How to create KoChatLLaMA
Competition-Level Code Generation with AlphaCode
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
GPU and learning method required for KoChatLlaMA fine-tuning
Advantages and Problems of UForm
GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
PaLM-E: An Embodied Multimodal Language Model
Tightly-Integrated Generative Encoder-Decoder Representation
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
PaLM: Scaling Language Modeling with Pathways
SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
LoRA: Low-Rank Adaptation of Large Language Models
Language Models are Few-Shot Learners
Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning
Improving language models by retrieving from trillions of tokens
FLAN: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
The Wisdom of Hindsight Makes Language Models Better Instruction Followers
Exploring the Benefits of Training Expert Language Models over Instruction Tuning
Unsupervised Imputation of Non-ignorably Missing Data Using Importance-Weighted Autoencoders
The Power of Scale for Parameter-Efficient Prompt Tuning
Constitutional AI: Harmlessness from AI Feedback
Deep reinforcement learning from human preferences
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
Large Language Models with Controllable Working Memory
Do Prompt-Based Models Really Understand the Meaning of their Prompts?
Muse: Text-To-Image Generation via Masked Generative Transformers
Structure and Content-Guided Video Synthesis with Diffusion Models
Generative Pretraining from Pixels
A hunt for the Snark: Annotator Diversity in Data Practices
Accurate global machine learning force fields for molecules with hundreds of atoms
Algorithms with More Granular Differential Privacy Guarantees
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types
Are we cobblers without shoes? Making Computer Science data FAIR
Code Generation for In-Place Stencils
Creating, Calibrating, and Validating Large-Scale Microscopic Traffic Simulation
Increasing Impact of Mobile Health Programs: SAHELI for Maternal and Child Care
Designing Responsible AI: Adaptations of UX Practice to Meet Responsible AI Challenges
Developer Productivity for Humans: A Human-Centered Approach to Developer Productivity
Development of a Machine Learning Model for Sonographic Assessment of Gestational Age
Drug Design on Quantum Computers
Estimates of broadband upwelling irradiance from GOES-16 ABI
Information Processing and Management
Flake Aware Culprit Finding
Flexible Budgets in Restless Bandits: A Primal-Dual Algorithm for Efficient Budget Allocation
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
High-Performance GPU-to-CPU Transpilation and Optimization via High-Level Parallel Constructs
Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation
Infrastructuring Care: How Trans and Non-Binary People Meet Health and Well-Being Needs through Technology
KwikBucks: Correlation Clustering with Cheap-Weak and Expensive-Strong Signals
Learning to Bid in Contextual First Price Auctions
Machine Learning for Healthcare: A Bibliometric Study of Contributions from Africa
Scalable Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Health
Robust Planning over Restless Groups: Engagement Interventions for a Large-Scale Maternal Telehealth Program
Recitation-Augmented Language Models
RL4ReAl: Reinforcement Learning for Register Allocation
Quantum Simulation of Exact Electron Dynamics can be more Efficient than Classical Mean-Field Methods
Quantum simulation of exact electron dynamics can be more efficient than classical mean-field methods
Propeller: A Profile Guided, Relinking Optimizer for Warehouse-Scale Applications
Deepmind: Improving language models by retrieving from trillions of tokens
Deepmind: Building safer dialogue agents
Deepmind: Competitive programming with AlphaCode
Deepmind: Mastering Stratego, the classic game of imperfect information
Deepmind: DeepMind's latest research at NeurIPS 2022
Deepmind: Building interactive agents in video game worlds
Deepmind: Discovering novel algorithms with AlphaTensor
Deepmind: AlphaFold reveals the structure of the protein universe
Deepmind: Exploring the beauty of pure mathematics in novel ways
Deepmind: Nowcasting the next hour of rain
Deepmind: Putting the power of AlphaFold into the world's hands
Google Research: Deciphering clinical abbreviations with privacy protecting ML
Google Research: Google Research, 2022 & beyond: Language, vision and generative models
Google Research: Google Research, 2022 & beyond: Responsible AI
Google Research: Learning with queried hints
Google Research: Open Source Vizier: Towards reliable and flexible hyperparameter and blackbox optimization
Google Research: Google Research, 2022 & beyond: ML & computer systems
Google Research: Real-time tracking of wildfire boundaries using satellite imagery
Google Research: Breaching the 2 LMP Approximation Barrier for Facility Location with Applications to k-Median
Google Research: Chimane-Mosetén
Google Research: Differentially Private All-Pairs Shortest Path Distances: Improved Algorithms and Lower Bounds
Google Research: Differentially Private Fair Division
Google Research: DiffQG: Generating Questions on Paired Sentences
Google Research: Assessment of Security Defense of Native Programs Against Software Faults
Google Research: Adaptive mixing of auxiliary losses in supervised learning
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: DALL·E: Creating Images from Text
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: Jukebox
OpenAI: Solving Rubik's Cube with a Robot Hand
OpenAI: Multimodal Neurons in Artificial Neural Networks
OpenAI: CLIP: Connecting Text and Images
OpenAI: Image GPT
OpenAI: MuseNet
OpenAI: Emergent Tool Use from Multi-Agent Interaction
[2013/01] Efficient Estimation of Word Representations in Vector Space
[2014/12] Dependency-Based Word Embeddings
[2015/07] Neural Machine Translation of Rare Words with Subword Units
[2014/07] GloVe: Global Vectors for Word Representation : GloVe
[2016/06] Siamese CBOW: Optimizing Word Embeddings for Sentence Representations : Siamese CBOW
[2016/07] Enriching Word Vectors with Subword Information : fastText
[2014/09] Sequence to Sequence Learningwith Neural Networks : seq2seq
[2017/07] Attention Is All You Need : Transformer
[2017/08] Learned in Translation: Contextualized Word Vectors : CoVe
[2018/01] Universal Language Model Fine-tuning for Text Classification : ULMFIT
[2018/02] Deep contextualized word representations : ELMo
[2018/06] Improving Language Understanding by Generative Pre-Training : GPT-1
[2018/10] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : BERT
[2019/02] Language Models are Unsupervised Multitask Learners : GPT-2
[2019/04] Language Models with Transformers
[2019/08] Neural Text Generation with Unlikelihood Training
[2019/01] Cross-lingual Language Model Pretraining XLM
[2019/01] Multi-Task Deep Neural Networks for Natural Language Understanding : MT-DNN
[2019/01] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context : Transformer-XL
[2019/06] XLNet: Generalized Autoregressive Pretraining for Language Understanding : XLNet
[2019/04] The Curious Case of Neural Text Degeneration
[2019/09] Fine-Tuning Language Models from Human Preferences
[2019/01] BioBERT: a pre-trained biomedical language representation model for biomedical text mining : BioBERT
[2019/03] SciBERT: A Pretrained Language Model for Scientific Text : SciBERT
[2019/04] ClinicalBERT: Modeling Clinical Notes and Predicting Hospital Readmission : ClinicalBERT
[2019/06] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization : HIBERT
[2019/07] SpanBERT: Improving Pre-training by Representing and Predicting Spans : SpanBERT
[2019/04] Publicly Available Clinical BERT Embeddings
[2019/08] Pre-Training with Whole Word Masking for Chinese BERT
[2019/07] Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment
[2019/07] R-Transformer: Recurrent Neural Network Enhanced Transformer : R-Transformer
[2019/09] FREELB: ENHANCED ADVERSARIAL TRAINING FOR LANGUAGE UNDERSTANDING : FREELB
[2019/09] Mixup Inference: Better Exploiting Mixup to Defend Adversarial Attacks
[2019/10] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer : T5
[2018/07] Subword-level Word Vector Representations for Korean
[2019/08] Zero-shot Word Sense Disambiguation using Sense Definition Embeddings
[2019/06] Bridging the Gap between Training and Inference for Neural Machine Translation
[2019/06] Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
[2019/07] A Simple Theoretical Model of Importance for Summarization
[2019/05] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
[2019/07] We need to talk about standard splits
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2019/05] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems : SuperGLUE
[2020/01] Towards a Human-like Open-Domain Chatbot + Google AI Blog
[2020/03] ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators : ELECTRA
[2019/04] Mask-Predict: Parallel Decoding of Conditional Masked Language Models : Mask-Predict
[2020/01] Reformer: The Efficient Transformer : Reformer
[2020/04] Longformer: The Long-Document Transformer : Longformer
[2019/11] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation : DialoGPT
[2020/01] Towards a Human-like Open-Domain Chatbot
[2020/04] You Impress Me: Dialogue Generation via Mutual Persona Perception
[2020/04] Recipes for building an open-domain chatbot
[2020/04] ToD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogues : ToD-BERT
[2020/04] SOLOIST: Few-shot Task-Oriented Dialog with A Single Pre-trained Auto-regressive Model : SOLOIST
[2020/05] A Simple Language Model for Task-Oriented Dialogue
[2019/07] ReCoSa: Detecting the Relevant Contexts with Self-Attention for Multi-turn Dialogue Generation : ReCoSa
[2020/04] FastBERT: a Self-distilling BERT with Adaptive Inference Time : FastBERT
[2020/01] PoWER-BERT: Accelerating BERT inference for Classification Tasks : PoWER-BERT
[2019/10] DistillBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : DistillBERT
[2019/10] TinyBERT: Distilling BERT for Natural Language Understanding : TinyBERT
[2019/11] Not Enough Data? Deep Learning to the Rescue!
[2018/12] Conditional BERT Contextual Augmentation
[2020/03] Data Augmentation using Pre-trained Transformer Models
[2020/04] FLAT: Chinese NER Using Flat-Lattice Transformer : FLAT
[2019/12] Big Transfer (BiT): General Visual Representation Learning : BiT
[2019/04] ERNIE: Enhanced Representation through Knowledge Integration : ERNIE
[2019/07] ERNIE 2.0: A Continual Pre-training Framework for Language Understanding : ERNIE 2.0
[2020/06] ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph : ERNIE-ViL
[2020/12] ERNIE-Doc: A Retrospective Long-Document Modeling Transformer : ERNIE-Doc
[2021/07] ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation : ERNIE 3.0
[2022/10] Beyond English-Centric Bitexts for Better Multilingual Language Representation Learning
[2017/03] Distilling Task-Specific Knowledge from BERT into Simple Neural Networks
[2020/10] DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling : DiPair
[2021/08] Distilling Transformers for Neural Cross-Domain Search
[2020/06] DeBERTa: Decoding-enhanced BERT with Disentangled Attention : DeBERTa
[2020/11] VEGA: Towards an End-to-End Configurable AutoML Pipeline : VEGA
[2020/12] FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding : FILTER
[2019/12] StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding : StructBERT
[2019/04] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding : MT-DNN
[2021/05] Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
중지
최신 MLLM 관련 스터디. 기본 오후에 진행. 논문, 강의, 코드, 뉴스, 블로그 등 다양한 자료로 학습.
MLLM, LLM, NLG, Dialogue, Reinforcement learning, Distillation, Efficient, Sentence similarity, multiple tasks, multimodal, Stable diffusion, TTS, Text-To-Video, All-To-All, 우주, 생명, 지능, 윤리, 규제, 법, 노화, 의학, 투자, 개발, 인프라, 디자인, 경영, ETC...
유망 스타트업 C레벨, 국내외 탑티어 연구자, 국내외 탑티어 대학, 대학원 재학생과 졸업생, 석학, 교수 등 A급 인재들이 최신 논문, 강의 등 스터디 및 프로젝트 진행.
기본 매주 수요일 오후 7시반. 사전 학습 없이 논문 읽기 최대 20분, 토론 최대 40분. 한 번에 1 ~ 10개 논문, 강의 등 진행. 지금까지는 항상 3개. 주제 논문 선정은 자유. 탑티어 학회 논문 및 프로젝트 제작 예정.
주말을 포함하여, 거의 매일 추가 스터디 존재. 흥미로운 주제거나 참여 되는 날만 중간에 들어와서 중간에 나가도 무관. 모든 규칙은 협의 가능. 오프라인 모임도 예정. 자율 참여.
| الرياضيات | machine learning | محول | الوجه المعانقة |
|---|---|---|---|
![]() | ![]() | ![]() | |
| mathematics for machine learning | Pattern Recognition and Machine Learning | Getting Started with Google BERT | معالجة اللغة الطبيعية مع المحولات |