AKA.MS/Generalai
التوظيف
نحن نتعاقد على جميع المستويات (بما في ذلك الباحثين والمتدربين FTE)! إذا كنت مهتمًا بالعمل معنا على نماذج الأساس (المعروف أيضًا باسم النماذج الكبيرة المدربة مسبقًا) و General AI و NLP و MT ومكتب وتوثيق الذكاء الاصطناعى و AI متعدد الوسائط ، فيرجى إرسال سيرتك الذاتية إلى [email protected].
الهندسة المعمارية
Torchscale - مكتبة من بنيات المؤسسة (repo)
البحوث الأساسية لتطوير هياكل جديدة لنماذج الأساس و AI ، مع التركيز على نمذجة عمومية والقدرة ، وكذلك التدريب على الاستقرار والكفاءة.
الاستقرار - DeepNet : تحجيم المحولات إلى 1000 طبقة وما بعدها
العمومية - محولات الأساس (Magneto) : نحو النمذجة الحقيقية للأغراض العامة عبر المهام والطوجل (بما في ذلك اللغة والرؤية والكلام والمتعددة الوسائط)
القدرة - محول طول الطول
الكفاءة ونقل- X-Moe : مزيج متناثر قابلة للتطوير وقابل للتطوير (MOE)
ثورة العمارة النموذجية
bitnet : محولات 1 بت لنماذج اللغة الكبيرة
Retnet : شبكة Retentive: خليفة للمحول لنماذج اللغة الكبيرة
Longnet : تحجيم المحولات إلى 1،000،000،000 رمز
نماذج الأساس
تطور (M) LLM (LLM متعدد الوسائط)
Kosmos-2.5 : نموذج متعدد الوسائط القراءة والكتابة
Kosmos-2 : تأريض نماذج لغة كبيرة متعددة الوسائط للعالم
Kosmos-1 : نموذج لغة كبير متعدد الوسائط (MLLM)
المعادن : نماذج اللغة هي واجهات للأغراض العامة
التقارب الكبير -التدريب على نطاق واسع على نطاق واسع عبر tasks (التنبؤية والتداول) ، languages (100+ لغة) ، modalities (اللغة ، الصورة ، الصوت ، التخطيط/التنسيق + اللغة ، الرؤية + لغة ، صوت + ، إلخ)
اللغة ومتعددة اللغات
يونيلم : تدريب موحد قبل فهم اللغة وتوليدها
infoxlm/xlm-e : نماذج متعددة اللغات/متقاطعة مسبقًا مقابل أكثر من 100 لغة
Deltalm/MT6 : التدريب المسبق للتشفير والرائد لتوليد اللغة والترجمة مقابل 100 لغة
MINILM : نماذج صغيرة وسريعة تدريب مسبقًا لفهم اللغة وتوليدها
Adalm : المجال ، واللغة ، والتكيف مع النماذج التي تم تدريبها مسبقًا
Edgelm ( NEW ): نماذج صغيرة تم تدريبها مسبقًا على أجهزة الحافة/العميل
Simlm ( NEW ): التدريب على نطاق واسع للمطابقة للتشابه
E5 ( NEW ): تضمينات النص
Minillm ( NEW ): تقطير المعرفة لنماذج اللغة الكبيرة
رؤية
BEIT / BEIT-2 : التدريب الخاضع للإشراف ذاتيًا للرؤية / بيرت قبل التدريب على محولات الصور
DIT : التدريب المسبق للإشراف ذاتيًا لمحولات صور المستندات
TextDiffuser / TextDiffuser-2 ( NEW ): نماذج الانتشار كرسامين نصين
خطاب
WAVLM : التدريب قبل التدريب على مهام المكدس الكاملة
Vall-E : نموذج لغة ترميز عصبي لـ TTS
متعدد الوسائط (X + لغة)
layoutlm / layoutlmv2 / layoutlmv3 : نموذج مؤسسة مستندات متعددة الوسائط (نص + تخطيط / تنسيق + صورة) للوثائق (مثل المستندات الممسوحة ضوئيًا ، PDF ، إلخ)
layoutxlm : نموذج مستند متعدد الوسائط (نص + تخطيط/تنسيق + صورة) للوثيقة متعددة اللغات AI
Markuplm : نموذج لغة الترميز قبل التدريب لفهم الوثائق الغنية بصريًا
XDOC : التدريب المسبق الموحد لفهم الوثيقة المتقاطعة
Unispeech : التدريب الموحد قبل التدريب على التعلم الخاضع للإشراف والتعلم الخاضع للإشراف على ASR
unispeech-sat : تمثيل الكلام العالمي التعلم مع التدريب الممتاز المتحدث
الكلام 5 : التدريب المسبق للتشفير للتشفير لمعالجة اللغة المنطوقة
الكلام : تعزيز التدريب قبل التدريب مع البيانات النصية غير المقيدة
VLMO : التدريب الموحد قبل التدريب
VL-BEIT ( NEW ): التدريب قبل التدريب اللغوي-تطور BEIT إلى الوسائط المتعددة
BEIT-3 ( NEW ): نموذج الأساس متعدد الوسائط للأغراض العامة ، ومعلم رئيسي للتقارب الكبير في التدريب على نطاق واسع عبر المهام واللغات والطرائق.
مجموعات الأدوات
S2S-FT : مجموعة أدوات التسلسل إلى التسلسل
فك التشفير العدواني ( NEW ): خوارزمية فك تشفير التسلسل غير المفقودة والفعالة
التطبيقات
TROCR : نماذج OCR المستندة إلى المحولات مع النماذج المدربة مسبقًا
Layoutreader : مسبق تدريب النص والتخطيط للكشف عن ترتيب القراءة
XLM-T : NMT متعددة اللغات مع ترميزات متقاطعة
الروابط
llmops (repo)
التكنولوجيا العامة لتمكين قدرات الذكاء الاصطناعي مع LLMS و MLLMS.
ريدستون (ريبو)
تنسيق بيانات General و Code و Math و QA لنماذج اللغة الكبيرة.
أخبار
- ديسمبر 2024: تم إصدار Redstone !
- ديسمبر 2023: تم إصدار Longnet و Longvit
- [إصدار النموذج] ديسمبر ، 2023: نماذج TextDiffuser-2 ، الرمز والتوضيح.
- سبتمبر ، 2023: KOSMOS-2.5- نموذج متعدد الوسائط القراءة والكتابة لقراءة الجهاز للصور المكثفة للنص.
- [إصدار النموذج] مايو ، 2023: نماذج TextDiffuser والرمز.
- [إصدار النموذج] مارس ، 2023: نماذج ورمز BEIT-3 PretRained.
- مارس ، 2023: Kosmos-1- نموذج لغة كبير متعدد الوسائط (MLLM) يمكنه إدراك الطرائق العامة ، والتعلم في السياق (أي ، القليل من اللقطة) ، واتباع التعليمات (أي ، صفر الطلقة).
- يناير ، 2023: Vall-e نهج نمذجة اللغة للنص إلى توليف الكلام (TTS) ، والذي يحقق أداءً على أحدث طراز TTS. انظر https://aka.ms/valle للاطلاع على عروض عملنا.
- [إصدار النموذج] يناير ، 2023: E5- تضمينات النص عن طريق التدريب المتناقض بشكل ضعيف.
- نوفمبر 2022: تم إصدار Torchscale 0.1.1 !
- نوفمبر 2022: تم قبول Troch بواسطة AAAI 2023.
- [إصدار النموذج] نوفمبر ، 2022: نماذج قاعدة XDOC لفهم الوثيقة عبر التكسير.
- [إصدار النموذج] سبتمبر ، 2022: قاعدة Trocr ونماذج كبيرة للتعرف على نص المشهد (STR).
- [إصدار النموذج] سبتمبر ، 2022: رمز BEIT V2 والنماذج المسبقة.
- أغسطس ، 2022: BEIT-3- نموذج الأساس متعدد الوسائط للأغراض العامة ، والذي يحقق أداء النقل الحديث على كل من مهام الرؤية ولغة الرؤية
- يوليو ، 2022: Simlm- التدريب على نطاق واسع على نطاق واسع من أجل مطابقة التشابه
- يونيو ، 2022: تم قبول DIT و LayoutLMV3 من قبل ACM Multimedia 2022.
- يونيو ، 2022: MetalM - نماذج اللغة هي واجهات للأغراض العامة لنماذج الأساس (اللغة/اللغة/الرؤية ، والكلام ، والمتعددة الوسائط)
- يونيو ، 2022: VL-BEIT- تم تعلم محول متعدد الوسائط ثنائية الاتجاه من نقطة الصفر بمهمة واحدة موحدة قبل أن يكون العمود الفقري المشترك ، والتدريب على مرحلة واحدة ، ودعم كل من مهام الرؤية ولغة الرؤية.
- [إصدار النموذج] يونيو ، 2022: الإصدار الصيني LayoutLMV3 - الصينية من LayoutLMV3
- [إصدار الكود] مايو ، 2022: فك التشفير العدواني - تسريع خسارة لتوليد SEQ2Seq
- أبريل ، 2022: المحولات في Scale = DeepNet + X-Moe
- [إصدار النموذج] أبريل ، 2022: layoutlmv3 - التدريب المسبق للوثيقة الذكاء الاصطناعى مع نص موحد وإخفاء الصور
- [إصدار النموذج] March ، 2022: Edgeformer- محول فعال للمعلمة لجيل SEQ2Seq
- [إصدار النموذج] مارس ، 2022: DIT - محول صورة المستندات الخاضع للإشراف ذاتيا. العروض التوضيحية: تحليل تخطيط المستندات ، تصنيف صورة المستند
- يناير 2022: تم قبول BEIT من قبل ICLR 2022 كعرض شفهي (54 من 3391).
- [إصدار النموذج] 16 ديسمبر ، 2021: نماذج صغيرة للنصوص المكتوبة بخط اليد والمطبوعة ، مع تسريع الاستدلال 3x.
- 24 نوفمبر ، 2021: VLMO باعتباره SOTA الجديد على تحدي VQA
- نوفمبر 2021: ترجمة متعددة اللغات على المقياس: 10000 أزواج اللغة وما بعدها
- [إصدار النموذج] نوفمبر ، 2021: Markuplm - التدريب المسبق للغة النصية والارتياح (على سبيل المثال HTML/XML)
- [إصدار النموذج] نوفمبر ، 2021: VLMO- التدريب الموحد قبل التدريب مع BEIT
- أكتوبر 2021: يحقق Wavlm كبير الأداء المتطور على المؤشر الرائع
- [إصدار النموذج] أكتوبر ، 2021: WAVLM- نماذج كبيرة تدريب على الكلام.
- [إصدار النموذج] أكتوبر 2021: Trocr على Luggingface
- 28 سبتمبر ، 2021: T-ulrv5 (AKA XLM-E/Infoxlm) باعتباره SOTA على لوحة Xtreme. // مدونة
- [إصدار النموذج] سبتمبر ، 2021: layoutlm cazed على Luggingface
- [إصدار النموذج] سبتمبر ، 2021: طرازات OCR المستندة إلى المحولات مع موديلات BEIT و Roberta التي تم تدريبها مسبقًا.
- أغسطس 2021: layoutlmv2 و layoutxlm على luggingface
- [إصدار النموذج] أغسطس ، 2021: Layoutreader - تم تصميمه باستخدام LayoutLM لتحسين اكتشاف ترتيب القراءة العام.
- [إصدار النموذج] أغسطس ، 2021: Deltalm- التدريب المسبق للتشفير للترجمة لتوليد اللغة والترجمة.
- أغسطس 2021: Beit على Luggingface
- [إصدار النموذج] يوليو ، 2021: بيت - نحو بيرت لحظة السيرة الذاتية
- [إصدار النموذج] يونيو ، 2021: layoutlmv2 ، layoutxlm ، minilmv2 ، و adalm .
- مايو ، 2021: تم قبول Layoutlmv2 ، infoxlmv2 ، minilmv2 ، unilmv3 ، و adalm بواسطة ACL 2021.
- أبريل 2021: سيأتي LayoutXLM عن طريق تمديد LayoutLM إلى دعم متعدد اللغات! يتم أيضًا تقديم مؤشر فهم الشكل متعدد اللغات ، والذي يتضمن أشكالًا مع أزواج من القيمة الرئيسية ذات القيمة الرئيسية في 7 لغات (صينية ، يابانية ، إسبانية ، فرنسية ، إيطالية ، ألمانية ، برتغالية).
- مارس 2021: تم قبول Infoxlm بواسطة NAACL 2021.
- 29 ديسمبر 2020: سيأتي LayoutLMV2 مع SOTA الجديد على مجموعة واسعة من مهام AI المستندات ، بما في ذلك Docvqa و Sroie Leaderboard.
- 8 أكتوبر ، 2020: T-ulrv2 (AKA infoxlm) باعتباره SOTA على لوحة المتصدرين Xtreme. // مدونة
- سبتمبر ، 2020: تم قبول MINILM بواسطة Neurips 2020.
- 16 يوليو 2020: infoxlm (Unilm متعدد اللغات) Arxiv
- يونيو 2020: تم قبول UNILMV2 بواسطة ICML 2020 ؛ تم قبول Layoutlm بواسطة KDD 2020.
- 5 أبريل ، 2020: تم إصدار Mintildual Minilm !
- سبتمبر ، 2019: تم قبول UNILMV1 بواسطة Neups 2019.
رخصة
تم ترخيص هذا المشروع بموجب الترخيص الموجود في ملف الترخيص في الدليل الجذر لشجرة المصدر هذه. تعتمد أجزاء من الكود المصدري على مشروع Transformers.
رمز سلوك المصدر المفتوح
معلومات الاتصال
للحصول على المساعدة أو المشكلات التي تستخدم النماذج التي تم تدريبها مسبقًا ، يرجى تقديم مشكلة github.
للاتصالات الأخرى ، يرجى الاتصال بـ Furu Wei ( [email protected] ).