alias.ms/generalai
Mempekerjakan
Kami sedang merekrut di semua tingkatan (termasuk peneliti FTE dan magang)! Jika Anda tertarik untuk bekerja dengan kami pada model yayasan (alias model pra-terlatih skala besar) dan AI umum, NLP, MT, pidato, dokumen AI dan AI multimodal, silakan kirim resume Anda ke [email protected].
Arsitektur Yayasan
TorchScale - Perpustakaan Arsitektur Yayasan (REPO)
Penelitian mendasar untuk mengembangkan arsitektur baru untuk model pondasi dan AI, dengan fokus pada pemodelan umum dan kemampuan, serta stabilitas dan efisiensi pelatihan.
Stabilitas - Deepnet : Penskalaan Transformator menjadi 1.000 lapisan dan seterusnya
Generalitas - Foundation Transformers (Magneto) : Menuju Pemodelan Gangguan Umum Sejati lintas tugas dan modalitas (termasuk bahasa, visi, ucapan, dan multimodal)
Kemampuan - transformator panjang yang dapat diekstrapolasi
Efisiensi & Transferabilitas- X-Moe : Scalable & Finetunable Campuran Jarang Eksekar (MOE)
Revolusi Arsitektur Model
Bitnet : Transformer 1-bit untuk model bahasa besar
Retnet : Jaringan Retentif: Penerus Transformator Untuk Model Bahasa Besar
Longnet : Transformer penskalaan menjadi 1.000.000.000 token
Model Yayasan
Evolusi (M) LLM (Multimodal LLM)
Kosmos-2.5 : Model Literate Multimodal
Kosmos-2 : Model bahasa multimodal landasan ke dunia
Kosmos-1 : Model Bahasa Multimodal Besar (MLLM)
Logam : Model Bahasa adalah antarmuka tujuan umum
Konvergensi Besar -Pra-pelatihan swadaya skala besar di seluruh tasks (prediktif dan generatif), languages (100+ bahasa), dan modalities (bahasa, gambar, audio, tata letak/format + bahasa, visi + bahasa, audio + bahasa, dll.)
Bahasa & multibahasa
UNILM : Pra-Pelatihan Terpadu untuk Pemahaman dan Generasi Bahasa
Infoxlm/XLM-E : Model pra-terlatih multibahasa/lintas-bahasa untuk 100+ bahasa
Deltalm/MT6 : pra-pelatihan pra-pelatihan encoder untuk pembuatan bahasa dan terjemahan untuk 100+ bahasa
Minilm : Model kecil dan pra-terlatih untuk pemahaman dan generasi bahasa
Adalm : Domain, Bahasa, dan Adaptasi Tugas Model Pra-Terlatih
Edgelm ( NEW ): Model pra-terlatih kecil di perangkat Edge/Klien
SIMLM ( NEW ): Pra-pelatihan skala besar untuk pencocokan kesamaan
E5 ( NEW ): Teks Embeddings
Minillm ( NEW ): Distilasi Pengetahuan Model Bahasa Besar
Penglihatan
Beit / Beit-2 : pra-pelatihan pra-pelatihan generatif untuk penglihatan / pra-pelatihan transformator gambar
DIT : Pra-pelatihan yang di-swasembar sendirinya untuk transformator gambar dokumen
TextDiffuser / TextDiffuser-2 ( NEW ): Model difusi sebagai pelukis teks
Pidato
WAVLM : Pra-Pelatihan Pidato untuk Tugas Tumpukan Penuh
Vall-E : Model Bahasa Codec Neural untuk TTS
Multimodal (x + bahasa)
Layoutlm / LayoutLMv2 / LayoutLMv3 : Model Multimodal (Teks + Tata Letak / Format + Gambar) Dokumen Model untuk dokumen AI (misalnya dokumen yang dipindai, PDF, dll.)
LayoutXLM : Model Multimodal (Teks + Tata Letak/Format + Gambar) Dokumen untuk dokumen multibahasa AI
MarkUPLM : Model Markup Model Pra-Pelatihan untuk Pemahaman Dokumen yang kaya secara visual
XDOC : Pra-pelatihan terpadu untuk pemahaman dokumen lintas format
Unispeech : Pra-Pelatihan Terpadu untuk Pembelajaran Penuh Diri dan Pembelajaran Diawasi untuk ASR
Unispeech-Sat : Representasi Bicara Universal Pembelajaran dengan pra-pelatihan yang sadar pembicara
Pidato : pra-pelatihan pra-pelatihan Encoder-Decoder untuk pemrosesan bahasa lisan
Pidato : Pra-pelatihan pra-pelatihan yang disempurnakan dengan data tekstual yang tidak berpasangan
VLMO : Pra-pelatihan visi-visi terpadu
VL-BEIT ( NEW ): Pra-pelatihan visi-visi generatif-Evolusi Beit ke Multimodal
Beit-3 ( NEW ): Model fondasi multimodal tujuan umum, dan tonggak utama konvergensi besar pre-pelatihan skala besar di seluruh tugas, bahasa, dan modalitas.
Toolkit
S2S-FT : Toolkit fine-tuning urutan-ke-urutan
Decoding agresif ( NEW ): algoritma decoding urutan-lossless dan efisien
Aplikasi
TROCR : OCR berbasis transformator dengan model pra-terlatih
LayOUTREADER : Pra-Pelatihan Teks dan Tata Letak untuk Deteksi Pesanan Membaca
XLM-T : NMT multibahasa w/ pretrained cross-lingual encoders
Tautan
Llmops (repo)
Teknologi Umum untuk Mengaktifkan Kemampuan AI W/ LLMS dan MLLMS.
Redstone (repo)
Kurator umum, kode, matematika, dan data QA untuk model bahasa besar.
Berita
- Desember, 2024: Redstone dirilis!
- Desember, 2023: Longnet dan Longvit dirilis
- [Rilis Model] DEC, 2023: Model TextDiffuser-2 , kode dan demo.
- Sep, 2023: Kosmos-2.5 -Model literasi multimodal untuk pembacaan mesin gambar intensif teks.
- [Rilis Model] Mei, 2023: Model dan kode TextDiffuser .
- [Rilis Model] Maret, 2023: Model dan kode pretrained Beit-3 .
- Maret, 2023: KOSMOS-1 -Model Bahasa Multimodal Besar (MLLM) yang dapat merasakan modalitas umum, belajar dalam konteks (yaitu, beberapa-shot), dan mengikuti instruksi (yaitu, nol-shot).
- Januari, 2023: Vall-e pendekatan pemodelan bahasa untuk sintesis teks ke ucapan (TTS), yang mencapai kinerja TTS nol-shot canggih. Lihat https://aka.ms/valle untuk demo pekerjaan kami.
- [Rilis Model] Januari, 2023: E5 -Teks Embeddings oleh pre-training kontras yang diawasi dengan lemah.
- November, 2022: Torchscale 0.1.1 dirilis!
- November, 2022: TROCR diterima oleh AAAI 2023.
- [Rilis Model] November, 2022: Model dasar XDOC untuk pemahaman dokumen lintas format.
- [Model Release] September, 2022: TROCR BASE DAN MODEL BESAR UNTUK ACARA Teks Pengenalan (STR).
- [Rilis Model] September, 2022: Kode Beit V2 dan model pretrained.
- Agustus, 2022: Beit-3 -Model Yayasan Multimodal Generasi Umum, yang mencapai kinerja transfer canggih pada tugas penglihatan dan penglihatan-penglihatan
- Juli, 2022: SIMLM -Pra-pelatihan swadaya skala besar untuk pencocokan kesamaan
- Juni, 2022: DIT dan LayoutLMV3 diterima oleh ACM Multimedia 2022.
- Juni, 2022: Metalm - Model Bahasa adalah antarmuka tujuan umum ke model yayasan (bahasa/multibahasa, visi, ucapan, dan multimodal)
- Juni, 2022: VL-BEIT -Transformator multimodal dua arah yang dipelajari dari awal dengan satu tugas pretraining terpadu, satu tulang punggung bersama, dan pelatihan satu tahap, mendukung tugas visi dan bahasa penglihatan.
- [Rilis Model] Juni, 2022: LayoutLMV3 China - Versi LayoutLMV3 Versi Cina
- [Rilis Kode] Mei, 2022: Decoding Agresif - Lossless Speedup untuk Generasi SEQ2SEQ
- April, 2022: Transformers AT Scale = Deepnet + X-Moe
- [Model Release] April, 2022: LayoutLMV3 - Pra -Pelatihan untuk AI Dokumen dengan Teks dan Masking Gambar Terpadu
- [Rilis Model] Maret, 2022: Edgeformer -Transformator Efisien Parameter untuk Generasi Seq2seq On-Device
- [Rilis Model] Maret, 2022: Dit - Transformator gambar dokumen yang di -swadaya. Demo: Analisis Tata Letak Dokumen, Klasifikasi Gambar Dokumen
- Januari, 2022: Beit diterima oleh ICLR 2022 sebagai presentasi oral (54 dari 3391).
- [Rilis Model] 16 Desember 2021: TROCR MODEL KECIL UNTUK Teks Tulisan Tangan dan Cetak, dengan speedup inferensi 3x.
- 24 November 2021: VLMO sebagai SOTA baru di VQA Challenge
- November, 2021: Terjemahan multibahasa pada skala: 1000 pasangan bahasa dan seterusnya
- [Rilis Model] November, 2021: MarkUplm - Pra -Pelatihan untuk Bahasa Teks dan Markup (misalnya HTML/XML)
- [Model Release] November, 2021: VLMO -Unified Vision-Luage Pre-Training W/ Beit
- Oktober, 2021: WAVLM Besar mencapai kinerja canggih di tolok ukur yang luar biasa
- [Rilis Model] Oktober, 2021: WAVLM -Model pra-terlatih skala besar untuk berbicara.
- [Model Release] Oktober 2021: TROCR sedang di Huggingface
- 28 September 2021: T-Ulrv5 (alias XLM-E/Infoxlm) sebagai SOTA di papan peringkat Xtreme. // blog
- [Rilis Model] September, 2021: Layoutlm-Cased berada di Huggingface
- [Rilis Model] September, 2021: TROCR -OCR berbasis transformator W/ model Beit dan Roberta yang terlatih.
- Agustus 2021: LayoutlMv2 dan LayoutXlm berada di Huggingface
- [Model Release] Agustus, 2021: LayOUTREADER - Dibangun dengan LayoutLM untuk meningkatkan deteksi pesanan bacaan umum.
- [Rilis Model] Agustus, 2021: Deltalm -pra-pelatihan encoder-Decoder untuk pembuatan dan terjemahan bahasa.
- Agustus 2021: Beit berada di tempat pelukan
- [Model Release] Juli, 2021: Beit - Menuju Momen Bert untuk CV
- [Rilis Model] Juni, 2021: LayoutLMv2 , LayoutXlm , MinilMv2 , dan Adalm .
- Mei, 2021: LayoutlMv2, InfoxlMv2, MinilMv2, UNILMV3, dan AdalM diterima oleh ACL 2021.
- April, 2021: LayoutXLM akan datang dengan memperluas tata letak ke dalam dukungan multibahasa! Benchmark pemahaman multibahasa XFUND juga diperkenalkan, yang mencakup bentuk-bentuk dengan pasangan nilai kunci berlabel manusia dalam 7 bahasa (Cina, Jepang, Spanyol, Prancis, Italia, Jerman, Portugis).
- Maret, 2021: Infoxlm diterima oleh NAACL 2021.
- 29 Desember 2020: LayoutLMV2 akan datang dengan SOTA baru pada berbagai tugas AI dokumen, termasuk Docvqa dan Sroie Leaderboard.
- 8 Oktober 2020: T-Ulrv2 (alias infokslm) sebagai sota di papan peringkat xtreme. // blog
- September, 2020: Minilm diterima oleh Neurips 2020.
- 16 Juli 2020: infoxlm (multibahasa unilm) arxiv
- Juni, 2020: UNILMV2 diterima oleh ICML 2020; Layoutlm diterima oleh KDD 2020.
- 5 April 2020: Minilm multibahasa dirilis!
- September 2019: UNILMV1 diterima oleh Neurips 2019.
Lisensi
Proyek ini dilisensikan di bawah lisensi yang ditemukan dalam file lisensi di direktori root dari pohon sumber ini. Bagian dari kode sumber didasarkan pada proyek Transformers.
Kode perilaku open source Microsoft
Informasi kontak
Untuk bantuan atau masalah menggunakan model pra-terlatih, silakan kirimkan masalah GitHub.
Untuk komunikasi lainnya, silakan hubungi Furu Wei ( [email protected] ).