aka.ms/generalai
Einstellung
Wir stellen auf allen Ebenen ein (einschließlich FTE -Forscher und Praktikanten)! Wenn Sie mit uns an Foundation-Modellen (auch bekannt als groß angelegte Modelle) und allgemeiner KI, NLP, MT, Speech, Dokument AI und Multimodal AI interessiert sind, senden Sie bitte Ihren Lebenslauf an [email protected].
Foundation Architecture
Torchscale - eine Bibliothek mit Stiftungsarchitekturen (Repo)
Grundlegende Forschungsergebnisse zur Entwicklung neuer Architekturen für Stiftungsmodelle und KI, die sich auf die Modellierung der Allgemeinheit und Fähigkeit sowie auf Schulungsstabilität und -effizienz konzentrieren.
Stabilität - Deepnet : Skalierung von Transformatoren zu 1.000 Schichten und darüber hinaus
Allgemeinheit - Foundation -Transformatoren (Magneto) : Auf dem Weg zu echten allgemeinen Modellierung über Aufgaben und Modalitäten (einschließlich Sprache, Vision, Sprache und Multimodal)
Fähigkeit - ein länge -extrapolatierbarer Transformator
Effizienz und Übertragbarkeit- X-Moe : Skalierbares und finanzielles spärliches Expertenmischung (MOE)
Die Revolution der Modellarchitektur
Bitnet : 1-Bit-Transformatoren für große Sprachmodelle
RETNET : Retentive Network: Ein Nachfolger des Transformators für große Sprachmodelle
Longnet : Skalierung von Transformatoren auf 1.000.000.000 Token
Fundamentmodelle
Die Entwicklung von (m) LLM (multimodaler LLM)
Kosmos-2.5 : Ein multimodales Literate-Modell
Kosmos-2 : Erde multimodale Großsprachenmodelle für die Welt
Kosmos-1 : Ein multimodales Großsprachmodell (MLLM)
MetalM : Sprachmodelle sind allgemeine Schnittstellen
Die große Konvergenz -groß angelegte, selbstbewertete Vorausbildung zwischen tasks (prädiktiv und generativ), languages (über 100 Sprachen) und modalities (Sprache, Bild, Audio, Layout/Format + Sprache, Vision + Sprache, Audio + Sprache usw.)
Sprache & Mehrsprachiger
UNILM : Unified Pre-Training für Sprachverständnis und Generation
Infoxlm/XLM-E : Mehrsprachige/intersprachige vorgebildete Modelle für mehr als 100 Sprachen
Deltalm/MT6 : Encoder-Decoder-Voraberzeugung für die Sprachgenerierung und -übersetzung für mehr als 100 Sprachen
Minilm : Kleine und schnelle vorgebildete Modelle für Sprachverständnis und Generation
ADALM : Domäne, Sprache und Aufgabenanpassung von vorgeborenen Modellen
Edgelm ( NEW ): kleine vorgebildete Modelle für Kanten-/Client-Geräte
SIMLM ( NEW ): großräumige Vorausbildung zur Ähnlichkeitsübereinstimmung
E5 ( NEW ): Texteinbettungen
Minillm ( NEW ): Wissensdestillation großer Sprachmodelle
Vision
BEIT / BEIT-2 : Generative selbst überprüfte Vorausbildung für Vision / Bert vor dem Training von Bildtransformatoren
DIT : Selbsterbilder vor der Ausbildung für Dokumentenbildtransformatoren
TextDiffuser / textDiffuser-2 ( NEW ): Diffusionsmodelle als Textmaler
Rede
WAVLM : Sprachvoraussetzung für vollständige Stapelaufgaben
Vall-E : Ein neuronales Codec-Sprachmodell für TTs
Multimodal (x + Sprache)
LayoutLM / Layoutlmv2 / Layoutlmv3 : Multimodal (Text + Layout / Format + Bild) Dokumentgrundfundungsmodell für Dokument AI (z. B. gescannte Dokumente, PDF usw.)
LayoutXLM : Multimodal (Text + Layout/Format + Bild) Dokumentgrundmodell für mehrsprachige Dokument AI
Markuplm : Markup-Sprachmodell vor der Ausbildung für visuell reiche Dokumentverständnis
XDOC : Unified Pre-Training für das Verständnis des Querformat-Dokuments
Unispeech : Unified Pre-Training für das selbstbewertete Lernen und das überwachte Lernen für ASR
Unispeech-sa : Universal Sprachrepräsentation Lernen mit sprecherbewusstem Voraberziehung
Sprache5 : Encoder-Decoder-Voraberziehung für die Verarbeitung gesprochener Sprache
Sprache : Verbesserte Sprache vor dem Training mit ungepaarten Textdaten
VLMO : Unified Vision-Sprache Pre-Training
VL-Beit ( NEW ): generative Visionsprachen vor dem Training-Evolution von Beit zu multimodal
BEIT-3 ( NEW ): Ein allgemeines multimodales Fundamentmodell und ein großer Meilenstein für die große Konvergenz von großem Maßstab über Aufgaben, Sprachen und Modalitäten.
Toolkits
S2S-FT : Sequenz-zu-Sequenz-Feinabstimmungs-Toolkit
Aggressive Dekodierung ( NEW ): Verlustlose und effiziente Sequenz-zu-Sequenz-Dekodierungsalgorithmus
Anwendungen
TROCR : Transformator-basierte OCR mit vorgeborenen Modellen
LayoUtreader : Vorausbildung von Text und Layout zur Erkennung von Leseaufträgen
XLM-T : Mehrsprachiger NMT mit vorabsprachigen Kreuzhöfen
Links
Llmops (repo)
Allgemeine Technologie zum Aktivieren von KI -Funktionen mit LLMs und MLLMs.
Redstone (Repo)
Kuratieren Sie allgemeine, Code-, Mathematik- und QS -Daten für Großsprachenmodelle.
Nachricht
- Dezember 2024: Redstone wurde veröffentlicht!
- Dezember 2023: Longnet und Longvit veröffentlicht
- [Modellveröffentlichung] Dezember 2023: TextDiffuser-2- Modelle, Code und Demo.
- Sep, 2023: Kosmos-2.5 -Ein multimodales Literate-Modell für das Lesen von Textintensivbildern des Maschinens.
- [Modellveröffentlichung] Mai, 2023: TextDiffuser -Modelle und -code.
- [Modellveröffentlichung] März 2023: BEIT-3- vorbereitete Modelle und Code.
- März 2023: Kosmos-1 -Ein multimodales großes Sprachmodell (MLLM), das allgemeine Modalitäten wahrnehmen kann, im Kontext (dh nur wenige Schüsse) lernen und Anweisungen (dh Null-Shot) befolgen.
- Januar 2023: Vall-e Ein Sprachmodellierungsansatz für Text zur Sprachsynthese (TTS), der eine hochmoderne TTS-Leistung null-shoot-Leistung erzielt. Siehe https://aka.ms/valle für Demos unserer Arbeit.
- [Modellveröffentlichung] Januar 2023: E5 -Texteinbettungen durch schwach überprüfte kontrastive Vorausbildung.
- November 2022: Torchscale 0.1.1 wurde veröffentlicht!
- November 2022: Trocr wurde von AAAI 2023 akzeptiert.
- [Modellveröffentlichung] November 2022: XDOC -Basismodelle für das Verständnis des Kreuzformat-Dokuments.
- [Modellveröffentlichung] September 2022: TrocR -Basis und große Modelle für die Szenetexterkennung (STR).
- [Modellveröffentlichung] September 2022: BEIT V2 -Code und vorbereitete Modelle.
- August 2022: BEIT-3 -Ein allgemeines multimodales Fundamentmodell, das eine hochmoderne Transferleistung sowohl für Vision- als auch für Visionsprachenaufgaben erzielt
- Juli 2022: SIMLM -groß angelegte selbstsütige Vorabbildung zur Ähnlichkeitsübereinstimmung
- Juni 2022: DIT und Layoutlmv3 wurden von ACM Multimedia 2022 akzeptiert.
- Juni 2022: Metalm - Sprachmodelle sind allgemeine Schnittstellen zu Fundamentmodellen (Sprache/Mehrsprachige, Vision, Sprache und Multimodal)
- Juni 2022: VL-Beit -Bidirektionaler multimodaler Transformator mit einer einheitlichen Vorbereitungsaufgabe, einem gemeinsamen Rückgrat und einem einstufigen Training, das sowohl Vision- als auch Vision-Sprache-Aufgaben unterstützt.
- [Modellveröffentlichung] Juni 2022: Layoutlmv3 Chinese - Chinesische Version von Layoutlmv3
- [Code -Release] Mai, 2022: Aggressive Dekodierung - Verlustlose Beschleunigung für die SEQ2SEQ -Generation
- April 2022: Transformatoren in Skala = Deepnet + X-Moe
- [Modellveröffentlichung] April 2022: Layoutlmv3 - Vorausbildung für Dokument AI mit einheitlicher Text und Bildmaskierung
- [Modellfreisetzung] März, 2022: Edgeformer -Parameter-effizienter Transformator für die SEQ2SEQ-Erzeugung von On-Device
- [Modellveröffentlichung] März, 2022: DIT - Selbstübersichtlicher Dokumentenbildtransformator. Demos: Dokumentlayoutanalyse, Dokumentbildklassifizierung
- Januar 2022: Beit wurde durch ICLR 2022 als mündliche Präsentation (54 von 3391) akzeptiert.
- [Modellveröffentlichung] 16. Dezember, 2021: SPROCL kleine Modelle für handgeschriebene und gedruckte Texte mit 3x -Inferenz beschleunigte.
- 24. November 2021: VLMO als neue SOTA in der VQA Challenge
- November 2021: Mehrsprachige Übersetzung in Skala: 10000 Sprachpaare und darüber hinaus
- [Modellveröffentlichung] November 2021: Markuplm - Vorausbildung für Text- und Markup -Sprache (z. B. HTML/XML)
- [Modellveröffentlichung] November 2021: VLMO -Unified Vision-Sprache Pre-Training mit BEIT
- Oktober 2021: Wavlm Large erzielt eine modernste Leistung am hervorragenden Benchmark
- [Modellveröffentlichung] Oktober 2021: WAVLM -groß angelegte, selbstüberwachende vorgeborene Sprachmodelle.
- [Modellveröffentlichung] Oktober 2021: Trocr ist auf Umarmung.
- 28. September 2021: T-ULRV5 (auch bekannt als XLM-E/InfoxlM) als SOTA auf der Xtreme-Rangliste. // Blog
- [Modellveröffentlichung] September 2021: Layoutlm-C-Capting befinden sich auf dem Umarmungsface
- [Modellveröffentlichung] September 2021: TROCR -Transformator-basierte OCR mit vorgeborenen BEIT- und Roberta-Modellen.
- August 2021: Layoutlmv2 und LayoutXLM sind auf dem Umarmungsface
- [Modellveröffentlichung] August 2021: LayoUtreader - gebaut mit LayoutLM zur Verbesserung der allgemeinen Leserordnungserkennung.
- [Modellveröffentlichung] August 2021: Deltalm -Encoder-Decoder-Vorab-Training für die Sprachgenerierung und -übersetzung.
- August 2021: Beit ist auf Umarmung.
- [Modellveröffentlichung] Juli 2021: Beit - in Richtung Bert -Moment für Lebenslauf
- [Modellveröffentlichung] Juni 2021: Layoutlmv2 , Layoutxlm , Minilmv2 und Adalm .
- Mai 2021: Layoutlmv2, Infoxlmv2, Minilmv2, Unilmv3 und Adalm wurden durch ACL 2021 akzeptiert.
- April 2021: LayoutXLM kommt, indem er das Layoutlm in mehrsprachige Unterstützung ausdehnt! Es wird ebenfalls ein mehrsprachiges Verständnis für das Verständnis für das Verständnis von XFund eingeführt, das Formulare mit menschlich beschrifteten Schlüsselwertpaaren in 7 Sprachen (chinesische, japanische, spanische, französische, italienische, Deutsche, Portugiesen) enthält.
- März 2021: Infoxlm wurde von NAACl 2021 akzeptiert.
- 29. Dezember 2020: Layoutlmv2 kommt mit dem neuen SOTA für eine Vielzahl von Dokument -KI -Aufgaben, darunter Docvqa und Sroie Langohring.
- 8. Oktober 2020: T-ULRV2 (auch bekannt als Infoxlm) als Sota auf der Xtreme-Rangliste. // Blog
- September 2020: Minilm wurde von Neurips 2020 akzeptiert.
- 16. Juli 2020: Infoxlm (mehrsprachiger Unilm) Arxiv
- Juni 2020: UNILMV2 wurde von ICML 2020 angenommen; Layoutlm wurde von KDD 2020 akzeptiert.
- 5. April 2020: Mehrsprachiger Minilm veröffentlicht!
- September 2019: UNILMV1 wurde von Neurips 2019 akzeptiert.
Lizenz
Dieses Projekt ist im Rahmen der Lizenz in der Lizenzdatei im Stammverzeichnis dieses Quellbaums lizenziert. Teile des Quellcodes basieren auf dem Transformators -Projekt.
Microsoft Open Source -Verhaltenscode
Kontaktinformationen
Für Hilfe oder Probleme mithilfe der vorgeborenen Modelle senden Sie bitte ein GitHub-Problem.
Für andere Mitteilungen wenden Sie sich bitte an Furu Wei ( [email protected] ).