aka.ms/generalai
Embauche
Nous embauchons à tous les niveaux (y compris les chercheurs et les stagiaires)! Si vous êtes intéressé à travailler avec nous sur des modèles de fondation (AKA à grande échelle des modèles prélevés) et à l'IA générale, aux NLP, MT, à la parole, à un document AI et à l'IA multimodal, veuillez envoyer votre CV à [email protected].
Architecture de la fondation
Torchscale - une bibliothèque d'architectures de fondation (repo)
Recherche fondamentale pour développer de nouvelles architectures pour les modèles de fondation et l'IA, en se concentrant sur la modélisation de la généralité et des capacités, ainsi que de la stabilité et de l'efficacité de la formation.
Stabilité - DeepNet : Échelle des transformateurs à 1 000 couches et au-delà
Généralité - Foundation Transformers (Magneto) : Vers une véritable modélisation générale à travers les tâches et les modalités (y compris la langue, la vision, la parole et le multimodal)
Capacité - un transformateur à extrapolation de longueur
Efficacité et transférabilité - X-MOE : Mélange de réseaux clairsemés évolutif et finetunable (MOE)
La révolution de l'architecture modèle
Bitnet : Transformers 1 bits pour les modèles de grande langue
Retnet : Réseau de rétention: un successeur du transformateur pour les modèles de gros langues
Longnet : Échelle des transformateurs en jetons 1 000 000
Modèles de fondation
L'évolution de (M) LLM (Multimodal LLM)
KOSMOS-2.5 : un modèle alphabétique multimodal
Kosmos-2 : mise à la terre des modèles de grande langue multimodaux au monde
Kosmos-1 : un modèle multimodal grand langage (MLLM)
Metalm : les modèles de langue sont des interfaces à usage général
La grande convergence - pré-entraînement auto-supervisé à grande échelle entre tasks (prédictive et générative), languages (plus de 100 langues) et modalities (langue, image, audio, mise en page / format + langue, vision + langue, audio + langue, etc.)
Langue et multilingue
Unilm : pré-formation unifiée pour la compréhension et la génération des langues
INFOXLM / XLM-E : Modèles pré-formés multilingues / cross-linguaux pour plus de 100 langues
Deltalm / MT6 : pré-entraînement encodeur pour la génération et la traduction des langues pour plus de 100 langues
Minilm : modèles petits et rapides pré-formés pour la compréhension et la génération des langues
Adalm : Domaine, langue et adaptation des tâches des modèles pré-formés
Edgelm ( NEW ): petits modèles pré-formés sur les dispositifs Edge / Client
Simlm ( NEW ): pré-formation à grande échelle pour la correspondance de similitude
E5 ( NEW ): intégres de texte
MINILLM ( NEW ): Distillation des connaissances des modèles de grande langue
Vision
Beit / Beit-2 : pré-formation autopérisée générative pour la pré-formation Vision / Bert des transformateurs d'image
DIT : pré-formation autopérative pour les transformateurs d'image de document
TextDiffuser / TextDiffuser-2 ( NEW ): Modèles de diffusion en tant que peintres de texte
Discours
Wavlm : pré-formation de discours pour les tâches complètes de pile
VALL-E : un modèle de langage de codec neural pour TTS
Multimodal (langue x +)
Layoutlm / Layoutlmv2 / Layoutlmv3 : MODÈLE MULTIMODAL (Texte + Layout / Format + Image) Modèle de base du document pour le document AI (par exemple, documents numérisés, PDF, etc.)
Layoutxlm : Modèle multimodal (texte + disposition / format + image) Modèle de fondation de document pour document multilingue AI
MarkUpLM : Modèle de marquage Pré-formation pour la compréhension des documents riches visuellement riches
XDOC : pré-formation unifiée pour la compréhension du document transversal
Unisseech : pré-formation unifiée pour l'apprentissage auto-supervisé et l'apprentissage supervisé pour ASR
Unisseechent-sat : représentation de la parole universelle apprenti
Spe :
Speechlm : Pré-formation de discours améliorée avec des données textuelles non appariées
VLMO : pré-formation unifiée en langue visuelle
VL-BEIT ( NEW ): pré-formation génératrice de la vision de la vision - Évolution de Beit à multimodal
Beit-3 ( NEW ): un modèle de fondation multimodale à usage général et une étape importante de la grande convergence de la pré-formation à grande échelle entre les tâches, les langues et les modalités.
Kits d'outils
S2S-FT : boîte à outils à réglage fin de séquence à séquence
Décodage agressif ( NEW ): algorithme de décodage de séquence à séquence sans perte et efficace
Applications
Troc : OCR basé sur le transformateur avec des modèles pré-formés
LayoutaDer : pré-formation du texte et mise en page pour la détection de l'ordre de lecture
XLM-T : NMT multilingue avec encodeurs inter-linguaux pré-entraînés
Links
Llmops (repo)
Technologie générale pour activer les capacités d'IA avec LLMS et MLLMS.
Redstone (repo)
Organiser des données générales, code, mathématiques et QA pour les modèles de grande langue.
Nouvelles
- Décembre 2024: Redstone est libérée!
- Décembre 2023: Longnet et Longvit Sortie
- [Release du modèle] Dec, 2023: modèles TextDiffuser-2 , code et démo.
- SEP, 2023: KOSMOS-2.5 - Un modèle alphabétique multimodal pour la lecture de la machine des images à forte intensité de texte.
- [Release du modèle] May, 2023: Modèles et code TextDiffuser .
- [Release du modèle] Mars 2023: Modèles et code pré-étendus Beit-3 .
- Mars 2023: Kosmos-1 - Un modèle multimodal grand langage (MLLM) qui peut percevoir les modalités générales, apprendre dans le contexte (c.-à-d.
- Janvier 2023: Vall-E une approche de modélisation du langage pour la synthèse du texte à la parole (TTS), qui atteint des performances TTS à pointe de pointe. Voir https://aka.ms/valle pour les démos de notre travail.
- [Libération du modèle] Janvier 2023: E5 - Les intérêts du texte par pré-formation contrastive faiblement supervisée.
- Novembre 2022: Torchscale 0.1.1 est sorti!
- Novembre 2022: Trocr a été accepté par AAAI 2023.
- [Release du modèle] Novembre 2022: Modèles de base XDOC pour la compréhension du document transversal.
- [Libération du modèle] Septembre 2022: Tocring Base et grands modèles pour la reconnaissance de texte de la scène (STR).
- [Libération du modèle] Septembre 2022: Code BEIT V2 et modèles pré-entraînés.
- Août 2022: BEIT-3 - Un modèle de fondation multimodale à usage général, qui atteint des performances de transfert de pointe sur les tâches de vision et de vision
- Juillet 2022: SIMLM - Pré-formation autopérisée à grande échelle pour la correspondance de similitude
- Juin 2022: DIT et Layoutlmv3 ont été acceptés par ACM Multimedia 2022.
- Juin 2022: MetalM - Les modèles de langue sont des interfaces à usage général des modèles de fondation (langue / multilingue, vision, discours et multimodal)
- Juin 2022: VL-BEIT - Transformateur multimodal bidirectionnel appris de zéro avec une tâche de pré-formation unifiée, un squelette partagé et une formation en une étape, soutenant à la fois les tâches de vision et de vision.
- [Release du modèle] juin 2022: Layoutlmv3 chinois - Version chinoise de Layoutlmv3
- [Version du code] May, 2022: Décodage agressif - Accélération sans perte pour la génération SEQ2SEQ
- Avril 2022: Transformers à l'échelle = DeepNet + X-MOE
- [Version du modèle] avril 2022: Layoutlmv3 - pré-formation pour le document AI avec masquage de texte et d'image unifié
- [Release du modèle] Mars 2022: EdgeFormer - Transformateur économe en paramètres pour la génération SEQ2SEQ à disvise
- [Release du modèle] Mars 2022: DIT - Transformateur d'image de document auto-supervisé. Démos: analyse de mise en page du document, classification des images de documents
- Janvier 2022: BEIT a été accepté par ICLR 2022 comme présentation orale (54 sur 3391).
- [Release du modèle] 16 décembre 2021: TROR SMALT MODÈLES POUR LES Textes manuscrits et imprimés, avec une accélération d'inférence 3X.
- 24 novembre 2021: VLMO en tant que nouvelle Sota sur le défi VQA
- Novembre 2021: Traduction multilingue à l'échelle: 10000 paires de langues et au-delà
- [Release du modèle] Novembre 2021: MarkUpLM - Pré-formation pour le texte du texte et du marquage (par exemple HTML / XML)
- [Release du modèle] Novembre 2021: VLMO - pré-formation de langue de vision unifiée avec Beit
- Octobre 2021: Wavlm Large atteint une performance de pointe sur la superbe référence
- [Libération du modèle] Octobre 2021: WAVLM - Modèles pré-entraînés auto-supervisés à grande échelle pour la parole.
- [Release du modèle] Octobre 2021: Troc
- 28 septembre 2021: T-ulrv5 (aka xlm-e / infoxlm) comme sota sur le classement xtreme. // blog
- [Release du modèle] Septembre 2021: Layoutlm-Cased est sur HuggingFace
- [Libération du modèle] Septembre 2021: Trocr - Transformateur OCR avec des modèles Beit et Roberta pré-formés.
- Août 2021: Layoutlmv2 et Layoutxlm sont sur HuggingFace
- [Release du modèle] août 2021: LayoutaDeder - Construit avec Layoutlm pour améliorer la détection générale de l'ordre de lecture.
- [Libération du modèle] août 2021: Deltalm - pré-formation d'encodeur encodeur pour la génération et la traduction du langage.
- Août 2021: Beit est sur Hugging Face
- [Release du modèle] juillet 2021: Beit - Vers Bert Moment pour CV
- [Release du modèle] Juin 2021: Layoutlmv2 , Layoutxlm , MinilMV2 et Adalm .
- Mai 2021: Layoutlmv2, INFOXLMV2, MINILMV2, UNILMV3 et Adalm ont été acceptés par ACL 2021.
- Avril 2021: Layoutxlm arrive en étendant la mise en page dans le support multilingue! Une forme multilingue de compréhension de la forme xFund est également introduite, qui comprend des formes avec des paires de valeurs clés marquées humaines en 7 langues (chinois, japonais, espagnol, français, italien, allemand, portugais).
- Mars 2021: INFOXLM a été accepté par NAACL 2021.
- 29 décembre 2020: Layoutlmv2 est livré avec la nouvelle SOTA sur une grande variété de tâches de document IA, y compris Docvqa et Sloi Lecadboard.
- 8 octobre 2020: T-ulrv2 (aka infoxlm) comme sota dans le classement Xtreme. // blog
- Septembre 2020: Minilm a été accepté par les Neirips 2020.
- 16 juillet 2020: INFOXLM (UNILM multilingue) Arxiv
- Juin 2020: UNILMV2 a été accepté par ICML 2020; Layoutlm a été accepté par KDD 2020.
- 5 avril 2020: Minilm multilingue sorti!
- Septembre 2019: UNILMV1 a été accepté par les Neirips 2019.
Licence
Ce projet est autorisé sous la licence trouvée dans le fichier de licence dans le répertoire racine de cette arborescence source. Les parties du code source sont basées sur le projet Transformers.
Code de conduite open source de Microsoft
Coordonnées
Pour obtenir de l'aide ou des problèmes en utilisant les modèles pré-formés, veuillez soumettre un problème GitHub.
Pour d'autres communications, veuillez contacter Furu Wei ( [email protected] ).