Ce référentiel fournit des modèles d'encodeur pré-formés et ses techniques d'optimisation connexes développées par le laboratoire d'esprit (intelligence machine de Damo).
La famille d'alicemind:
CVPR 2024 )EMNLP 2023 )ICML 2023 )EMNLP 2022 )Under Review )NAACL 2021 )ACL 2021 )CVPR 2020 VQA Challenge Runner-up )ACL 2021 )EMNLP 2020 )ICLR 2020 )IJCAI 2022 )EMNLP 2021 )AAAI 2022 ) Mplug-Owl (27 avril 2023): un nouveau paradigme de formation avec une conception modularisée pour les grands modèles de langage multimodal. Apprend des connaissances visuelles tout en prenant en charge la conversation multi-tours composée de différentes modalités. Capacités observées telles que la corrélation multi-image et la compréhension du texte de la scène, la compréhension des documents basés sur la vision. Libérez un ensemble d'évaluation des instructions lié à visuellement Owleval. MPLUG-HOWL: La modularisation autorise les modèles de grands langues avec le multimodalité
Chatplug (16 avril 2023): un système de dialogue de domaine ouvert chinois pour les applications humaines numériques qui instruction des bêtises sur un large éventail de tâches de dialogue dans un format unifié sur Internet. Différentes des autres modèles de dialogue du domaine ouvert qui se concentrent sur le pré-formation et la mise à l'échelle de la taille du modèle ou du dialogue de modèle, nous visons à construire un système de dialogue puissant et pratique pour l'homme numérique avec des compétences diverses et une bonne généralisation multi-tâches par un réglage de l'instruction Internet. ChatPlug: Système de dialogue génératif à domaine ouvert avec réglage d'instructions sur Internet pour l'homme numérique
MPLUG (1er septembre 2022): modèle pré-formé à grande échelle pour la compréhension et la génération en langue visuelle. MPLUG est pré-formé de bout en bout sur des paires de texte d'image à grande échelle avec des objectifs discriminants et génératifs. Il obtient des résultats de pointe sur un large éventail de tâches en aval de langue visuelle, y compris la capture d'images, la récupération de texte d'image, la mise à la terre visuelle et la réponse aux questions visuelles. MPLUG: Apprentissage multimodal efficace par des connexions de sauts intermodales ( EMNLP 2022 )
Plug (1er septembre 2022): Modèle pré-formé chinois à grande échelle pour la compréhension et la génération . Plug (27b) est un modèle de pré-formation chinois à grande échelle pour la compréhension et la génération du langage. La formation de Plug est en deux étapes, la première étape est un encodeur de structure à 24 couches, et la deuxième étape est un encodeur d'encodeur de palmier de 24 à 6 couches.
SDCUP (6 septembre 2021): Modèles pré-formés pour la compréhension du tableau . Nous concevons un objectif pré-formation de dépendance du schéma pour imposer le biais inductif souhaité dans les représentations apprises pour la pré-formation du tableau. Nous proposons en outre une approche d'apprentissage du curriculum consciente du schéma pour atténuer l'impact du bruit et apprendre efficacement des données pré-formation de manière facile à dur. Les résultats de l'expérience sur Squall et Spider démontrent l'efficacité de notre objectif pré-formation et de notre programme par rapport à une variété de lignes de base. "SDCUP: Dépendance du schéma Amélioration du curriculum Pré-formation pour l'analyse sémantique de table" ( Under Review )
Latticebert (15 mars 2021): Nous proposons un nouveau paradigme de pré-formation pour chinois - Lattice-bert qui incorpore explicitement les représentations de mots à celles des personnages, peut ainsi modéliser une phrase d'une manière multi-granularité. "Lattice-Bert: Tire en tirant des représentations multi-granularités dans les modèles de langue pré-formés chinois" ( NAACL 2021 )
Structurallm (15 mars 2021): Modèles pré-formés pour la compréhension de l'image documentaire . Nous proposons une nouvelle approche de pré-formation, Structurallm, pour tirer parti conjointement des informations sur les cellules et la disposition des documents numérisés. La structure pré-formée atteint de nouveaux résultats de pointe dans différents types de tâches en aval. "Structurallm: pré-formation structurelle pour la compréhension de la forme" ( ACL 2021 )
STRUCTVBERT (15 mars 2021): Modèles pré-formés pour la compréhension de la vision . Nous proposons un nouveau schéma de pré-formation visuelle-linguistique à flux unique en tirant parti de l'apprentissage pré-formation progressif et multi-tâches progressif en plusieurs étapes. Structvbert a obtenu le prix du finaliste du VQA du 2020 et le résultat SOTA sur le référence publique-standard VQA 2020 (juin 2020). "Talk diapositives" ( CVPR 2020 VQA Challenge Runner-up ).
VECO V0 (15 mars 2021): Modèles pré-formés pour la compréhension du langage naturel (x) (X-NLU) et la génération (X-NLG) . VECO (V0) obtient les nouveaux résultats SOTA sur diverses tâches de compréhension inter-lingues de la référence Xtreme, couvrant la classification du texte, l'étiquetage des séquences, la réponse aux questions et la récupération des phrases. Pour les tâches de génération croisée, elle surpasse également tous les modèles interdicules et les variantes de transformateurs de pointe sur les ensembles de données de traduction de l'anglais et de l'anglais et de l'anglais au français, avec des gains allant jusqu'à 1 ~ 2 Bleu. «VECO: pré-entraînement du codeur variable pour la compréhension et la génération inter-gênantes» ( ACL 2021 )
PALM (15 mars 2021): Modèles pré-formés pour la génération du langage naturel (NLG) . Nous proposons un nouveau schéma qui prépare conjointement un modèle de langage automatique et autorégressif sur un grand corpus non étiqueté, spécialement conçu pour générer un nouveau texte conditionné sur le contexte. Il obtient de nouveaux résultats de SOTA dans plusieurs tâches en aval. "Palm: pré-formation d'un modèle de langage automatique et autorégressif pour la génération conditionnée par le contexte" ( EMNLP 2020 )
STRUCTBER (15 mars 2021): Modèles pré-formés pour la compréhension du langage naturel (NLU) . Nous étendons Bert à un nouveau modèle, STRUCTBER, en incorporant les structures linguistiques dans la pré-formation. Plus précisément, nous pré-entraînons Structer avec deux tâches auxiliaires pour tirer le meilleur parti de l'ordre séquentiel des mots et des phrases, qui exploitent respectivement les structures linguistiques au niveau de la parole et de la phrase. "STRUCTBER: Incorporer les structures linguistiques dans la pré-formation pour une compréhension profonde du langage" ( ICLR 2020 )
EMNLP 2021 ) PRUNT CONTRASTIVE (17 décembre 2021): l'élagage contrastif (CAP) est un cadre général d'élagage dans le cadre du paradigme avant la formation et le réglage fin , qui vise à maintenir à la fois des connaissances spécifiques aux tâches et aux tâches pendant l'élagage. Le CAP est conçu comme un cadre général, compatible avec l'élagage structuré et non structuré. Unified dans l'apprentissage contrastif, CAP encourage le modèle élagué à apprendre du modèle pré-formé, les instantanés (modèles intermédiaires pendant l'élagage) et le modèle affiné, respectivement. «Dense à clairsemé: élagage contrastif pour une meilleure compression du modèle de langue pré-formée» ( AAAI 2022 )
PST (23 mai 2022): La formation clairsemée économe en paramètres (PST) est de réduire le nombre de paramètres formables lors de la formation clairsemée dans les tâches en aval. Il combine les critères sans données et basés sur les données à mesurer efficacement et avec précision l'importance des poids, et étudie la redondance intrinsèque de l'importance du poids basée sur les données et dérive deux caractéristiques évidentes, c'est-à-dire, de faiblesse et de structuration, ce qui rend donc l'efficacité des ressources et les paramètres de formation. «La rareté économe en paramètres pour les modèles de grande langue affinement» ( IJCAI 2022 )
ALICEMIND Site Web officiel : https://nlp.aliyun.com/portal#/alice
Plateforme ouverte Alicind : https://alicemind.aliyuns.com
Veuillez soumettre un problème GitHub si vous voulez de l'aide ou si vous avez des problèmes en utilisant Alice.
Pour plus d'informations, vous pouvez rejoindre le AliceMind Users Group sur Dingtalk pour nous contacter. Le nombre du groupe Dingtalk est de 35738533.
Pour d'autres communications commerciales, veuillez contacter [email protected]
Alicemind est libéré sous la licence Apache 2.0.
Copyright 1999-2020 Alibaba Group Holding Ltd.
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at the following link.
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.