L'éditeur de Downcodes a appris que Tencent Youtu Lab avait coopéré avec l'équipe de recherche de l'Université Jiao Tong de Shanghai pour développer une méthode révolutionnaire d'amélioration des connaissances, qui a apporté des changements révolutionnaires à l'optimisation des grands modèles. Cette méthode ne nécessite pas de réglage fin du modèle traditionnel, extrait directement les connaissances des données open source, simplifie considérablement le processus d'optimisation et surpasse la technologie de pointe (SOTA) dans de multiples tâches. Cette technologie innovante résout efficacement le problème de la dépendance des méthodes traditionnelles de réglage fin des modèles à l'égard de grandes quantités de données annotées et de ressources informatiques, et offre de nouvelles possibilités pour la promotion de grands modèles dans des applications pratiques.
Tencent You Tu Lab et l'équipe de recherche de l'Université Jiao Tong de Shanghai ont lancé conjointement une méthode révolutionnaire d'amélioration des connaissances, ouvrant une nouvelle voie pour l'optimisation des grands modèles. Cette technologie innovante abandonne les limites du réglage fin des modèles traditionnels, extrait les connaissances directement des données open source, simplifie considérablement le processus d'optimisation des modèles et atteint des performances exceptionnelles au-delà de la technologie de pointe (SOTA) dans de multiples tâches.

Ces dernières années, bien que les grands modèles linguistiques (LLM) aient fait des progrès significatifs dans divers domaines, ils sont encore confrontés à de nombreux défis dans leurs applications pratiques. Les méthodes traditionnelles de réglage fin des modèles nécessitent une grande quantité de données annotées et de ressources informatiques, ce qui est souvent difficile à réaliser pour de nombreuses entreprises. Bien que la communauté open source fournisse une multitude de modèles de réglage fin et d'ensembles de données d'instructions, la manière d'utiliser efficacement ces ressources et d'améliorer les capacités de tâches et les performances de généralisation du modèle avec des échantillons étiquetés limités a toujours été un problème auquel l'industrie est confrontée.
En réponse à ce problème, l'équipe de recherche a proposé un nouveau cadre expérimental axé sur l'utilisation de connaissances open source pour améliorer les capacités du modèle dans les conditions de données commerciales réelles étiquetées K-shot. Ce framework exploite pleinement la valeur d'échantillons limités et offre des améliorations de performances pour les grands modèles de langage sur les tâches directionnelles.

Les principales innovations de cette recherche comprennent :
Sélection efficace de modèles : maximisez le potentiel des modèles existants dans des conditions de données limitées en évaluant de manière exhaustive la perplexité des inférences, les performances des modèles et la richesse des connaissances.
Optimisation de l'extraction des connaissances : conception d'une méthode pour extraire des connaissances pertinentes à partir de données open source. Grâce à une stratégie de filtrage des données qui équilibre la similarité et la diversité, elle fournit des informations supplémentaires au modèle tout en réduisant le risque de surajustement.
Système de modèle adaptatif : un système adaptatif basé sur une structure de modèle expert hybride est construit pour réaliser une complémentation de connaissances entre plusieurs modèles efficaces et améliorer les performances globales.
Au cours de la phase expérimentale, l'équipe de recherche a mené une évaluation complète à l'aide de six ensembles de données open source. Les résultats montrent que cette nouvelle méthode surpasse les lignes de base et les autres méthodes de pointe dans diverses tâches. En visualisant les modèles d'activation des experts, l'étude a également révélé que la contribution de chaque expert au modèle est indispensable, confirmant ainsi l'efficacité de la méthode.
Cette recherche démontre non seulement l'énorme potentiel des connaissances open source dans le domaine des grands modèles, mais fournit également de nouvelles idées pour le développement futur de la technologie de l'intelligence artificielle. Il dépasse les limites de l'optimisation des modèles traditionnels et fournit une solution réalisable aux entreprises et aux instituts de recherche pour améliorer les performances des modèles avec des ressources limitées.
À mesure que cette technologie continue d’être améliorée et promue, nous avons des raisons de croire qu’elle jouera un rôle important dans la modernisation intelligente de diverses industries. Cette coopération entre Tencent Youtu et l'Université Jiao Tong de Shanghai constitue non seulement un modèle de coopération entre le monde universitaire et l'industrie, mais également une étape importante dans la promotion de la technologie de l'intelligence artificielle à un niveau supérieur.
Adresse papier : https://www.arxiv.org/pdf/2408.15915
Ce résultat de recherche fournit une nouvelle idée et une solution réalisable pour l’optimisation de grands modèles. Il présente un énorme potentiel d’applications pratiques et mérite d’être attendu pour d’autres applications et développements à l’avenir. L'éditeur de Downcodes continuera de prêter attention aux derniers développements dans ce domaine et de proposer des rapports plus passionnants aux lecteurs.