L'équipe de recherche de Microsoft a réalisé une percée majeure : la méthode LongRoPE qu'elle a développée a réussi à étendre la fenêtre contextuelle du grand modèle de langage (LLM) à un nombre étonnant de 2 048 000, réalisant une expansion par 8 tout en maintenant des performances stables du modèle. Cette technologie évite le processus complexe de réglage fin et améliore considérablement l’efficacité en recherchant efficacement la non-uniformité. Les résultats de la recherche montrent que même dans une très grande fenêtre contextuelle de 2048k, la perplexité du modèle peut toujours être maintenue au niveau de référence.
L’article se concentre sur :
Les chercheurs de Microsoft ont proposé la méthode LongRoPE pour étendre la fenêtre de contexte LLM à 2048 Ko, réalisant une expansion 8 fois supérieure tout en maintenant les performances. Éliminez les réglages complexes en recherchant efficacement les non-uniformités. Les résultats expérimentaux montrent que la perplexité dans le contexte 2048k maintient le niveau de base, ouvrant une nouvelle direction pour l'amélioration future des performances du modèle de langage.
Les progrès révolutionnaires de la méthode LongRoPE ouvrent la voie au développement futur de LLM. Ils améliorent non seulement les capacités de traitement du modèle, mais simplifient également le processus de formation et d'optimisation du modèle, jetant ainsi une base solide pour la construction d'un langage plus puissant et plus efficace. modèle. Cela marque un grand pas en avant pour la technologie LLM et l’avenir est prometteur.