Avec le développement rapide de la technologie de l'intelligence artificielle, les développeurs et les institutions de recherche sont confrontés à de nombreux défis, notamment des coûts informatiques élevés, des problèmes de latence et le manque de modèles open source vraiment flexibles. Ces problèmes limitent non seulement les progrès technologiques, mais rendent également difficile la promotion de nombreuses solutions existantes dans des applications pratiques. Surtout dans les scénarios où un calcul efficace et une faible latence sont nécessaires, les modèles existants ont tendance à s'appuyer sur des infrastructures cloud coûteuses ou ne sont pas en mesure de fonctionner sur des appareils locaux en raison de leur taille. Par conséquent, le marché a besoin d'un nouveau modèle qui peut fonctionner efficacement et être flexible.
Pour faire face à cette demande, Reka AI a lancé Reka Flash3, un modèle d'inférence construit à partir de zéro avec 2,1 milliards de paramètres. L'objectif de conception de ce modèle est de prendre en charge une variété de scénarios d'application, y compris des conversations générales, une assistance au codage, un suivi des instructions et des appels de fonction. Le processus de formation de Reka Flash3 combine des ensembles de données publics et des ensembles de données synthétiques, et l'apprentissage du renforcement est effectué par une méthode minutieuse de réglage des instructions et de renforcer une sortie de sortie (RLOO). Cette méthode de formation garantit que le modèle établit un équilibre entre la capacité et l'efficacité, ce qui le fait se démarquer parmi de nombreux modèles similaires.
Au niveau technique, Reka Flash3 a plusieurs fonctionnalités innovantes qui le rendent exceptionnel en flexibilité et en efficacité des ressources. Tout d'abord, le modèle est capable de gérer des longueurs de contexte allant jusqu'à 32K jetons, ce qui facilite la gestion des documents plus longs et des tâches complexes sans surcharger le système. Deuxièmement, Reka Flash3 introduit un mécanisme «obligatoire du budget», via une balise <assing> spécifique, les utilisateurs peuvent limiter les étapes du processus de réflexion du modèle, conservant ainsi des performances cohérentes sans augmenter les frais généraux de calcul. De plus, le modèle est idéal pour le déploiement sur les appareils, avec une taille de précision complète de 39 Go (FP16), qui peut être encore comprimée à 11 Go avec une quantification 4 bits. Cette flexibilité rend Reka Flash3 plus fluide lorsqu'il est déployé localement, ce qui lui donne un avantage sur les modèles plus grands et à forte intensité de ressources.
À en juger par les mesures d'évaluation et les données de performance, Reka Flash3 fonctionne bien dans les applications pratiques. Par exemple, bien qu'il ait obtenu un score de 65,0 dans le test MMLU-PRO et effectué modérément, sa compétitivité ne peut pas être sous-estimée après s'être combinée avec des sources de connaissances supplémentaires telles que la recherche Web. De plus, Reka Flash3 a également bien fonctionné en capacités multilingues, marquant 83,2 sur le test de comète WMT'23, montrant son support raisonnable pour les entrées non anglophones, bien qu'elle se concentre principalement sur l'anglais. Ces résultats, associés à leur nombre de paramètres efficaces par rapport à leurs pairs tels que QWQ-32B, mettent davantage met en évidence leur potentiel dans les applications pratiques.
Pour résumer, Reka Flash3 représente une solution d'IA plus accessible. Grâce à un équilibre intelligent entre les performances et l'efficacité, le modèle offre une option robuste et flexible pour le chat général, le codage et les tâches d'instructions. Sa conception compacte, sa fenêtre de contexte de jeton 32K améliorée et son mécanisme obligatoire budgétaire innovant en font une option pratique pour le déploiement de l'appareil et les applications à faible latence. Reka Flash3 fournit sans aucun doute une base passionnante pour les chercheurs et les développeurs à la recherche de modèles compétents et gérables.
Pour en savoir plus sur Reka Flash3, veuillez visiter le lien suivant:
Introduction: https://www.reka.ai/news/introducing-reka-flash
Modèle: https://huggingface.co/rekaai/reka-flash-3