Le clavier Google Gboard a lancé une nouvelle fonctionnalité appelée « Relecture », qui utilise de grands modèles linguistiques (LLM) pour réparer les erreurs de phrases et de paragraphes en un seul clic. Cette fonctionnalité innovante améliore considérablement l'efficacité de la saisie de texte mobile, modifie la méthode traditionnelle de correction des erreurs mot par mot et offre aux utilisateurs une expérience de frappe plus fluide. Cette fonctionnalité est actuellement disponible sur les appareils Pixel 8 et sert chaque jour des milliers d'utilisateurs. Derrière elle se cachent les recherches approfondies et les avancées techniques de l'équipe de recherche de Google en matière de génération de données, de formation de modèles et d'optimisation des services.
Gboard est un clavier intelligent conçu par Google pour les appareils mobiles qui offre une expérience de frappe fluide grâce au décodage statistique. Aujourd'hui, l'équipe de recherche de Google y a ajouté une fonctionnalité innovante de « relecture », exploitant les puissantes capacités des grands modèles linguistiques (LLM) pour réaliser une avancée décisive dans la réparation des erreurs dans des phrases et des paragraphes entiers en un seul clic.
Selon le document récemment publié par Google « Relecture : corrigez toutes les erreurs en un seul clic », cette nouvelle fonctionnalité de Gboard appelée « Relecture » s'appuie sur la prise en charge du LLM côté serveur, permettant aux utilisateurs de corriger de manière transparente des phrases entières ou diverses erreurs en un seul clic. dans un paragraphe, changeant complètement l'expérience traditionnelle de correction mot par mot. La fonctionnalité est actuellement déployée sur les appareils Pixel 8, bénéficiant chaque jour à des milliers d’utilisateurs.

Ce système comprend quatre éléments clés : la génération de données, la conception des indicateurs, l'ajustement du modèle et le service. L'équipe de recherche a généré des ensembles de données simulées via un cadre de synthèse d'erreurs complexe, conçu plusieurs indicateurs pour évaluer le modèle sous différents angles et emprunté des idées à InstructGPT pour d'abord affiner grâce à l'apprentissage supervisé, puis utiliser la technologie d'apprentissage par renforcement pour ajuster, améliorant ainsi considérablement le performances du modèle.

De plus, le modèle est déployé sur le cloud TPU V5 et optimise la latence grâce à la quantification, au bucketing, à l'entrée segmentée et au décodage spéculatif, réduisant finalement le temps de réponse médian de 39,4 %.

Les analystes estiment que cette recherche exploratoire démontre pleinement l'énorme potentiel des grands modèles pour améliorer l'expérience d'interaction d'entrée sur les terminaux mobiles et constitue une innovation révolutionnaire par rapport aux méthodes traditionnelles d'interaction homme-machine. Il souligne le pouvoir transformateur des grands modèles dans l’amélioration de l’efficacité de la saisie des utilisateurs et inspire l’utilisation future de l’intelligence artificielle pour optimiser les expériences interactives quotidiennes.
Adresse papier : https://arxiv.org/abs/2406.04523
Dans l’ensemble, la fonction de « relecture » de Google Gboard est un exemple réussi d’application de la technologie de l’intelligence artificielle sur le terminal mobile, indiquant une expérience de saisie plus intelligente et plus pratique à l’avenir.