Les modèles de grands langues (LLM) présentent une compréhension impressionnante du langage naturel entre les tâches. À mesure que la taille du modèle de langue augmente, les adapter à des tâches spécifiques devient coûteuse en calcul. L'apprentissage dans le contexte a été proposé comme alternative au réglage fin standard des LLM. Cependant, l'incitation sous-performe généralement le réglage fin standard. De plus, trouver les meilleures invites n'est pas simple, car le processus est fragile par exemple, au libellé de l'invite et au nombre d'exemples. Pour résoudre ces problèmes, des réglages fins et efficaces (PEFT) ont été proposés. Ce paradigme ajoute des composants modulaires à un modèle pré-formé; Ceux-ci sont affinés sur la tâche cible tandis que le LLM n'est pas mis à jour. Les composants PEFT ont une capacité par tâche dédiée et permettent de mettre à jour un modèle sans oublier les connaissances antérieures, tandis qu'une composition de ces modules peut améliorer les capacités multi-tâches d'un LLM. PEFT peut atteindre les performances d'un réglage fin standard. Cela a motivé la recherche dans ce domaine et une pléthore de méthodes ont récemment été proposées. Cependant, pour évaluer quelle approche modulaire convient à un ensemble de tâches, l'expérimentation avec des approches modulaires sélectionnées par tâche est nécessaire. Cela nécessite souvent une recherche exhaustive sur les méthodes et les hyperparamètres, ce qui est difficile dans la pratique. Cette étude propose un nouveau critère, basé sur la matrice d'informations Fisher, pour sélectionner l'approche PEFT à utiliser pour adapter un LLM à une tâche spécifique. La nouvelle sélection a priori a priori de Fisher de préfixe, les adaptateurs et LORA pour Transformers, Fishpal, évite des expériences de formation coûteuses et ne forme qu'une combinaison par tâche. Dans les expériences de cette thèse, FishPal surpasse constamment les lignes de base sur différentes tâches de colle tout en mettant à jour seulement 2 à 4% des paramètres totaux du modèle et en ajoutant seulement 0,4% des paramètres du modèle de base pendant l'inférence.
Toutes les expériences ont été exécutées sur 1 Google Cloud GPU (GPU NVIDIA T4 avec 4VCPUS et 15 Go de RAM dans la zone US-West3-B)