Os grandes modelos de idiomas (LLMS) exibem um entendimento impressionante de linguagem natural entre as tarefas. À medida que o tamanho do modelo de idioma aumenta, adaptar -os a tarefas específicas se torna computacionalmente caro. A aprendizagem no contexto foi proposta como uma alternativa ao ajuste fino padrão do LLMS. No entanto, o aviso geralmente está de acordo com o ajuste fino padrão. Além disso, encontrar as melhores instruções não é direto, pois o processo é quebradiço, por exemplo, para a redação do prompt e o número de exemplos. Para resolver esses problemas, o ajuste fino (PEFT) eficiente em parâmetro foi proposto. Esse paradigma adiciona componentes modulares a um modelo pré-treinado; Eles são ajustados na tarefa de destino, enquanto o LLM não é atualizado. Os componentes da PEFT têm capacidade dedicada por tarefa e permitem a atualização de um modelo sem esquecer o conhecimento prévio, enquanto uma composição de tais módulos pode melhorar os recursos de várias tarefas de um LLM. O PEFT pode atingir o desempenho do ajuste fino padrão. Isso motivou a pesquisa nessa área e uma infinidade de métodos foi recentemente proposta. No entanto, para avaliar qual abordagem modular é adequada para um conjunto de tarefas, é necessária a experimentação com abordagens modulares selecionadas por tarefa. Isso geralmente requer uma pesquisa exaustiva sobre métodos e hiperparâmetros, o que é difícil na prática. Este estudo propõe um novo critério, com base na matriz de informações de Fisher, para selecionar qual abordagem PEFT a ser usada para adaptar um LLM a uma tarefa específica. A nova seleção de Fisher a priori de ajuste de prefixos, adaptadores e Lora para Transformers, Fishpal, evita experimentos de treinamento dispendioso e apenas treina uma combinação por tarefa. Nas experiências desta tese, o FishPal supera consistentemente as linhas de base em diferentes tarefas de cola, atualizando apenas 2-4% dos parâmetros totais do modelo e adicionando apenas 0,4% dos parâmetros do modelo básico durante a inferência.
Todas as experiências foram executadas em 1 Google Cloud GPU (NVIDIA T4 GPU com 4VCPUS e 15 GB RAM na zona US-West3-B)