fishpal
1.0.0
大型语言模型(LLM)在任务中表现出令人印象深刻的自然语言理解。随着语言模型大小的增加,将它们适应到特定任务变得昂贵。已经提出了在LLMS标准微调的替代方案。但是,提示通常表现不佳的标准微调。同样,找到最佳提示并不是一个简单的提示,因为该过程是脆弱的,例如提示的措辞和示例数量。为了解决这些问题,已经提出了参数有效的微调(PEFT)。该范式将模块化成分添加到预训练的模型中。在LLM未更新时,这些目标是对目标任务进行微调。 PEFT组件具有专用的每任务容量,并允许在不忘记以前的知识的情况下更新模型,而这些模块的组成可以提高LLM的多任务功能。 PEFT可以达到标准微调的性能。这激发了该领域的研究,最近提出了许多方法。但是,为了评估哪种模块化方法适用于一组任务,需要对每个任务进行选定的模块化方法进行实验。这通常需要对方法和超标剂进行详尽的搜索,这在实践中很难。这项研究提出了一个基于Fisher Information矩阵的新标准,以选择用于使LLM适应特定任务的PEFT方法。这部小说是针对变压器,Fishpal的前缀调整,适配器和洛拉的先验选择的选择,避免了昂贵的训练实验,并且每任务仅训练一种组合。在本文的实验中,Fishpal始终在不同的胶水任务上的基准始终优于基准,同时仅更新了总模型参数的2-4%,并且在推理过程中仅添加了基本模型参数的0.4%。
所有实验均在1个Google Cloud GPU上运行(NVIDIA T4 GPU,带有4VCPU和15GB RAM,在US-WEST3-B区域)