O editor do Downcodes aprendeu que o Tencent Youtu Lab cooperou com a equipe de pesquisa da Universidade Jiao Tong de Xangai para desenvolver um método inovador de aprimoramento do conhecimento, que trouxe mudanças revolucionárias na otimização de grandes modelos. Este método não requer ajuste fino do modelo tradicional, extrai conhecimento diretamente de dados de código aberto, simplifica significativamente o processo de otimização e supera a tecnologia de ponta (SOTA) em múltiplas tarefas. Esta tecnologia inovadora resolve efetivamente o problema da dependência dos métodos tradicionais de ajuste fino de modelos de grandes quantidades de dados anotados e recursos computacionais, e oferece novas possibilidades para a promoção de grandes modelos em aplicações práticas.
O Tencent Youtu Lab e a equipe de pesquisa da Universidade Jiao Tong de Xangai lançaram em conjunto um método revolucionário de aprimoramento do conhecimento, abrindo um novo caminho para a otimização de grandes modelos. Esta tecnologia inovadora abandona as limitações do ajuste fino do modelo tradicional, extrai conhecimento diretamente de dados de código aberto, simplifica muito o processo de otimização do modelo e alcança desempenho excepcional além da tecnologia de ponta (SOTA) em múltiplas tarefas.

Nos últimos anos, embora os grandes modelos de linguagem (LLMs) tenham feito progressos significativos em vários campos, ainda enfrentam muitos desafios em aplicações práticas. Os métodos tradicionais de ajuste fino de modelos exigem uma grande quantidade de dados anotados e recursos de computação, o que muitas vezes é difícil de conseguir para muitas empresas práticas. Embora a comunidade de código aberto forneça uma grande variedade de modelos de ajuste fino e conjuntos de dados de instruções, como utilizar efetivamente esses recursos e melhorar as capacidades de tarefa e o desempenho de generalização do modelo com amostras rotuladas limitadas sempre foi um problema enfrentado pela indústria.
Em resposta a este problema, a equipe de pesquisa propôs uma nova estrutura experimental que se concentra no uso de conhecimento de código aberto para aprimorar as capacidades do modelo sob a condição de dados de negócios reais rotulados como K-shot. Esta estrutura aproveita totalmente o valor de amostras limitadas e fornece melhorias de desempenho para grandes modelos de linguagem em tarefas direcionais.

As principais inovações desta pesquisa incluem:
Seleção eficiente de modelos: Maximize o potencial dos modelos existentes sob condições de dados limitadas, avaliando de forma abrangente a perplexidade da inferência, o desempenho do modelo e a riqueza de conhecimento.
Otimização de extração de conhecimento: projetou um método para extrair conhecimento relevante de dados de código aberto. Por meio de uma estratégia de triagem de dados que equilibra similaridade e diversidade, fornece informações complementares ao modelo, ao mesmo tempo que reduz o risco de overfitting.
Sistema de modelo adaptativo: Um sistema adaptativo baseado em uma estrutura de modelo especialista híbrido é construído para realizar a complementação do conhecimento entre vários modelos eficazes e melhorar o desempenho geral.
Durante a fase experimental, a equipe de pesquisa conduziu uma avaliação abrangente usando seis conjuntos de dados de código aberto. Os resultados mostram que este novo método supera as linhas de base e outros métodos de última geração em diversas tarefas. Ao visualizar padrões de ativação de especialistas, o estudo também constatou que a contribuição de cada especialista para o modelo é indispensável, confirmando ainda mais a eficácia do método.
Esta pesquisa não só demonstra o enorme potencial do conhecimento de código aberto na área de grandes modelos, mas também fornece novas ideias para o desenvolvimento futuro da tecnologia de inteligência artificial. Ele rompe as limitações da otimização do modelo tradicional e fornece uma solução viável para empresas e instituições de pesquisa melhorarem o desempenho do modelo com recursos limitados.
À medida que esta tecnologia continua a ser melhorada e promovida, temos razões para acreditar que desempenhará um papel importante na modernização inteligente de diversas indústrias. Esta cooperação entre a Tencent Youtu e a Universidade Jiao Tong de Xangai não é apenas um modelo de cooperação entre a academia e a indústria, mas também um passo importante na promoção da tecnologia de inteligência artificial a um nível superior.
Endereço do artigo: https://www.arxiv.org/pdf/2408.15915
O resultado desta pesquisa fornece uma ideia nova e uma solução viável para otimização de grandes modelos. Tem um enorme potencial em aplicações práticas e vale a pena esperar por novas aplicações e desenvolvimento no futuro. O editor do Downcodes continuará prestando atenção aos últimos desenvolvimentos neste campo e trazendo relatórios mais interessantes aos leitores.