Nos últimos anos, com o rápido desenvolvimento de grandes modelos de idiomas (LLMS), o campo do processamento de linguagem natural inaugurou mudanças revolucionárias. Essas tecnologias avançadas têm sido amplamente utilizadas em cenários, como assistentes de código, mecanismos de pesquisa e assistentes pessoais de IA, mostrando habilidades poderosas. No entanto, a abordagem tradicional de "previsão de tokens" tem limitações óbvias para lidar com inferência complexa e tarefas de longo prazo, e os modelos geralmente exigem treinamento extensivo para dominar um profundo entendimento conceitual.
Para enfrentar esse desafio, instituições de pesquisa como a Meta propuseram uma estrutura inovadora de pré-treinamento chamada "Mix contínuo de conceito" (Cocomix). Essa abordagem não apenas mantém as vantagens da próxima previsão de token, mas também introduz o aprendizado contínuo de conceitos por meio do AutoEncoder esparso (SAE), melhorando significativamente a eficiência e o desempenho da aprendizagem do modelo. Especificamente, o Cocomix formou um mecanismo de aprendizado completamente novo, triagem os conceitos mais influentes e entrelaçando -os com a representação oculta dos tokens.
Em aplicações práticas, os pesquisadores realizaram avaliações extensas do Cocomix, cobrindo os benchmarks de modelagem de múltiplas idiomas e modelos de diferentes escalas. Os resultados experimentais mostram que o Cocomix ainda pode manter o desempenho comparável às previsões tradicionais de token, reduzindo os tokens de treinamento em 21,5%. Esse achado demonstra melhorias significativas, especialmente em pequenos modelos, extraindo conceitos e orientando grandes modelos.
Além disso, a interpretabilidade e a manipulação do Cocomix também se tornaram uma de suas vantagens principais. Ao observar o desempenho do modelo no processo de previsão, os pesquisadores podem identificar claramente os conceitos nos quais o modelo se concentra e manipular os resultados da saída do modelo ajustando o tamanho do conceito. Esse recurso fornece uma nova perspectiva para análises e otimização adicionais do modelo.
No geral, o Cocomix não é apenas uma inovação importante nos métodos de treinamento dos modelos de idiomas existentes, mas também uma tentativa importante da Meta de promover o desenvolvimento de grandes modelos. Com o avanço contínuo da tecnologia, espera -se que essa estrutura se torne uma ferramenta essencial no campo do processamento de linguagem natural no futuro, promovendo a evolução da inteligência artificial em uma direção mais inteligente.
Endereço do projeto: https://github.com/facebookresearch/ram/tree/main/projects/cocomix