Com o rápido desenvolvimento da tecnologia de inteligência artificial, a importância de grandes modelos de idiomas (LLMS) em aplicativos corporativos está se tornando cada vez mais proeminente. No entanto, como melhorar a precisão do conhecimento desses modelos e reduzir as alucinações que eles produzem se tornou uma questão -chave que precisa ser resolvida com urgência no campo atual da IA. Nesse cenário, a equipe de pesquisa da Meta AI propôs uma solução inovadora - a "camada de memória escalável", trazendo nova luz a esse desafio.
O conceito de design da camada de memória escalável é bastante prospectiva. Essa arquitetura é particularmente adequada para cenários de aplicação, onde é necessário um conhecimento factual maciço, mantendo uma velocidade eficiente de inferência, abrindo novas maneiras de melhorar o desempenho dos modelos de linguagem.
Os modelos de idiomas tradicionais geralmente usam "camadas intensivas" para codificar informações. Por outro lado, a camada de memória adota uma ativação esparsa mais eficiente e um mecanismo de pesquisa de valor-chave, que permite a codificação e recuperação do conhecimento a um custo computacional mais baixo. Embora seja um pouco maior que a densa camada em termos de uso da memória, ele só precisa ativar um pequeno número de parâmetros, o que melhora bastante a eficiência da computação.
Embora o conceito de camada de memória exista há muitos anos, sua aplicação nas arquiteturas modernas de aprendizado profundo é relativamente limitado, principalmente porque não foi capaz de se adaptar totalmente aos aceleradores atuais de hardware. Vale ressaltar que atualmente o Avançado LLMS geralmente adota uma arquitetura "híbrida especializada", que tem semelhanças com a camada de memória em alguns aspectos, e enfatiza a especialização de módulos específicos.
Para superar os desafios da camada de memória no uso da memória, a equipe de pesquisa da Meta fez várias melhorias inovadoras. Eles projetaram uma arquitetura paralela para camadas de memória, permitindo armazenar milhões de pares de valor-chave em várias GPUs, mantendo o modelo em funcionamento a uma velocidade. Além disso, a equipe desenvolveu um núcleo especial do CUDA para lidar com operações de largura de banda de alta memória e introduziu um mecanismo de compartilhamento de parâmetros, permitindo que várias camadas de memória compartilhem o mesmo conjunto de parâmetros de memória, otimizando ainda mais a eficiência da utilização de recursos.
A equipe de pesquisa conduziu um teste abrangente do modelo de aprimoramento da memória, substituindo algumas camadas densas por camadas de memória compartilhada através da transformação do modelo de llama. Os resultados experimentais mostram que os modelos de memória têm um bom desempenho em várias tarefas, especialmente em tarefas que requerem conhecimento factual.
Esta pesquisa aponta a direção para o desenvolvimento de arquiteturas de IA da próxima geração. Os pesquisadores meta recomendam fortemente a integração da camada de memória nos futuros sistemas de IA para reduzir efetivamente os fenômenos de esquecimento e alucinação do modelo. Com o avanço contínuo da tecnologia, a camada de memória escalável deve desempenhar um papel mais importante na melhoria do desempenho dos modelos de linguagem, trazendo mudanças revolucionárias para a aplicação prática da tecnologia de IA.