A gigante de tecnologia russa Yandex abriu o código-fonte de sua ferramenta YaFSDP autodesenvolvida, um método de otimização para treinamento de modelo de linguagem grande (LLM), cuja eficiência lidera o setor. YaFSDP pode aumentar significativamente a velocidade de treinamento LLM em até 26% e economizar significativamente os custos de recursos de GPU, o que é sem dúvida um grande benefício para desenvolvedores e empresas de IA. Esta ferramenta funciona particularmente bem quando o tamanho do parâmetro de treinamento atinge 30 bilhões a 70 bilhões, oferecendo mais possibilidades para pequenas e médias empresas e desenvolvedores individuais treinarem LLM de forma independente.
Yandex, uma gigante da tecnologia da Rússia, abriu recentemente o código-fonte de sua ferramenta YaFSDP desenvolvida de forma independente para a comunidade global de IA, que é atualmente o método de otimização de treinamento de modelo de linguagem grande (LLM) mais eficiente do setor. Comparado com a tecnologia FSDP amplamente utilizada na indústria, o YaFSDP pode aumentar a velocidade de treinamento LLM em até 26%, o que deverá economizar muitos recursos de GPU para desenvolvedores e empresas de IA.
YaFSDP (Yandex Full Sharded Data Parallel) é uma versão aprimorada do Yandex baseada em FSDP. Ele se concentra na otimização da eficiência da comunicação da GPU e no uso da memória, eliminando gargalos no processo de treinamento LLM. Em tarefas de comunicação intensiva, como pré-treinamento, alinhamento e ajuste fino, o YaFSDP apresenta excelentes melhorias de desempenho, especialmente quando o tamanho do parâmetro de treinamento atinge 30 bilhões a 70 bilhões.

Mikhail Khruschev, especialista sênior em desenvolvimento da Yandex e membro da equipe YaFSDP, disse: "O YaFSDP é mais adequado para modelos de código aberto amplamente utilizados baseados na arquitetura LLaMA. Continuamos a otimizar e expandir sua versatilidade em diferentes arquiteturas de modelos e parâmetros. tamanhos, visando sua utilização mais ampla. Melhorar a eficiência do treinamento em diversos cenários."
Estima-se que, tomando como exemplo o treinamento de um modelo com 70 bilhões de parâmetros, o uso do YaFSDP pode economizar cerca de 150 recursos de GPU, o que equivale a uma economia de US$ 500.000 a US$ 1,5 milhão em custos de energia computacional por mês. Espera-se que esta poupança de custos torne a formação LLM autónoma mais viável para as PME e os promotores individuais.
Ao mesmo tempo, Yandex também promete continuar a contribuir para o desenvolvimento da comunidade global de IA, o código aberto YaFSDP é um reflexo deste compromisso. Anteriormente, a empresa compartilhou uma série de ferramentas de IA de código aberto altamente conceituadas, como a biblioteca de aumento de gradiente de alto desempenho CatBoost, o algoritmo de compressão de modelo extremo AQLM e a biblioteca de simplificação de treinamento de modelo Petals.
Analistas da indústria apontam que à medida que a escala do LLM continua a se expandir, melhorar a eficiência do treinamento se tornará a chave para o desenvolvimento da inteligência artificial. Espera-se que avanços técnicos como o YaFSDP ajudem a comunidade de IA a avançar mais rapidamente na pesquisa de grandes modelos e a explorar suas perspectivas de aplicação em processamento de linguagem natural, visão computacional e outros campos.
O código aberto do YaFSDP demonstra a atitude positiva e a contribuição da Yandex na promoção do desenvolvimento da tecnologia de IA. Ele também fornece uma ferramenta poderosa para a comunidade global de IA, reduzindo ainda mais o limite para o treinamento de grandes modelos e acelerando a popularização e aplicação da tecnologia de IA.