Российский технологический гигант Яндекс выложил в открытый доступ свой собственный инструмент YaFSDP — метод оптимизации для обучения моделям больших языков (LLM), эффективность которого лидирует в отрасли. YaFSDP может значительно увеличить скорость обучения LLM (до 26%) и значительно сэкономить затраты на ресурсы графического процессора, что, несомненно, является большим преимуществом для разработчиков искусственного интеллекта и предприятий. Этот инструмент особенно хорошо работает, когда размер параметра обучения достигает 30–70 миллиардов, предоставляя малым и средним предприятиям и отдельным разработчикам больше возможностей для самостоятельного обучения LLM.
Яндекс, технологический гигант из России, недавно открыл для мирового сообщества ИИ свой независимо разработанный инструмент YaFSDP, который в настоящее время является наиболее эффективным методом оптимизации обучения модели большого языка (LLM) в отрасли. По сравнению с технологией FSDP, широко используемой в отрасли, YaFSDP может увеличить скорость обучения LLM до 26%, что, как ожидается, сэкономит много ресурсов графического процессора для разработчиков искусственного интеллекта и предприятий.
YaFSDP (Yandex Full Sharded Data Parallel) — это расширенная версия Яндекса на основе FSDP. Она фокусируется на оптимизации эффективности связи с графическим процессором и использовании памяти, устранении узких мест в процессе обучения LLM. В задачах, требующих интенсивного обмена данными, таких как предварительное обучение, выравнивание и точная настройка, YaFSDP демонстрирует превосходное улучшение производительности, особенно когда размер параметра обучения достигает 30–70 миллиардов.

Михаил Хрущев, старший эксперт по разработке Яндекса и член команды YaFSDP, сказал: «YaFSDP лучше всего подходит для широко используемых моделей с открытым исходным кодом на основе архитектуры LLaMA. Мы по-прежнему продолжаем оптимизировать и расширять его универсальность для различных архитектур моделей и параметров. размеров, с целью его более широкого использования. Повысить эффективность обучения в различных сценариях».
Подсчитано, что на примере обучения модели с 70 миллиардами параметров использование YaFSDP может сэкономить около 150 ресурсов графического процессора, что эквивалентно экономии от 500 000 до 1,5 миллионов долларов США на затратах на вычислительную мощность в месяц. Ожидается, что такая экономия средств сделает автономное обучение LLM более доступным для МСП и индивидуальных разработчиков.
В то же время Яндекс также обещает продолжать вносить свой вклад в развитие мирового сообщества ИИ с открытым исходным кодом YaFSDP. Ранее компания поделилась рядом высоко оцененных инструментов искусственного интеллекта с открытым исходным кодом, таких как высокопроизводительная библиотека повышения градиента CatBoost, алгоритм экстремального сжатия моделей AQLM и библиотека упрощения обучения моделей Petals.
Аналитики отрасли отмечают, что по мере того, как масштабы LLM продолжают расширяться, повышение эффективности обучения станет ключом к развитию искусственного интеллекта. Ожидается, что технические прорывы, такие как YaFSDP, помогут сообществу ИИ быстрее продвигать исследования больших моделей и изучать перспективы их применения в обработке естественного языка, компьютерном зрении и других областях.
Открытый исходный код YaFSDP демонстрирует позитивное отношение и вклад Яндекса в содействие развитию технологий искусственного интеллекта. Он также предоставляет мощный инструмент для мирового сообщества искусственного интеллекта, еще больше снижая порог обучения больших моделей и ускоряя популяризацию и применение технологий искусственного интеллекта.