Официальный веб-сайт www.binance.com/zh-cn :введите официальный веб-сайт ☜☜
Приложение: ☞☞official App Download☜☜
Недавно команда Ling of Ant Group выпустила убедительную техническую статью на платформе Arxiv Preprint, под названием «Каждый флоп имеет решающее значение: масштабирование гибридной экспертной экспертной модели 300 миллиардов параметров без передового графического процессора». В этой статье подробно описываются две новые крупные языковые модели, которые они разработали: Ling-Lite и Ling-Plus. Эти две модели разработаны с помощью нескольких инновационных технологий, которые могут быть эффективно обучены на оборудовании с низким уровнем эффективности, что значительно снижает затраты.
Шкала параметров легкого издания по залогу составляет 16,8 миллиарда, из которых параметры активации составляют 2,75 миллиарда. Усовершенствованная модель док -модели имеет до 290 миллиардов параметров и 28,8 млрд. Параметров активации. Производительность обеих моделей достигает ведущего в отрасли уровня, особенно улучшенной версии. Его модель модели MOE 300 миллиардов MOE выполняет сопоставимую с модели высококачественных моделей чипов NVIDIA при обучении на устройствах с низким уровнем эффективности с использованием внутренних графических процессоров.

Как правило, обучение моделей MOE требует зависимости от дорогих высокопроизводительных графических процессоров, таких как NVIDIA H100 и H800, что не только дорого, но и ограничено нехваткой чипов, что влияет на его применение в ограниченных ресурсах. С этой целью команда Ant Group Ling предложила совершенно новую цель - «не используя передовые графические процессоры» для расширения модели, преодоления ограничений ресурсов и бюджета. Их инновационные стратегии обучения включают динамическое распределение параметров, смешанное планирование точности и модернизированные механизмы обработки обучения. Эти стратегии эффективно сокращают время отклика прерываний, оптимизируют процесс оценки модели и сжатие циклов валидации более на 50%.
Во время эксперимента команда Ling провела предварительную тренировку Ling-Plus на 9 триллионевых токенах. Результаты показывают, что стоимость обучения токена в 1 триллион с использованием высокопроизводительной аппаратной конфигурации составляет около 6,35 миллиона юаней, в то время как после использования метода оптимизации ANT стоимость обучения оборудования с низким показателем была снижена до 5,08 миллиона юаней, что сэкономила почти на 20%. В то же время производительность сопоставима с Alibaba Tongyi Qwen2.5-72B-Instruct и DeepSeek-V2.5-1210-Chat.
Если это технологическое достижение может быть широко использовано, оно предоставит более экономически эффективные решения для домашних крупных моделей, уменьшит зависимость от чипов NVIDIA и откроет новый путь для будущего развития искусственного интеллекта.