Команда Doubao Mockup в Bytedance недавно объявила о крупном технологическом прорыве, успешно преодолев ключевую узкую часть архитектуры гибридной экспертной модели (MOE), и с открытым исходным кодом технологии оптимизации под названием Comet. Эта технология не только значительно повышает эффективность обучения крупных моделей, но и значительно снижает затраты на обучение, предоставляя новые возможности разработки в область крупных моделей.
Ядро технологии Comet заключается в ее эффективных возможностях оптимизации, которые могут повысить эффективность обучения крупных моделей до 1,7 раза, одновременно снижая затраты на обучение на 40%. Этот результат прорыва был практически применен в обучении кластеру в WANKA Bytedance, что в общей сложности экономит миллионы графических часов учебных компьютеров, демонстрируя ее мощную производительность в реальных сценариях.
По сравнению с решениями по оптимизации MOE, такими как DualPipe, которая открыта DeepSeek, Comet Technology имеет более сильную совместимость и удобство. Он может напрямую подключаться к существующей учебной структуре MOE, такими как плагин, поддерживая основные крупные модели в отрасли без инвазивных модификаций в рамках обучения. Эта функция бесшовной интеграции делает Comet более гибкой и эффективной в технических приложениях.
Технические данные показывают, что после введения Comet один слой MOE может достигать ускорения в 1,96 раза, и увеличение средней эффективности в 1,71 раза в 1,71 раза. Кроме того, COMET показала стабильную производительность в различных параллельных стратегиях, входных шкалах и аппаратных средах, демонстрируя ее широкую применимость. Что более примечательно, так это то, что комета также может быть использована в сочетании с решением Deepseek DualPipe, которое, как ожидается, еще больше сжат модельные стоимость обучения.
Открытый источник этой технологии, несомненно, приводит к новым прорывам в область крупных моделей и, как ожидается, ускорит исследования, разработки и применение крупных моделей. Сокращая затраты на обучение и повышая эффективность, технология COMET окажет поддержку большему количеству предприятий и исследовательских учреждений для продвижения дальнейшего развития технологий искусственного интеллекта.
Бумажный адрес: https://arxiv.org/pdf/2502.19811
Адрес с открытым исходным кодом: https://github.com/bytedance/flux?continueflag=c1d74dd2912ab3909a1a27fe4f5cf519