Tim Mockup Doubao Bytedance baru -baru ini mengumumkan terobosan teknologi utama, berhasil mengatasi bottleneck utama arsitektur model ahli hybrid (MOE), dan open source teknologi optimasi yang disebut Comet. Teknologi ini tidak hanya secara signifikan meningkatkan efisiensi pelatihan model besar, tetapi juga sangat mengurangi biaya pelatihan, membawa peluang pengembangan baru ke bidang model besar.
Inti dari teknologi komet terletak pada kemampuan optimisasi yang efisien, yang dapat meningkatkan efisiensi pelatihan model besar menjadi 1,7 kali, sambil mengurangi biaya pelatihan sebesar 40%. Hasil terobosan ini telah diterapkan secara praktis dalam pelatihan kluster Wanka Bytedance, menghemat jutaan jam GPU dari kekuatan komputasi secara total, menunjukkan kinerja yang kuat dalam skenario aktual.
Dibandingkan dengan solusi optimisasi MOE seperti DualPipe, yang bersumber terbuka oleh Deepseek, teknologi komet memiliki kompatibilitas dan kenyamanan yang lebih kuat. Ini dapat secara langsung terhubung ke kerangka kerja pelatihan MOE yang ada seperti plug-in, mendukung model besar utama di industri tanpa modifikasi invasif pada kerangka kerja pelatihan. Fitur integrasi yang mulus ini membuat Comet lebih fleksibel dan efisien dalam aplikasi teknis.
Data teknis menunjukkan bahwa setelah pengenalan COMET, lapisan MOE tunggal dapat mencapai akselerasi 1,96 kali, dan peningkatan efisiensi rata-rata ujung ke ujung 1,71 kali. Selain itu, COMET telah menunjukkan kinerja yang stabil dalam strategi paralel yang berbeda, skala input dan lingkungan perangkat keras, menunjukkan penerapannya yang luas. Yang lebih penting adalah bahwa Comet juga dapat digunakan bersama dengan solusi dualpipe Deepseek, yang diharapkan untuk lebih jauh mengompres biaya pelatihan model.
Sumber terbuka dari teknologi ini tidak diragukan lagi membawa terobosan baru ke bidang model besar dan diharapkan untuk mempercepat penelitian dan pengembangan dan penerapan model besar. Dengan mengurangi biaya pelatihan dan meningkatkan efisiensi, teknologi komet akan memberikan dukungan kepada lebih banyak perusahaan dan lembaga penelitian untuk mempromosikan pengembangan lebih lanjut dari teknologi kecerdasan buatan.
Alamat kertas: https://arxiv.org/pdf/2502.19811
Alamat Sumber Terbuka: https://github.com/bytedance/flux?continueflag=c1d74dd2912ab3909a1a27fe4f5cf519