Flood Sung, seorang peneliti di sisi gelap bulan, baru -baru ini menerbitkan artikel panjang 10.000 kata, yang mengungkapkan ide -ide penelitian dan pengembangan model K1.5 untuk pertama kalinya dan sangat tercermin pada implikasi teknis yang dibawa oleh Openai's O1 model. Pengungkapan ini tidak hanya mengungkapkan kemajuan terbaru dari sisi gelap bulan di bidang kecerdasan buatan, tetapi juga memberikan industri referensi teknis yang berharga.
Banjir yang dinyanyikan dalam artikel itu bahwa pentingnya pemotretan panjang (pemikiran rantai panjang) sebenarnya diverifikasi oleh Tim Zhou Xinyu, salah satu pendiri sisi gelap bulan lebih dari setahun yang lalu. Dengan menggunakan model kecil untuk melatih operasi multi-digit dan mengubah proses komputasi berbutir halus menjadi data pemikiran rantai panjang untuk SFT (fine-tuning yang diawasi), tim mencapai hasil yang signifikan. Penemuan ini memberikan dasar teoritis yang penting untuk optimasi model selanjutnya.

Namun, karena keterbatasan biaya, sisi gelap bulan sebelumnya berfokus pada optimalisasi konteks panjang (input teks panjang). Banjir yang dinyanyikan menjelaskan bahwa konteks panjang terutama memproses input, dan melalui prefill pra-pengisian dan teknologi kue bulan, tim dapat mengendalikan biaya dan kecepatan yang lebih baik. Sebaliknya, COT Long lebih fokus pada output, dan sementara itu signifikan, ia membutuhkan biaya yang lebih tinggi dan waktu pemrosesan yang lebih lama, yang membatasi penerapannya sampai batas tertentu.
Namun, pelepasan model Openai O1 telah menyebabkan tim Sisi Gelap memikirkan kembali prioritas arah teknis. Banjir dinyanyikan: "Kinerja adalah hal yang paling penting, biaya dan kecepatan akan terus dioptimalkan dengan kemajuan teknologi. Kuncinya adalah untuk mencapai kinerja terobosan terlebih dahulu." -Cot Research. Penyesuaian strategis ini menandai terobosan lebih lanjut untuk tim di bidang kecerdasan buatan.
Rilis artikel dekripsi teknis ini tidak hanya menandai bahwa Sisi Gelap Bulan telah mulai secara sistematis membandingkan model O1 Openai, tetapi juga melakukan penelitian substansial di bidang terkait. Artikel panjang Flood Sung memberikan industri wawasan teknis yang mendalam dan memberikan ide-ide baru untuk arahan penelitian di masa depan.
Bagi pembaca yang ingin memiliki pemahaman mendalam tentang proses retak model O1, artikel panjang 10.000 kata Flood Sung dapat diakses melalui tautan berikut: mendekripsi artikel panjang 10.000 kata dari proses retak O1 .