Flup Sung, исследователь на темной стороне Луны, недавно опубликовал длинную статью из 10 000 слов, в которой впервые раскрыли идеи исследований и разработок модели K1.5 и глубоко отражались на технических последствиях, принесенных Openai O1 модель. Это раскрытие не только показывает последний прогресс темной стороны Луны в области искусственного интеллекта, но также предоставляет отрасли ценную техническую ссылку.
В статье упомянуто наводнение, что важность длинного кот (длинного цепного мышления) была фактически подтверждена Тимом Чжоу Синью, соучредителем темной стороны Луны более года назад. Используя небольшие модели для обучения многозначных операций и преобразования мелкозернистых вычислительных процессов в данные мышления с длинной цепью для SFT (контролируемая тонкая настройка), команда достигла значительных результатов. Это открытие обеспечивает важную теоретическую основу для последующей оптимизации модели.

Однако из -за ограничений затрат темная сторона Луны ранее была сосредоточена на оптимизации длинного контекста (длинный текст). Sung Sung объяснил, что длинный контекст в основном обрабатывает входные данные, а с помощью предварительной заполнения и технологии Mooncake команда может лучше контролировать затраты и скорость. Напротив, Long-Cot больше фокусируется на выходе, и, хотя он является значительным, он требует более высоких затрат и более длительного времени обработки, что в некоторой степени ограничивает его применение.
Тем не менее, выпуск модели Openai O1 заставил команду Dark Side переосмыслить приоритеты технического направления. Sung подчеркнул: «Производительность - это самая важная вещь, стоимость и скорость будут постоянно оптимизированы с помощью технологического прогресса. Ключ - сначала достичь прорыва». -Кот. Исследование. Эта стратегическая корректировка знаменует собой дальнейший прорыв для команды в области искусственного интеллекта.
Выпуск этой статьи технического расшифровки не только отмечает, что темная сторона Луны начала систематически сравнивать модель Operai O1, но также проводит существенные исследования в связанных областях. Длинная статья Flup Sun предоставляет отрасли глубокие технические данные и предоставляет новые идеи для будущих направлений исследований.
Для читателей, которые хотят иметь углубленное понимание процесса растрескивания модели O1, доступ к статье на 10 000 слов на Flood Sung можно получить по следующей ссылке: расшифровку длинной статьи из 10 000 слов о процессе растрескивания O1 .