Рассуждение с открытым исходным кодом AI модель Sky -T1 появляется с стоимостью обучения меньше, чем 450 долларов США - статьи AI

Автор：Eve Cole Время обновления：2025-02-18 10:16:01

Novasky, исследовательская команда в лаборатории Sky Computing в Калифорнийском университете в Беркли, недавно выпустила модель вывода под названием Sky-T1-32B-Preview, которая превосходно выполнялась на нескольких ключевых критериях, даже сравнимая с ранней версией O1 Openai . Что еще более поразительно, так это то, что стоимость обучения этой модели чрезвычайно низкая, демонстрируя новую тенденцию в эффективном и экономичном развитии искусственного интеллекта.

Sky-T1-32B-Preview-первая модель рассуждения по-настоящему с открытым исходным кодом. Команда Novasky не только раскрывает саму модель, но и предоставляет учебный набор данных и необходимый учебный код, чтобы модель была полностью скопирована. Согласно блогу команды, «Sky-T1-32B-Preview затраты составляют менее 450 долларов США, что доказывает, что усовершенствованные возможности рассуждения могут быть достигнуты по низкой цене». быть сделанным в прошлом. Это значительное снижение стоимости в основном объясняется использованием синтетических данных обучения. Например, недавно выпущенная модель Palmyra X004 от писателя компании искусственного интеллекта почти полностью зависит от синтетических данных для обучения, а стоимость разработки составляет всего 700 000 долларов.

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

Модели вывода отличаются от обычных моделей искусственного интеллекта. Тем не менее, модели вывода часто занимают больше времени, чтобы придумывать решения, от секунд до минут. Тем не менее, его надежность в таких областях, как физика, наука и математика, делает его идеальным для этих областей.

Команда Novasky показала, что они использовали модель вывода Alibaba QWQ-32B-Preview, чтобы сгенерировать первоначальные учебные данные Sky-T1, а затем отсортировали данные и реконструировали данные в более удобный формат, используя GPT-4O-Mini OpenAI. Требуется около 19 часов, чтобы обучить Sky-T1 с 32 миллиардами параметров с использованием 8 стоек GPU NVIDIA H100, а количество параметров непосредственно отражает способность к решению проблем модели.

В тестировании производительности Sky-T1 превзошел раннюю версию O1 предварительного просмотра на Math500 (набор математических задач «на уровне конкурса»), а также превзошла версию O1 предварительного просмотра на наборе головоломки кодирования от Livecodebench. Тем не менее, Sky-T1 не так хорош, как версия предварительного просмотра O1 на GPQA-Diamond, которая содержит проблемы физики, биологии и химии, которые должны освоить докторантуру. Кроме того, версия Openai O1GA более мощная, чем версия для предварительного просмотра, и OpenAI рассчитывает выпустить более эффективную модель вывода O3 в ближайшие недели.

Тем не менее, команда Novasky заявила, что Sky-T1 является лишь отправной точкой для разработки модели с открытым исходным кодом с расширенными возможностями рассуждений. «С нетерпением ждем, мы сосредоточимся на разработке более эффективных моделей, поддержании высоких показателей вывода и изучении передовых технологий для дальнейшего повышения эффективности и точности моделей при тестировании», - написала команда в сообщении, - следите за обновлениями. Захватывающие планы.