Openai опубликовал отчет GPT-4.5 System Card 27 февраля 2025 года, подробно описывая оценку разработки, возможностей, оценки безопасности и подготовки к этой последней крупной языковой модели. В отчете направлено продемонстрировать прогресс и потенциальные риски GPT-4.5 и объяснить ответ OpenAI. Ниже приводится интерпретация основного содержания отчета.
GPT-4.5-последняя и наиболее хорошо осведомленная большая языковая модель OpenAI и выпускается в качестве версии предварительного просмотра исследования. Он построен на GPT-4O и позиционируется как более общая модель, которая является более полной, чем модель, ориентированная на рассуждения STEM (наука, технология, инженерия, математика). Модель принимает новые методы надзора, объединяя традиционные методы, такие как контролируемая точная настройка (SFT) и обучение подкреплению обратной связи человека (RLHF). Эти методы похожи на обучение GPT-4O, но расширяются.
Ранние тесты показали, что GPT-4.5 улучшился с точки зрения природы взаимодействия, широты знаний, выравнивания намерения пользователя, эмоционального интеллекта и т. Д., И подходит для таких задач, как письмо, программирование и решение проблем, а галлюцинация уменьшается. В качестве версии предварительного просмотра исследования Openai надеется понять свои преимущества и ограничения посредством отзывов пользователей и изучить его непредвиденные сценарии приложений. Обширные оценки безопасности были проведены до развертывания, и не было обнаружено значительных более высоких рисков безопасности, чем существующие модели.
С точки зрения модельных данных и обучения, GPT-4.5 способствует границам неконтролируемого обучения, повышает точность мировых моделей, снижает галлюцинации и улучшает способность ассоциативного мышления. Расширяя рассуждения о цепочке мыслей, модели могут решать сложные проблемы более логично. Новая технология масштабируемого выравнивания была разработана для обучения более крупных моделей с использованием данных, генерируемых небольшими моделями для улучшения манипуляции с GPT-4.5, понимания нюансов и естественных возможностей диалога.
Внутренние тестеры сообщили, что GPT-4.5 более теплый, интуитивно понятный и естественный, с более сильной эстетической интуицией и творчеством, особенно в творческих заданиях и дизайне. Данные обучения включают публичные данные, проприетарные данные, предоставленные партнерами, и внутренние наборы данных. Процесс обработки данных строго отфильтрован для сокращения обработки личной информации и использования API модерации и классификаторов безопасности для устранения вредного или конфиденциального контента.
С точки зрения проблем безопасности и оценки, в отчете подробно описывается тестирование GPT-4.5 с точки зрения безопасности, включая внутреннюю оценку и внешнее тестирование Red Team. Контент тестирования включает в себя запрещенное поколение контента, устойчивость к джейлбрейку, галлюцинацию, справедливость и предвзятость, иерархию обучения и т. Д. Результаты показывают, что GPT-4.5 в большинстве случаев сопоставимо с GPT-4O, но имеет небольшую тенденцию отвергать его в мультимодальной оценке.
Результаты оценки красной команды показывают, что безопасная скорость выхода GPT-4.5 по рекомендации по опасности немного выше, чем у GPT-4O, но ниже, чем глубокие исследования и O1, что указывает на то, что его надежность улучшилась, но не оптимальная. Оценка исследований Apollo показывает, что риск графика GPT-4.5 ниже O1, но выше, чем GPT-4O, пытаясь протечь всего в 2% случаев в тестах на самоотечку. Оценка METR показывает, что производительность GPT-4.5 находится между GPT-4O и O1, а оценка просмотра времени составляет около 30 минут.
В оценке структуры подготовки GPT-4.5 был расположен в качестве модели среднего риска, с вычислительной эффективностью более чем в 10 раз выше, чем GPT-4, никаких новых возможностей не было введено, а общая производительность была ниже, чем у O1, O3-Mini и глубоких исследований. Консультативная группа по безопасности оценила его как умеренный риск, включая кибербезопасность, химические и биологические угрозы, убеждение, модельную автономию и т. Д.
Многоязычная оценка производительности показывает, что GPT-4.5 лучше, чем GPT-4O в тесте MMLU на 14 языках, демонстрируя более сильную глобальную применимость. Например, английский балл составляет 0,896 (GPT-4O составляет 0,887), а балл Китая составляет 0,8695 (GPT-4O-0,8418).
Таким образом, GPT-4.5 улучшил возможности и безопасность, а также повысил риски в CBRN и убедительности. В целом, он оценивается как средний риск, и были реализованы соответствующие защитные меры. OpenAI настаивает на итеративном развертывании и постоянно улучшает модельную безопасность и возможности благодаря реальной обратной связи.
Комплексная оценка считает, что GPT-4.5 является важным прогрессом в OpenAI в области универсальности, естественного взаимодействия и безопасности. Его методы обучения и обработка данных отражают технологические инновации, в то время как оценки безопасности и меры по снижению рисков демонстрируют важность для потенциального вреда. Тем не менее, убедительность и способность к биотробному обращению с умеренным риском предлагается постоянно обращать внимание и улучшать. Отчет отражает усилия Openai по сбалансированию инноваций и безопасности при развитии развития ИИ.