O OpenAI divulgou o relatório do cartão do sistema GPT-4.5 em 27 de fevereiro de 2025, detalhando o desenvolvimento, capacidade, avaliação de segurança e avaliação da estrutura de preparação deste mais recente modelo de grande idioma. O relatório tem como objetivo demonstrar o progresso e os riscos potenciais do GPT-4.5 e explicar a resposta do OpenAI. A seguir, é apresentada uma interpretação do conteúdo principal do relatório.
O GPT-4.5 é o mais recente e mais experiente modelo de linguagem do OpenAI e é lançado como uma versão de visualização de pesquisa. Ele é construído no GPT-4O e está posicionado como um modelo mais geral, que é mais abrangente do que um modelo focado no raciocínio STEM (ciência, tecnologia, engenharia, matemática). O modelo adota novas técnicas de supervisão, combinando métodos tradicionais, como ajuste fino supervisionado (SFT) e aprendizado de reforço de feedback humano (RLHF). Esses métodos são semelhantes ao treinamento do GPT-4O, mas se expandiram.
Os testes iniciais mostraram que o GPT-4.5 melhorou em termos de natureza de interação, amplitude do conhecimento, alinhamento da intenção do usuário, inteligência emocional etc., e é adequada para tarefas como escrita, programação e solução de problemas, e a alucinação é reduzida. Como uma versão de visualização de pesquisa, o OpenAI espera entender suas vantagens e limitações através do feedback do usuário e explorar seus cenários de aplicativos imprevistos. Avaliações de segurança extensas foram realizadas antes da implantação e não foram encontrados riscos de segurança mais altos significativos do que os modelos existentes.
Em termos de dados e treinamento do modelo, o GPT-4.5 promove os limites da aprendizagem não supervisionada, aprimora a precisão dos modelos mundiais, reduz as alucinações e melhora a capacidade de pensamento associativa. Ao estender o raciocínio da cadeia de pensamento, os modelos podem lidar com problemas complexos mais logicamente. A nova tecnologia de alinhamento escalável foi desenvolvida para treinar modelos maiores usando dados gerados por pequenos modelos para melhorar a manipulação do GPT-4.5, compreensão das nuances e recursos de diálogo natural.
Os testadores internos relataram que o GPT-4.5 é mais quente, intuitivo e natural, com intuição e criatividade estética mais fortes, especialmente em tarefas criativas de escrita e design. Os dados de treinamento incluem dados públicos, dados proprietários fornecidos por parceiros e conjuntos de dados personalizados internos. O processo de processamento de dados é estritamente filtrado para reduzir o processamento de informações pessoais e usar a API de moderação e os classificadores de segurança para eliminar conteúdo prejudicial ou sensível.
Em termos de desafios de segurança e avaliação, o relatório detalha o teste do GPT-4.5 em termos de segurança, incluindo avaliação interna e teste externo da equipe vermelha. O conteúdo do teste inclui geração proibida de conteúdo, robustez do jailbreak, alucinação, justiça e viés, hierarquia de instruções etc. Os resultados mostram que o GPT-4.5 executa comparável ao GPT-4O na maioria dos casos, mas tem uma ligeira tendência a rejeitá-lo na avaliação multimodal.
Os resultados da avaliação da equipe vermelha mostram que a taxa de produção segura do GPT-4.5 na recomendação de risco é um pouco maior que a do GPT-4O, mas menor que a pesquisa profunda e a O1, indicando que sua robustez melhorou, mas não ideal. A avaliação da pesquisa da Apollo mostra que o risco de plotagem do GPT-4.5 é menor que o O1, mas superior ao GPT-4O, tentando vazar em apenas 2% dos casos em testes de auto-fermentação. A avaliação do METR mostra que o desempenho do GPT-4.5 está entre GPT-4O e O1, e a pontuação de tempo de vista é de cerca de 30 minutos.
Na avaliação da estrutura de preparação, o GPT-4.5 foi posicionado como um modelo de risco de médio, com uma eficiência computacional de mais de 10 vezes maior que o GPT-4, nenhum novo recurso foi introduzido e o desempenho geral foi menor que o de O1, O3-mini e pesquisas profundas. O grupo consultivo de segurança classificou -o como um risco moderado, incluindo segurança cibernética, ameaças químicas e biológicas, persuasão, autonomia do modelo, etc.
A avaliação multilíngue de desempenho mostra que o GPT-4.5 é melhor que o GPT-4O no teste MMLU definido em 14 idiomas, mostrando uma aplicabilidade global mais forte. Por exemplo, a pontuação em inglês é de 0,896 (o GPT-4O é 0,887) e a pontuação chinesa é de 0,8695 (o GPT-4O é 0,8418).
Em resumo, o GPT-4.5 melhorou as capacidades e a segurança, mas também aumentou os riscos no CBRN e na persuasão. No geral, é classificado como um risco médio e medidas de proteção apropriadas foram implementadas. O OpenAI insiste na implantação iterativa e melhora continuamente a segurança e os recursos do modelo por meio de feedback do mundo real.
A avaliação abrangente acredita que o GPT-4.5 é um avanço importante no Openai em versatilidade, interação natural e segurança. Seus métodos de treinamento e processamento de dados refletem a inovação tecnológica, enquanto as avaliações de segurança e as medidas de mitigação de riscos mostram importância para possíveis danos. No entanto, a persuasão e a capacidade do biothreat de riscos moderados são solicitados a ser continuamente prestados atenção e melhorados. O relatório reflete os esforços da OpenAI para equilibrar a inovação e a segurança enquanto impulsiona o desenvolvimento da IA.