Recentemente, o editor do Downcodes soube que Anna Makanju, vice-presidente de assuntos globais da OpenAI, compartilhou suas opiniões sobre o preconceito da inteligência artificial na "Cúpula do Futuro" das Nações Unidas, com foco no modelo de inferência o1 da OpenAI. Ela acredita que o modelo pode reduzir significativamente o preconceito nos sistemas de IA e explica o seu mecanismo de autoidentificação e correção de respostas tendenciosas. No entanto, os resultados reais dos testes foram diferentes das expectativas, o que levou a indústria a pensar mais sobre o desempenho real dos modelos de IA.
Recentemente, Anna Makanju, vice-presidente de assuntos globais da OpenAI, expressou sua opinião sobre o preconceito da inteligência artificial na “Cúpula do Futuro” das Nações Unidas.
Ela mencionou que modelos de “inferência” como o o1 da OpenAI podem reduzir significativamente o preconceito nos sistemas de IA. Então, como é que O1 faz isto? Explica que os modelos podem identificar preconceitos nas respostas e seguir mais de perto as regras de não produzir respostas “prejudiciais”.

Ela disse que o modelo O1 gasta mais tempo avaliando suas próprias respostas ao lidar com um problema e é capaz de verificar a si mesmo: "É capaz de dizer: 'É assim que eu resolveria este problema' e depois olhar para sua própria resposta para ver 'Oh, pode haver uma falha no raciocínio aqui.'" Ela ainda enfatizou que eu faço um trabalho "quase perfeito" de análise de seus próprios preconceitos, e que isso ficará cada vez melhor à medida que a tecnologia avança.
No entanto, esta afirmação “quase perfeita” parece um exagero. Os testes internos da OpenAI descobriram que o1 não teve um bom desempenho em alguns testes de viés em comparação com modelos de “não inferência”, incluindo seu próprio GPT-4o. Em questões relacionadas a raça, sexo e idade, o1 teve um desempenho ainda pior que o GPT-4o em alguns casos. Embora o1 tenha tido melhor desempenho em termos de discriminação implícita, em termos de discriminação explícita, foi mais proeminente em questões de idade e raça.
O que é ainda mais interessante é que a versão econômica do o1, o o1-mini, teve um desempenho ainda pior. Os testes mostram que o1-mini tem uma maior probabilidade de discriminação explícita em termos de género, raça e idade do que GPT-4o, e a sua discriminação implícita em termos de idade também é mais óbvia.
Além disso, os modelos de inferência atuais apresentam muitas limitações. A OpenAI também admite que o1 traz benefícios mínimos para algumas tarefas. A resposta é lenta, com algumas perguntas demorando mais de 10 segundos para serem respondidas. Além disso, o custo do o1 não pode ser subestimado e o custo operacional é 3 a 4 vezes maior que o do GPT-4o.
Se os modelos de inferência de que Makanju fala são de fato a melhor maneira de alcançar uma IA justa, então eles precisarão melhorar em outros aspectos além do preconceito para se tornarem uma alternativa viável. Caso contrário, apenas os clientes com recursos financeiros e dispostos a suportar todos os tipos de problemas de latência e desempenho serão realmente beneficiados.
Destaque:
Diz-se que o modelo o1 da OpenAI reduz significativamente o viés de IA, mas os resultados dos testes mostram que ele não funciona tão bem quanto o esperado.
o1 tem um desempenho melhor que o GPT-4o na discriminação implícita, mas é pior na discriminação explícita.
? O modelo de inferência o1 é caro e lento, e ainda precisa ser melhorado em muitos aspectos no futuro.
Resumindo, o modelo o1 da OpenAI ainda tem um longo caminho a percorrer para reduzir o viés da IA. Embora o seu mecanismo de autocorrecção seja impressionante, o elevado custo e as limitações de velocidade, bem como o facto de ter um mau desempenho em alguns testes de polarização, indicam que esta tecnologia ainda está na sua infância e ainda está bastante longe de aplicações práticas. . O editor do Downcodes continuará atento ao desenvolvimento desta área.