Récemment, l'éditeur de Downcodes a appris qu'Anna Makanju, vice-présidente des affaires mondiales d'OpenAI, avait partagé son point de vue sur les biais de l'intelligence artificielle lors du « Future Summit » des Nations Unies, en se concentrant sur le modèle d'inférence o1 d'OpenAI. Elle estime que le modèle peut réduire considérablement les biais dans les systèmes d’IA et explique son mécanisme d’auto-identification et de correction des réponses biaisées. Cependant, les résultats réels des tests étaient différents des attentes, ce qui a incité l’industrie à réfléchir davantage aux performances réelles des modèles d’IA.
Récemment, Anna Makanju, vice-présidente des affaires mondiales d’OpenAI, a exprimé son point de vue sur les préjugés de l’intelligence artificielle lors du « Future Summit » des Nations Unies.
Elle a mentionné que les modèles « d'inférence » comme o1 d'OpenAI peuvent réduire considérablement les biais dans les systèmes d'IA. Alors, comment O1 fait-il cela ? Makanju a expliqué que les modèles peuvent auto-identifier les biais dans les réponses et suivre de plus près les règles visant à ne pas produire de réponses « nuisibles ».

Elle a déclaré que le modèle O1 passe plus de temps à évaluer ses propres réponses lorsqu'il traite un problème et est capable de se vérifier lui-même : "Il est capable de dire : 'Voici comment je résoudrais ce problème', puis d'examiner sa propre réponse pour voir "Oh, il y a peut-être une faille dans le raisonnement ici." Elle a même souligné que je fais un travail "presque parfait" d'analyse de mes propres préjugés, et que cela s'améliorera à mesure que la technologie progressera.
Cependant, cette affirmation « presque parfaite » semble exagérée. Les tests internes d'OpenAI ont révélé que o1 ne fonctionnait pas bien dans certains tests de biais par rapport aux modèles de « non-inférence », y compris son propre GPT-4o. Sur les questions concernant la race, le sexe et l'âge, o1 a obtenu des résultats encore pires que GPT-4o dans certains cas. Bien que o1 ait obtenu de meilleurs résultats en termes de discrimination implicite, en termes de discrimination explicite, il était plus important en termes d'âge et de race.
Ce qui est encore plus intéressant, c'est que la version économique de l'o1, l'o1-mini, a obtenu des résultats encore pires. Les tests montrent que o1-mini a une probabilité plus élevée de discrimination explicite sur le sexe, la race et l'âge que GPT-4o, et sa discrimination implicite sur l'âge est également plus évidente.
De plus, les modèles d’inférence actuels présentent de nombreuses limites. OpenAI admet également que o1 apporte des avantages minimes à certaines tâches. La réponse est lente, certaines questions prenant plus de 10 secondes. De plus, le coût de o1 ne peut être sous-estimé et le coût de fonctionnement est 3 à 4 fois supérieur à celui de GPT-4o.
Si les modèles d’inférence dont parle Makanju sont effectivement le meilleur moyen de parvenir à une IA équitable, ils devront alors s’améliorer sur d’autres aspects que les biais pour devenir une alternative viable. Dans le cas contraire, seuls les clients disposant de ressources financières considérables et prêts à supporter toutes sortes de problèmes de latence et de performances en bénéficieront réellement.
Souligner:
Le modèle o1 d'OpenAI réduirait considérablement les biais de l'IA, mais les résultats des tests montrent qu'il ne fonctionne pas aussi bien que prévu.
o1 fonctionne mieux que GPT-4o en matière de discrimination implicite, mais est moins bon en matière de discrimination explicite.
? Le modèle d'inférence o1 est coûteux et fonctionne lentement, et il doit encore être amélioré sur de nombreux aspects à l'avenir.
Dans l’ensemble, le modèle o1 d’OpenAI a encore un long chemin à parcourir pour réduire les biais de l’IA. Bien que son mécanisme d'autocorrection soit impressionnant, les limitations élevées en termes de coût et de vitesse, ainsi que le fait qu'elle fonctionne mal dans certains tests de biais, indiquent que cette technologie en est encore à ses balbutiements et est encore assez loin des applications pratiques. . L'éditeur de Downcodes continuera à être attentif au développement de ce domaine.