Recientemente, Max Woolf, un científico senior de datos de BuzzFeed, realizó un experimento atractivo para explorar los efectos de mejorar el código solicitando repetidamente la IA. En el experimento, utilizó el modelo de lenguaje Claude3.5 y propuso un desafío de programación clásico: escribir el código de Python para encontrar los valores máximos y mínimos de la suma de los números en un millón de números aleatorios.

En la versión inicial, Claude generó el código se ejecuta a 657 milisegundos. Sin embargo, a medida que Wolf continuó ingresando la instrucción simple "Escribir mejor código", el código resultante se acortó a solo 6 milisegundos, y el rendimiento mejoró en 100 veces completo. Este resultado no solo es llamativo, sino que también muestra cambios inesperados en el proceso de definir "mejor código".
En la cuarta solicitud para "escribir mejor código", Claude transformó inesperadamente el código en una estructura similar a una aplicación empresarial, agregando algunas características empresariales típicas que Woolf no solicitó. Esto sugiere que la IA puede asociar el "mejor código" con el "software de nivel empresarial", lo que refleja el conocimiento absorbido durante su proceso de capacitación.
El desarrollador Simon Willison realizó un análisis en profundidad de este fenómeno de mejora iterativo, creyendo que el modelo de idioma examina el código desde una perspectiva completamente nueva en cada nueva solicitud. Aunque cada solicitud contiene el contexto de la conversación anterior, Claude lo analiza como si fuera la primera vez que viera el código, lo que permite que mejore continuamente.
Sin embargo, Woolf encontró en un intento de hacer solicitudes más específicas de que, si bien esto daría como resultado mejores resultados más rápido, todavía hubo algunos errores sutiles en el código que necesitaba correcciones humanas. Por lo tanto, enfatizó que la ingeniería rápida precisa sigue siendo crucial. Aunque las preguntas de seguimiento simples pueden mejorar inicialmente la calidad del código, las indicaciones dirigidas traerán mejoras significativas de rendimiento, aunque los riesgos también aumentarán en consecuencia.
Vale la pena señalar que en este experimento, Claude saltó algunos pasos de optimización que los desarrolladores humanos dan por sentado, como la deduplicación o los números de clasificación primero. Además, los cambios sutiles en la forma de hacer preguntas también afectarán significativamente la producción de Claude.
A pesar de estas impresionantes ganancias de rendimiento, Woolf nos recuerda que los desarrolladores humanos siguen siendo indispensables en la validación de soluciones y la resolución de problemas. Señaló que si bien el código generado por IA no puede usarse directamente, su capacidad para las recomendaciones creativas y de herramientas es digna de atención.
Puntos clave:
AI mejora el rendimiento del código a través de instrucciones repetidas, y el tiempo de ejecución del código original ha caído de 657 milisegundos a 6 milisegundos.
AI agrega automáticamente las funciones empresariales al código, demostrando su comprensión única del "mejor código".
La ingeniería rápida sigue siendo importante, y las solicitudes precisas pueden acelerar la generación de resultados, pero aún requiere verificación y reparación de desarrolladores manuales.