La ilusión del razonamiento
La ilusión del razonamiento en LLMS proviene de su capacidad para generar texto coherente y contextualmente relevante. Cuando se le presenta un mensaje o una pregunta, los LLM pueden producir respuestas que parecen ser el resultado del pensamiento lógico. Sin embargo, esto se debe principalmente a su naturaleza probabilística y al hecho de que han sido entrenados en grandes cantidades de datos de texto. Los LLM esencialmente aprenden patrones y asociaciones dentro de estos datos, lo que les permite predecir la siguiente palabra o frase más probable en un contexto dado.
La perspectiva de Wozniak sobre inteligencia y razonamiento
Un punto interesante planteado por Steve Wozniak en Hackers Wanted - 2009 critica la forma en que a menudo definimos la inteligencia:
"Por lo tanto, no enseñamos a pensar tanto como enseñamos, ya sabes, rutina rigurosa. Y la inteligencia no se define como alguien que tiene un cerebro que puede pensar y pensar y considerar todas las posibilidades y encontrar la mejor solución. ¡Oh, no, no! La inteligencia está diciendo exactamente las mismas cosas que todos los demás. Usted lees los mismos artículos de los periódicos. Usted vio los mismos espectáculos de noticias. Lees los mismos libros. Y ahora puedes decir exactamente las mismas cosas de lo que te dices. Casi como una religión. y armarlo y crear tus propias soluciones.
Esta visión destaca una pregunta crítica para los LLM: ¿podemos enseñar a los modelos a "pensar" de manera diversa y creativa, o simplemente imitarán las normas y patrones sociales en los que han sido entrenados?
Entender el razonamiento
El razonamiento, en esencia, implica la capacidad de sacar conclusiones o hacer inferencias basadas en información o evidencia dada. Requiere la aplicación de la lógica, el pensamiento crítico y las habilidades de resolución de problemas.
Algunos tipos de razonamiento:
Si bien los LLM pueden imitar algunas de estas formas a través de patrones pre-eliminados, el verdadero razonamiento requiere un marco cognitivo deliberado, que les falta.
Un marco cognitivo deliberado es un enfoque mental estructurado que involucra:
En esencia, es una forma de pensar que va más allá de las respuestas automáticas o los patrones pre-eliminados. Requiere un compromiso activo con la información, la capacidad de emitir juicios informados y la capacidad de resolver problemas de manera creativa.
Imagina un detective resolviendo un crimen.
Un marco cognitivo deliberado implicaría:
En contraste, un sistema simple de coincidencia de patrones podría:
Implementación de razonamiento en LLM a través del aprendizaje de refuerzo
Nota: En el núcleo de las capacidades de OpenAI O1 está su algoritmo de aprendizaje de refuerzo a gran escala. Este enfoque enseña al modelo cómo pensar productivamente alentándolo a generar cadenas de pensamiento que conducen a soluciones correctas.
Ejemplo de Python: Problema de fresa resuelto con "razonamiento" de GPT3.5 + COT
from openai import AzureOpenAI
# Define constants
AZURE_OPENAI_ENDPOINT = ""
AZURE_OPENAI_API_KEY = ""
az_client = AzureOpenAI ( azure_endpoint = AZURE_OPENAI_ENDPOINT , api_version = "2023-07-01-preview" , api_key = AZURE_OPENAI_API_KEY )
ai_response = az_client . chat . completions . create (
model = "gpt-35-turbo" ,
messages = [
{ "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
]
)
print ( "gpt-35-turbo" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )
ai_response = az_client . chat . completions . create (
model = "gpt-35-turbo" ,
messages = [
{ "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
{ "role" : "system" , "content" : """
<chain of thought>
EXAMPLE: Count the occurrences of the letter 'p' in the word 'apple'.
To determine the number of occurrences of the letter 'p' in the word 'apple', we scan through the word letter by letter:
'a' (0), 'p' (1), 'p' (2), 'l' (0), 'e' (0).
Therefore, the letter 'p' appears 2 times.
</chain of thought>
IMPORTANT! USE ABOVE CHAIN OF THOUGHT TO GENERATE YOUR RESPONSE!
""" }
]
)
print ( "gpt-35-turbo with CoT" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )Producción
gpt-35-turbo
There are 2 occurrences of the letter 'r' in the word 'strawberry'.
------------
gpt-35-turbo with CoT
To determine the number of occurrences of the letter 'r' in the word 'strawberry', we scan through the word letter by letter:
- 's' (0)
- 't' (0)
- 'r' (1)
- 'a' (0)
- 'w' (0)
- 'b' (0)
- 'e' (0)
- 'r' (2)
- 'r' (3)
- 'y' (0)
Therefore, the letter 'r' appears 3 times in the word 'strawberry'.
------------
Desafíos y direcciones futuras
Recursos
¿Por qué no puede contar de LLM?
¿Qué significa realmente aprender?