llm reasoning illusion Download - llm reasoning illusion Código Fonte Download

llm reasoning illusion

Código-Fonte de IA

1.0.0

Baixar

A ilusão do raciocínio

A ilusão de raciocínio nos LLMs decorre de sua capacidade de gerar texto coerente e contextualmente relevante. Quando apresentados com um prompt ou pergunta, os LLMs podem produzir respostas que parecem ser o resultado de um pensamento lógico. No entanto, isso se deve principalmente à sua natureza probabilística e ao fato de terem sido treinados em vastas quantidades de dados de texto. Os LLMs aprendem essencialmente padrões e associações dentro desses dados, permitindo que eles prevejam a próxima palavra ou frase mais provável em um determinado contexto.

Perspectiva de Wozniak sobre inteligência e raciocínio

Um ponto interessante levantado por Steve Wozniak em Hackers Wanted - 2009 críticas da maneira como frequentemente definimos inteligência:

“Então, não ensinamos a pensar tanto quanto ensinamos, você sabe, rigoroso e rigoroso. E a inteligência não é definida como alguém que tem um cérebro que pode pensar e pensar e considerar todas as possibilidades e criar a melhor solução. Não, não, você está dizendo que as mesmas são as mesmas que você lê os mesmos livros. E agora que você pode dizer que os mesmos são os mesmos livros. Quase como uma religião. E juntando -o e criando suas próprias soluções.

Esse insight destaca uma pergunta crítica para o LLMS: podemos ensinar modelos a "pensar" de maneira diversa e criativa, ou eles simplesmente imitam normas e padrões sociais em que foram treinados?

Compreensão do raciocínio

O raciocínio, em sua essência, envolve a capacidade de tirar conclusões ou fazer inferências com base em determinadas informações ou evidências. Requer a aplicação da lógica, pensamento crítico e habilidades de solução de problemas.

Alguns tipos de raciocínio:

Raciocínio dedutivo: movendo -se de princípios gerais para conclusões específicas (por exemplo, "Todos os homens são mortais. Sócrates é um homem. Portanto, Sócrates é mortal".
Raciocínio indutivo: tirando conclusões gerais de observações específicas (por exemplo, "Vi vários carros vermelhos hoje. Os carros vermelhos devem ser populares")
Raciocínio abdutivo: inferindo a explicação mais provável para uma observação (por exemplo, "a grama está molhada. Deve ter chovendo")
Raciocínio analógico: identificar semelhanças entre situações (por exemplo, "Um vírus que atacava um computador é como uma doença que atacava um corpo humano".)
Raciocínio causal: entender os relacionamentos de causa e efeito (por exemplo, "comer alimentos não saudáveis pode levar ao ganho de peso".)

Embora os LLMs possam imitar algumas dessas formas através de padrões pré-aprendidos, o raciocínio verdadeiro requer uma estrutura cognitiva deliberada, que eles não têm.

Uma estrutura cognitiva deliberada é uma abordagem mental estruturada que envolve:

Pensamento consciente: considerando deliberadamente informações e tomando decisões.
Análise crítica: avaliando informações, identificando pontos fortes, fraquezas e vieses.
Solução de problemas: aplicando estratégias para superar os desafios e encontrar soluções.
Raciocínio lógico: usando regras e princípios para tirar conclusões válidas.

Em essência, é uma maneira de pensar que vai além de respostas automáticas ou padrões pré-aprendidos. Requer envolvimento ativo com informações, a capacidade de fazer julgamentos informados e a capacidade de resolver problemas de forma criativa.

Imagine um detetive resolvendo um crime.

Uma estrutura cognitiva deliberada envolveria:
- Examinando cuidadosamente todas as evidências.
- Considerando teorias e possibilidades diferentes.
- Usando a lógica para conectar os pontos e identificar o culpado.
- Estar aberto a novas informações e ajustar seu pensamento conforme necessário.
Por outro lado, um sistema simples de correspondência de padrões pode:
- Procure semelhanças entre o caso atual e as anteriores.
- Sugerir uma solução baseada em experiências passadas.
- Mas isso pode perder detalhes importantes ou não considerar explicações alternativas.

Implementando o raciocínio no LLMS via aprendizado de reforço

Aprendizagem baseada em recompensa: Treination LLMs para tomar decisões com base em recompensas ou punições.
Raciocínio como um jogo: formular tarefas de raciocínio como jogos em que o LLM aprende a fazer escolhas ideais.
Exemplo: treinando um LLM para jogar um jogo de raciocínio como o xadrez.

Nota: No centro das capacidades da OpenAI O1, está seu algoritmo de aprendizado de reforço em larga escala. Essa abordagem ensina o modelo a pensar produtivamente, incentivando -o a gerar cadeias de pensamento que levam a soluções corretas.

Exemplo de Python: Problema de morango resolvido com GPT3.5 + COT "Raciocínio"

 from openai import AzureOpenAI

# Define constants
AZURE_OPENAI_ENDPOINT = ""
AZURE_OPENAI_API_KEY = "" 
az_client = AzureOpenAI ( azure_endpoint = AZURE_OPENAI_ENDPOINT , api_version = "2023-07-01-preview" , api_key = AZURE_OPENAI_API_KEY )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
    ]
)
print ( "gpt-35-turbo" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
        { "role" : "system" , "content" : """         
<chain of thought>
EXAMPLE: Count the occurrences of the letter 'p' in the word 'apple'.
To determine the number of occurrences of the letter 'p' in the word 'apple', we scan through the word letter by letter: 
        'a' (0), 'p' (1), 'p' (2), 'l' (0), 'e' (0). 
Therefore, the letter 'p' appears 2 times.
</chain of thought>
IMPORTANT! USE ABOVE CHAIN OF THOUGHT TO GENERATE YOUR RESPONSE!
""" }
    ]
)
print ( "gpt-35-turbo with CoT" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )

Saída

 gpt-35-turbo
There are 2 occurrences of the letter 'r' in the word 'strawberry'.
------------
gpt-35-turbo with CoT
To determine the number of occurrences of the letter 'r' in the word 'strawberry', we scan through the word letter by letter:

- 's' (0)
- 't' (0)
- 'r' (1)
- 'a' (0)
- 'w' (0)
- 'b' (0)
- 'e' (0)
- 'r' (2)
- 'r' (3)
- 'y' (0)

Therefore, the letter 'r' appears 3 times in the word 'strawberry'.
------------

Desafios e direções futuras

Complexidade: o raciocínio é um processo cognitivo complexo que envolve vários componentes interconectados.
Escassez de dados: adquirir dados suficientes para o treinamento de LLMs em tarefas de raciocínio pode ser um desafio.
Avaliação: O desenvolvimento de métricas eficazes para avaliar as capacidades de raciocínio do LLMS é uma área contínua de pesquisa.
Viés e justiça: garantir que o LLMS rache de maneira justa e imparcial não seja trivial.

Recursos

Por que a contagem de LLM não pode?

O que realmente significa aprender?

Expandir

Informações adicionais