Téléchargement llm reasoning illusion - Téléchargement du code source llm reasoning illusion

llm reasoning illusion

Code Source AI

1.0.0

Télécharger

L'illusion du raisonnement

L'illusion du raisonnement dans les LLMS découle de leur capacité à générer un texte cohérent et contextuellement pertinent. Lorsqu'on leur a présenté une invite ou une question, les LLM peuvent produire des réponses qui semblent être le résultat d'une pensée logique. Cependant, cela est principalement dû à leur nature probabiliste et au fait qu'ils ont été formés sur de grandes quantités de données texte. Les LLM apprennent essentiellement des modèles et des associations au sein de ces données, ce qui leur permet de prédire le mot ou la phrase le plus probable dans un contexte donné.

La perspective de Wozniak sur l'intelligence et le raisonnement

Un point intéressant soulevé par Steve Wozniak dans Hackers Wanted - 2009 critique la façon dont nous définissons souvent l'intelligence:

«Donc, nous n'enseignons pas autant de réflexion que nous enseignons, vous savez, rigoureusement. Et l'intelligence n'est pas définie comme quelqu'un qui a un cerveau qui peut penser et penser et considérer toutes les possibilités et trouver la meilleure solution. Oh non! Presque comme une religion. Et le rassembler et la création de vos propres solutions. Nous ne définissons pas cela comme intelligent.

Cette perspicacité met en évidence une question critique pour les LLM: pouvons-nous enseigner aux modèles à «penser» vraiment de manière diversifiée et créative, ou imiteront-ils simplement les normes et les modèles sociétaux sur lesquels ils ont été formés?

Comprendre le raisonnement

Le raisonnement, à la base, implique la capacité de tirer des conclusions ou de faire des inférences sur la base d'informations ou de preuves données. Cela nécessite l'application de la logique, de la pensée critique et des compétences de résolution de problèmes.

Quelques types de raisonnement:

Raisonnement déductif: passer des principes généraux à des conclusions spécifiques (par exemple, "tous les hommes sont mortels. Socrate est un homme. Par conséquent, Socrate est mortel.")
Raisonnement inductif: tirer des conclusions générales à partir d'observations spécifiques (par exemple, "J'ai vu plusieurs voitures rouges aujourd'hui. Les voitures rouges doivent être populaires.")
Raisonnement abductif: en déduisant l'explication la plus probable pour une observation (par exemple, "l'herbe est mouillée. Il a dû pleuvoir.")
Raisonnement analogique: identifier les similitudes entre les situations (par exemple, "un virus attaquant un ordinateur est comme une maladie attaquant un corps humain.")
Raisonnement causal: comprendre les relations de cause à effet (par exemple, «manger des aliments malsains peut entraîner une prise de poids».)

Bien que les LLM peuvent imiter certaines de ces formes par le biais de modèles pré-appris, le véritable raisonnement nécessite un cadre cognitif délibéré, qui leur manque.

Un cadre cognitif délibéré est une approche mentale structurée qui implique:

Pensée consciente: considérant délibérément les informations et la prise de décisions.
Analyse critique: évaluer les informations, identifier les forces, les faiblesses et les biais.
Solving de problèmes: appliquer des stratégies pour surmonter les défis et trouver des solutions.
Raisonnement logique: utiliser des règles et des principes pour tirer des conclusions valides.

Essentiellement, c'est une façon de penser qui va au-delà des réponses automatiques ou des modèles pré-appris. Elle nécessite un engagement actif avec l'information, la capacité de porter des jugements éclairés et la capacité de résoudre des problèmes de manière créative.

Imaginez un détective résolvant un crime.

Un cadre cognitif délibéré impliquerait:
- Examinant soigneusement toutes les preuves.
- Considérant différentes théories et possibilités.
- Utilisation de la logique pour connecter les points et identifier le coupable.
- Être ouvert à de nouvelles informations et ajuster leur réflexion au besoin.
En revanche, un simple système de correspondance de motifs pourrait:
- Recherchez des similitudes entre le cas actuel et les précédents.
- Suggérez une solution basée sur les expériences passées.
- Mais cela pourrait manquer des détails importants ou ne pas tenir compte des explications alternatives.

Implémentation du raisonnement dans les LLM via l'apprentissage du renforcement

Apprentissage basé sur les récompenses: Formation LLMS pour prendre des décisions basées sur des récompenses ou des punitions.
Raisonnement en tant que jeu: formuler des tâches de raisonnement comme des jeux où le LLM apprend à faire des choix optimaux.
Exemple: Formation d'un LLM pour jouer à un jeu de raisonnement comme les échecs.

Remarque: Au cœur des capacités d'Openai O1 se trouve son algorithme d'apprentissage de renforcement à grande échelle. Cette approche enseigne au modèle comment penser de manière productive en l'encourageant à générer des chaînes de pensée qui conduisent à des solutions correctes.

Exemple Python: Problème de fraise résolu avec GPT3.5 + Cot "Raisonnement"

 from openai import AzureOpenAI

# Define constants
AZURE_OPENAI_ENDPOINT = ""
AZURE_OPENAI_API_KEY = "" 
az_client = AzureOpenAI ( azure_endpoint = AZURE_OPENAI_ENDPOINT , api_version = "2023-07-01-preview" , api_key = AZURE_OPENAI_API_KEY )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
    ]
)
print ( "gpt-35-turbo" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
        { "role" : "system" , "content" : """         
<chain of thought>
EXAMPLE: Count the occurrences of the letter 'p' in the word 'apple'.
To determine the number of occurrences of the letter 'p' in the word 'apple', we scan through the word letter by letter: 
        'a' (0), 'p' (1), 'p' (2), 'l' (0), 'e' (0). 
Therefore, the letter 'p' appears 2 times.
</chain of thought>
IMPORTANT! USE ABOVE CHAIN OF THOUGHT TO GENERATE YOUR RESPONSE!
""" }
    ]
)
print ( "gpt-35-turbo with CoT" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )

Sortir

 gpt-35-turbo
There are 2 occurrences of the letter 'r' in the word 'strawberry'.
------------
gpt-35-turbo with CoT
To determine the number of occurrences of the letter 'r' in the word 'strawberry', we scan through the word letter by letter:

- 's' (0)
- 't' (0)
- 'r' (1)
- 'a' (0)
- 'w' (0)
- 'b' (0)
- 'e' (0)
- 'r' (2)
- 'r' (3)
- 'y' (0)

Therefore, the letter 'r' appears 3 times in the word 'strawberry'.
------------

Défis et orientations futures

Complexité: le raisonnement est un processus cognitif complexe qui implique plusieurs composants interconnectés.
Parent de données: acquérir suffisamment de données pour la formation des LLM sur les tâches de raisonnement peut être difficile.
Évaluation: Développer des mesures efficaces pour évaluer les capacités de raisonnement des LLM est un domaine de recherche en cours.
Biais et équité: s'assurer que la raison du LLMS d'une manière juste et impartiale est non triviale.

Ressources

Pourquoi le compte de LLM ne peut-il pas?

Que signifie vraiment apprendre?

Développer

Informations supplémentaires