llm reasoning illusion - LLM - llm reasoning illusion ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

llm reasoning illusion

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ภาพลวงตาของการใช้เหตุผล

ภาพลวงตาของการให้เหตุผลใน LLMs เกิดจากความสามารถในการสร้างข้อความที่สอดคล้องกันและเกี่ยวข้องกับบริบท เมื่อนำเสนอด้วยพรอมต์หรือคำถาม LLM สามารถสร้างคำตอบที่ดูเหมือนจะเป็นผลมาจากความคิดเชิงตรรกะ อย่างไรก็ตามนี่เป็นสาเหตุหลักมาจากลักษณะความน่าจะเป็นของพวกเขาและความจริงที่ว่าพวกเขาได้รับการฝึกอบรมเกี่ยวกับข้อมูลข้อความจำนวนมาก LLMs เรียนรู้รูปแบบและการเชื่อมโยงภายในข้อมูลนี้เป็นหลักทำให้พวกเขาสามารถทำนายคำหรือวลีต่อไปที่เป็นไปได้มากที่สุดในบริบทที่กำหนด

มุมมองของ Wozniak เกี่ยวกับความฉลาดและการให้เหตุผล

จุดที่น่าสนใจที่เกิดขึ้นโดย Steve Wozniak ใน Hackers Wanted - การวิพากษ์วิจารณ์ปี 2009 วิธีที่เรามักจะกำหนดความฉลาด:

ดังนั้นเราไม่ได้สอนการคิดให้มากที่สุดเท่าที่เราสอนคุณรู้การท่องจำอย่างเข้มงวดและความฉลาดไม่ได้นิยามว่าใครบางคนที่มีสมองที่สามารถคิดและคิดและพิจารณาความเป็นไปได้ทั้งหมดและหาทางออกที่ดีที่สุด เหมือนศาสนา และรวมตัวกันและมาพร้อมกับโซลูชั่นของคุณเอง

ข้อมูลเชิงลึกนี้เน้นคำถามที่สำคัญสำหรับ LLM: เราสามารถสอนนางแบบให้ "คิด" อย่างแท้จริงในรูปแบบที่หลากหลายและสร้างสรรค์หรือพวกเขาจะเลียนแบบบรรทัดฐานและรูปแบบทางสังคมที่พวกเขาได้รับการฝึกฝน?

ทำความเข้าใจการใช้เหตุผล

การใช้เหตุผลที่สำคัญนั้นเกี่ยวข้องกับความสามารถในการสรุปหรือทำการอนุมานตามข้อมูลหรือหลักฐานที่กำหนด มันต้องใช้การประยุกต์ใช้ตรรกะการคิดอย่างมีวิจารณญาณและทักษะการแก้ปัญหา

การใช้เหตุผลบางประเภท:

การให้เหตุผลแบบนิรนัย: การย้ายจากหลักการทั่วไปไปสู่ข้อสรุปที่เฉพาะเจาะจง (เช่น "ผู้ชายทุกคนเป็นมนุษย์โสกราตีสเป็นผู้ชายดังนั้นโสกราตีสจึงเป็นมนุษย์"))
การใช้เหตุผลเชิงอุปนัย: การวาดข้อสรุปทั่วไปจากการสังเกตที่เฉพาะเจาะจง (เช่น "ฉันเคยเห็นรถยนต์สีแดงหลายคันในวันนี้รถยนต์สีแดงต้องเป็นที่นิยม")
การใช้เหตุผลแบบ abductive: การอนุมานคำอธิบายที่เป็นไปได้มากที่สุดสำหรับการสังเกต (เช่น "หญ้าเปียกมันต้องมีฝนตก")
การใช้เหตุผลแบบอะนาล็อก: การระบุความคล้ายคลึงกันระหว่างสถานการณ์ (เช่น "ไวรัสที่โจมตีคอมพิวเตอร์เป็นเหมือนความเจ็บป่วยที่โจมตีร่างกายมนุษย์"))
การใช้เหตุผลเชิงสาเหตุ: การทำความเข้าใจความสัมพันธ์ของสาเหตุและผลกระทบ (เช่น "การกินอาหารที่ไม่ดีต่อสุขภาพสามารถนำไปสู่การเพิ่มน้ำหนัก")

ในขณะที่ LLM สามารถเลียนแบบบางรูปแบบเหล่านี้ผ่านรูปแบบที่เรียนรู้ล่วงหน้าการใช้เหตุผลที่แท้จริงต้องใช้กรอบการเรียนรู้โดยเจตนาซึ่งพวกเขาขาด

กรอบความรู้ความเข้าใจโดยเจตนา เป็นวิธีการทางจิตที่มีโครงสร้างที่เกี่ยวข้องกับ:

ความคิดที่ใส่ใจ: จงใจพิจารณาข้อมูลและการตัดสินใจ
การวิเคราะห์ที่สำคัญ: การประเมินข้อมูลการระบุจุดแข็งจุดอ่อนและอคติ
การแก้ปัญหา: การใช้กลยุทธ์เพื่อเอาชนะความท้าทายและค้นหาวิธีแก้ปัญหา
การใช้เหตุผลเชิงตรรกะ: การใช้กฎและหลักการเพื่อสรุปข้อสรุปที่ถูกต้อง

ในสาระสำคัญมันเป็นวิธีคิดที่เกินกว่าการตอบกลับอัตโนมัติหรือรูปแบบการเรียนรู้ล่วงหน้า มันต้องมีส่วนร่วมอย่างแข็งขันกับข้อมูลความสามารถในการตัดสินอย่างชาญฉลาดและความสามารถในการแก้ปัญหาอย่างสร้างสรรค์

ลองนึกภาพนักสืบแก้ปัญหาอาชญากรรม

กรอบความรู้ความเข้าใจโดยเจตนา จะเกี่ยวข้องกับ:
- ตรวจสอบหลักฐานทั้งหมดอย่างระมัดระวัง
- พิจารณาทฤษฎีและความเป็นไปได้ที่แตกต่างกัน
- ใช้ตรรกะเพื่อเชื่อมต่อจุดและระบุผู้กระทำผิด
- เปิดรับข้อมูลใหม่และปรับความคิดตามต้องการ
ในทางตรงกันข้ามระบบการจับคู่รูปแบบที่เรียบง่าย อาจ:
- มองหาความคล้ายคลึงกันระหว่างเคสปัจจุบันและก่อนหน้านี้
- แนะนำวิธีแก้ปัญหาตามประสบการณ์ที่ผ่านมา
- แต่อาจพลาดรายละเอียดที่สำคัญหรือไม่พิจารณาคำอธิบายทางเลือก

การใช้เหตุผลใน LLMs ผ่านการเรียนรู้การเสริมแรง

การเรียนรู้ตามรางวัล: การฝึกอบรม LLM เพื่อการตัดสินใจบนพื้นฐานของรางวัลหรือการลงโทษ
การให้เหตุผลเป็นเกม: กำหนดงานให้เหตุผลเป็นเกมที่ LLM เรียนรู้ที่จะเลือกตัวเลือกที่ดีที่สุด
ตัวอย่าง: การฝึก LLM เพื่อเล่นเกมให้เหตุผลเช่นหมากรุก

หมายเหตุ: เป็นแกนหลักของความสามารถของ OpenAI O1 คืออัลกอริทึมการเรียนรู้การเสริมแรงขนาดใหญ่ วิธีการนี้สอนรูปแบบวิธีคิดอย่างมีประสิทธิภาพโดยส่งเสริมให้มันสร้างโซ่แห่งความคิดที่นำไปสู่การแก้ปัญหาที่ถูกต้อง

ตัวอย่าง Python: ปัญหาสตรอเบอร์รี่แก้ไขด้วย GPT3.5 + COT "การใช้เหตุผล"

 from openai import AzureOpenAI

# Define constants
AZURE_OPENAI_ENDPOINT = ""
AZURE_OPENAI_API_KEY = "" 
az_client = AzureOpenAI ( azure_endpoint = AZURE_OPENAI_ENDPOINT , api_version = "2023-07-01-preview" , api_key = AZURE_OPENAI_API_KEY )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
    ]
)
print ( "gpt-35-turbo" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )
ai_response = az_client . chat . completions . create (
    model = "gpt-35-turbo" ,
    messages = [
        { "role" : "user" , "content" : "Count the occurrences of the letter 'r' in the word 'strawberry'." },
        { "role" : "system" , "content" : """         
<chain of thought>
EXAMPLE: Count the occurrences of the letter 'p' in the word 'apple'.
To determine the number of occurrences of the letter 'p' in the word 'apple', we scan through the word letter by letter: 
        'a' (0), 'p' (1), 'p' (2), 'l' (0), 'e' (0). 
Therefore, the letter 'p' appears 2 times.
</chain of thought>
IMPORTANT! USE ABOVE CHAIN OF THOUGHT TO GENERATE YOUR RESPONSE!
""" }
    ]
)
print ( "gpt-35-turbo with CoT" )
print ( ai_response . choices [ 0 ]. message . content )
print ( "------------" )

เอาท์พุท

 gpt-35-turbo
There are 2 occurrences of the letter 'r' in the word 'strawberry'.
------------
gpt-35-turbo with CoT
To determine the number of occurrences of the letter 'r' in the word 'strawberry', we scan through the word letter by letter:

- 's' (0)
- 't' (0)
- 'r' (1)
- 'a' (0)
- 'w' (0)
- 'b' (0)
- 'e' (0)
- 'r' (2)
- 'r' (3)
- 'y' (0)

Therefore, the letter 'r' appears 3 times in the word 'strawberry'.
------------

ความท้าทายและทิศทางในอนาคต

ความซับซ้อน: การใช้เหตุผลเป็นกระบวนการทางปัญญาที่ซับซ้อนซึ่งเกี่ยวข้องกับส่วนประกอบที่เชื่อมต่อกันหลายรายการ
ความขาดแคลนข้อมูล: การรับข้อมูลที่เพียงพอสำหรับการฝึกอบรม LLMS เกี่ยวกับงานการใช้เหตุผลอาจเป็นเรื่องที่ท้าทาย
การประเมินผล: การพัฒนาตัวชี้วัดที่มีประสิทธิภาพเพื่อประเมินความสามารถในการใช้เหตุผลของ LLMS เป็นพื้นที่การวิจัยอย่างต่อเนื่อง
อคติและความเป็นธรรม: ทำให้มั่นใจได้ว่าเหตุผล LLMS ในลักษณะที่เป็นธรรมและเป็นกลางนั้นไม่สำคัญ

ทรัพยากร

ทำไม LLM ถึงนับไม่ได้?

การเรียนรู้อะไรจริงๆ?

ขยาย

ข้อมูลเพิ่มเติม