ดาวน์โหลด nanoChatGPT - ดาวน์โหลดซอร์สโค้ด nanoChatGPT

nanoChatGPT

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

nanochatgpt

nanogpt ที่เปลือยเปล่า แต่ finetuned บนข้อมูลการสนทนา

การอัปเดตทั้งหมดใน update.md
ลิงค์ colab
หากต้องการดู capabilites ของมันมุ่งหน้าไปยังลิงค์ colab เพียงเรียกใช้ git clone , pip install และ prepare.py จากนั้นเรียกใช้ chat.py ด้วย --init_from=huggingface

คุณสมบัติ

ชุดข้อมูลขนาดกลาง (~ 700MB) เต็มไปด้วยการสนทนาที่หลากหลายและเลขคณิตเล็กน้อย
ชุดรูปแบบและชุดข้อมูลสามารถใช้ได้กับ HuggingFace
(ดีที่สุด) มันสามารถพูดคุยกับคุณในหัวข้อที่หลากหลายและสลับระหว่างหัวข้อที่ราบรื่น
พารามิเตอร์ GPT-2-Medium 353 ล้าน
การอนุมานอย่างรวดเร็วบน GPU
ผู้ใช้แชทบอท
chat.py มีฟังก์ชั่นคล้ายกับ Openai API Stop ลบเนื้อหาทั้งหมดหลังจากคำที่แน่นอน
การกำหนดบริบทเพื่อเริ่มการสนทนาทำให้บุคลิกใหม่ทั้งหมดสำหรับ chatbot
!python chat.py --init_from=huggingface --context=""

มันทำงานอย่างไร?

นี่คือทางแยกของ nanogpt แต่ได้รับการฝึกฝนในรูปแบบข้อมูลของ chatbot เช่น chatgpt ด้วยรูปแบบที่ได้รับแรงบันดาลใจจาก oasst-pythia-12b

 <human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>

ปัญหา / todos

คณิตศาสตร์และเหตุผลเชิงตรรกะ
- ในขณะที่ส่วนใหญ่อยู่นอกขอบเขตของโมเดลนี้นี่เป็นสิ่งสำหรับรุ่นในอนาคตตัวเลือกหลักสองตัวเลือกคือการตรวจจับคณิตศาสตร์และเรียกใช้รหัสแบ็กเอนด์หรือฝึกอบรมโมเดลด้วยการแจ้งเตือนทางคณิตศาสตร์ซึ่งอาจเป็นไปได้มากกว่าสำหรับการใช้เหตุผลเชิงตรรกะฉันอาจลองรวมชุดข้อมูลเช่น garage-bAInd/Open-Platypus
ไม่มีหน่วยความจำ/การเรียกคืน
- แม้ว่าอาจไม่มีขอบเขตสำหรับโมเดลนี้ แต่นี่เป็นสิ่งสำหรับรุ่นในอนาคต แต่มีหลายรุ่นคุณสามารถถามสิ่งที่คุณเพิ่งพูดถึงหรือสรุปการสนทนาด้านบน เมื่อพยายามกับรุ่นนี้:
```
 Human: Dogecoin is cool 
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
```
  อย่างที่เราเห็นมันยังคงดำเนินต่อไปด้วยประโยคเกี่ยวกับการขุดยืนยันว่ามันเข้าใจบริบท (ข้อมูล GPT2) แต่มันไม่มีความสามารถในการเรียกคืน ฉันสงสัยว่าต้องทำกับข้อมูลแบบจำลองและถ้าฉันต้องป้อนข้อมูลเช่นการเรียกบริบทสั้นและข้อมูลการสรุปมันจะได้รับความสามารถเหล่านั้น

ทุกคนที่สามารถมีส่วนร่วมในการซื้อคืนได้โปรดทำเช่นนั้นการบริจาคใด ๆ และการบริจาคทั้งหมดยินดีต้อนรับเพียงเพิ่มเล็กน้อยลงในชุดข้อมูลและขยายชุดข้อมูลมันจะน่าทึ่ง

ข้อ จำกัด

ฉันไม่ได้ทำการทิ้งข้อมูล/คลังข้อมูลที่ประกอบขึ้นเป็นข้อมูลนี้และไม่สามารถอธิบายอคติใด ๆ ได้เนื่องจากชุดข้อมูลตัวเองนั้นขึ้นอยู่กับการสนทนาของคนจริงที่อาจมีอคติหรือไม่มี แบบจำลองนี้มีไว้เพื่อวัตถุประสงค์ในการวิจัยเชิงวิชาการและไม่ได้มีไว้สำหรับสถานการณ์ที่สำคัญหรือมีความเสี่ยงสูง อย่าทำตามคำแนะนำ

ข้อมูลอะไร

Personachat Corpus (ไม่ใช่เพื่อการใช้งานเชิงพาณิชย์)
Twitter ทิ้งคลังข้อมูล
คลังข้อมูล Dialog Ubuntu
การสนทนาของ Chatbot Arena (ไม่ใช่เพื่อการใช้งานเชิงพาณิชย์)
การแชทความเห็นอกเห็นใจ parlai (ไม่ใช่เพื่อการใช้งานเชิงพาณิชย์)
HackerNews ทิ้งคลังข้อมูล
ข้อมูลการพูด Babylm Challenge (ไม่แน่ใจ แต่อาจไม่ใช่เพื่อการใช้งานเชิงพาณิชย์)
ชุดข้อมูลเลขคณิต AI AI
ส่วนเล็ก ๆ ของ Oasst-1

สำหรับวัตถุประสงค์เชิงพาณิชย์เพียงใช้ไฟล์ input1.txt ผ่าน input36.txt

การอ้างอิง

 @misc{zheng2023judging,
      title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena}, 
      author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
      year={2023},
      eprint={2306.05685},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

ขยาย

ข้อมูลเพิ่มเติม