
nanogpt ที่เปลือยเปล่า แต่ finetuned บนข้อมูลการสนทนา
การอัปเดตทั้งหมดใน update.md
ลิงค์ colab
หากต้องการดู capabilites ของมันมุ่งหน้าไปยังลิงค์ colab เพียงเรียกใช้ git clone , pip install และ prepare.py จากนั้นเรียกใช้ chat.py ด้วย --init_from=huggingface
ชุดข้อมูลขนาดกลาง (~ 700MB) เต็มไปด้วยการสนทนาที่หลากหลายและเลขคณิตเล็กน้อย
ชุดรูปแบบและชุดข้อมูลสามารถใช้ได้กับ HuggingFace
(ดีที่สุด) มันสามารถพูดคุยกับคุณในหัวข้อที่หลากหลายและสลับระหว่างหัวข้อที่ราบรื่น
พารามิเตอร์ GPT-2-Medium 353 ล้าน
การอนุมานอย่างรวดเร็วบน GPU
ผู้ใช้แชทบอท
chat.py มีฟังก์ชั่นคล้ายกับ Openai API Stop ลบเนื้อหาทั้งหมดหลังจากคำที่แน่นอน
การกำหนดบริบทเพื่อเริ่มการสนทนาทำให้บุคลิกใหม่ทั้งหมดสำหรับ chatbot
!python chat.py --init_from=huggingface --context=""
นี่คือทางแยกของ nanogpt แต่ได้รับการฝึกฝนในรูปแบบข้อมูลของ chatbot เช่น chatgpt ด้วยรูปแบบที่ได้รับแรงบันดาลใจจาก oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypusแม้ว่าอาจไม่มีขอบเขตสำหรับโมเดลนี้ แต่นี่เป็นสิ่งสำหรับรุ่นในอนาคต แต่มีหลายรุ่นคุณสามารถถามสิ่งที่คุณเพิ่งพูดถึงหรือสรุปการสนทนาด้านบน เมื่อพยายามกับรุ่นนี้:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
อย่างที่เราเห็นมันยังคงดำเนินต่อไปด้วยประโยคเกี่ยวกับการขุดยืนยันว่ามันเข้าใจบริบท (ข้อมูล GPT2) แต่มันไม่มีความสามารถในการเรียกคืน ฉันสงสัยว่าต้องทำกับข้อมูลแบบจำลองและถ้าฉันต้องป้อนข้อมูลเช่นการเรียกบริบทสั้นและข้อมูลการสรุปมันจะได้รับความสามารถเหล่านั้น
ทุกคนที่สามารถมีส่วนร่วมในการซื้อคืนได้โปรดทำเช่นนั้นการบริจาคใด ๆ และการบริจาคทั้งหมดยินดีต้อนรับเพียงเพิ่มเล็กน้อยลงในชุดข้อมูลและขยายชุดข้อมูลมันจะน่าทึ่ง
ฉันไม่ได้ทำการทิ้งข้อมูล/คลังข้อมูลที่ประกอบขึ้นเป็นข้อมูลนี้และไม่สามารถอธิบายอคติใด ๆ ได้เนื่องจากชุดข้อมูลตัวเองนั้นขึ้นอยู่กับการสนทนาของคนจริงที่อาจมีอคติหรือไม่มี แบบจำลองนี้มีไว้เพื่อวัตถุประสงค์ในการวิจัยเชิงวิชาการและไม่ได้มีไว้สำหรับสถานการณ์ที่สำคัญหรือมีความเสี่ยงสูง อย่าทำตามคำแนะนำ
สำหรับวัตถุประสงค์เชิงพาณิชย์เพียงใช้ไฟล์ input1.txt ผ่าน input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}