
seorang nanogpt barebones, tetapi finetuned pada data percakapan
semua pembaruan di pembaruan.md
Tautan colab
Untuk melihat kemampuannya, pergilah ke tautan Colab, cukup jalankan git clone , pip install , dan prepare.py , lalu jalankan chat.py dengan --init_from=huggingface
Dataset sedang (~ 700MB), penuh dengan berbagai percakapan, dan sedikit aritmatika
Model dan Dataset AFBALIBLE ON HUGGINGFACE
(Paling -paling), ini dapat berbicara dengan Anda tentang berbagai topik dan dengan lancar beralih di antara topik
GPT-2-Medium 353 juta parameter
Inferensi yang sangat cepat pada GPU
Pengguna untuk Obrolan Bot
chat.py memiliki fungsi yang mirip dengan Openai API Stop, menghapus semua konten setelah kata tertentu
Mengatur konteks untuk memulai percakapan, membuat kepribadian yang sama sekali baru untuk chatbot
!python chat.py --init_from=huggingface --context=""
Ini adalah garpu nanogpt, tetapi dilatih pada format data chatbot seperti chatgpt, dengan format yang terinspirasi oleh oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus , dll.Meskipun mungkin di luar ruang lingkup untuk model ini, ini adalah sesuatu untuk model masa depan, dengan banyak model, Anda dapat bertanya apa yang baru saja Anda bicarakan atau meringkas percakapan di atas. Ketika itu dicoba dengan model ini:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Seperti yang dapat kita lihat, itu berlanjut dengan kalimat tentang penambangan, mengkonfirmasikan bahwa ia memahami konteksnya (info GPT2) tetapi tidak memiliki kemampuan untuk mengingat. Saya menduga itu ada hubungannya dengan data model, dan bahwa jika saya memberi makan data seperti data panggilan konteks pendek dan ringkasan, itu akan mendapatkan kemampuan tersebut
Siapa pun yang dapat berkontribusi pada repo, silakan lakukan, setiap dan semua kontribusi dipersilakan, cukup tambahkan sedikit ke dataset dan perluas datasetnya akan luar biasa.
Saya tidak membuat dump/corpus data yang membentuk data ini, dan tidak dapat menjelaskan bias apa pun, karena dataset yang itu didasarkan pada percakapan orang -orang nyata yang mungkin atau mungkin tidak memiliki bias. Model ini dimaksudkan untuk tujuan penelitian akademik, dan tidak dimaksudkan untuk skenario penting atau risiko tinggi. Jangan ikuti nasihatnya
Untuk tujuan komersial, cukup ambil file input1.txt melalui input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}