
ベアボーンナノグプトですが、会話データで微調整されています
updates.mdのすべての更新
コラブリンク
そのキャピライトを表示するには、colabリンクに向かい、 git cloneを実行し、 pip install実行し、 prepare.py使用してから、 --init_from=huggingfaceでchat.pyを実行します
中程度のデータセット(〜700MB)、さまざまな会話でいっぱい、そして少し算術
モデルとデータセットは、ハギングフェイスで利用できます
(せいぜい)、それはさまざまなトピックであなたに話しかけ、トピックをスムーズに切り替えることができます
GPT-2-Medium 3億5,300万のパラメーター
GPUの非常に高速な推論
ユーザーからボットチャット
chat.pyには、Openai API Stopと同様の機能があり、特定の単語の後にすべてのコンテンツを削除します
コンテキストを設定して会話を開始し、チャットボットのまったく新しい個性を作ります
!python chat.py --init_from=huggingface --context=""
これはNanogptのフォークですが、chatgptのようなチャットボットのデータ形式でトレーニングされており、 oasst-pythia-12bに触発された形式で
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypusおそらくこのモデルの範囲外ではありませんが、これは将来のモデルのためのものであり、多くのモデルを備えたもので、あなたがただ話していることや、上記の会話を要約することを尋ねることができます。このモデルでそれが試みられたとき:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
私たちが見ることができるように、それはマイニングに関する文章を続けており、それがコンテキスト(GPT2情報)を理解していたことを確認しますが、それは想起する能力がありません。それはモデルデータに関係していると思われ、短いコンテキストの呼び出しや要約データのようなデータをフィードすると、それらの能力が得られると思います。
リポジトリに貢献できる人なら誰でも、あらゆる貢献を歓迎します。データセットに少し追加して、データセットを拡張するのは素晴らしいことです。
このデータを構成するデータダンプ/コーパスを作成せず、バイアスを説明することはできません。このモデルは、学術研究の目的であり、重要なリスクまたは高リスクのシナリオを対象としていません。そのアドバイスに従わないでください
商業目的では、 input36.txtを介してファイルinput1.txt使用するだけです
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}