
Barebones nanogpt, 그러나 대화 데이터에 대한 결합
업데이트의 모든 업데이트 .md
Colab 링크
Capabilites를 보려면 Colab 링크로 가서 git clone 실행하고 pip install 하고 prepare.py 다음 --init_from=huggingface 로 chat.py를 실행하십시오.
중간 데이터 세트 (~ 700MB), 다양한 대화로 가득하고 약간의 산술
Huggingface에서는 모델 및 데이터 세트입니다
(기껏해야) 다양한 주제에 대해 이야기하고 주제를 원활하게 전환 할 수 있습니다.
GPT-2-Medium 3 억 5 천 5 백만 파라미터
GPU에서 매우 빠른 추론
봇 채팅 사용자
chat.py는 OpenAI API 정지와 유사한 기능이 있으며 특정 단어 후에 모든 콘텐츠를 제거합니다.
대화를 시작하기 위해 컨텍스트 설정, 챗봇에 대한 완전히 새로운 성격을 만드십시오.
!python chat.py --init_from=huggingface --context=""
이것은 Nanogpt의 포크이지만 Chatgpt와 같은 챗봇의 데이터 형식에 대해 교육을 받았으며 oasst-pythia-12b 에서 영감을 얻은 형식
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus 위한 것이지만, 두 가지 주요 옵션은 수학을 감지하고 백엔드 코드를 실행하는 것입니다.아마도이 모델의 범위를 벗어 났을 지 모르지만, 이것은 미래의 모델을위한 것입니다. 많은 모델이있는이 모델은 당신이 방금 말한 것을 물어 보거나 위의 대화를 요약 할 수 있습니다. 이 모델로 시도 할 때 :
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
우리가 볼 수 있듯이, 그것은 채굴에 대한 문장으로 계속해서 문맥 (GPT2 정보)을 이해했음을 확인하지만 리콜 할 능력은 없습니다. 나는 모델 데이터와 관련이 있다고 생각하며, 단락 텍스트 호출 및 요약 데이터와 같은 데이터를 공급하려면 그러한 능력을 얻을 수 있다고 생각합니다.
Repo에 기여할 수있는 사람이라면 누구나 그렇게하십시오. 그렇게하십시오. 모든 기여를 환영합니다. 데이터 세트에 약간 추가하고 데이터 세트를 확장하는 것은 놀라운 일입니다.
나는이 데이터를 구성하는 데이터 덤프/코퍼스를 만들지 않았으며, 데이터 세트가 편견이 있거나 없었던 실제 사람들의 대화를 기반으로하기 때문에 어떤 편견을 설명 할 수 없었습니다. 이 모델은 학문적 연구 목적을위한 것이며 중요하거나 높은 위험 시나리오를위한 것이 아닙니다. 조언을 따르지 마십시오
상업적 목적으로 input36.txt 통해 input1.txt 파일 만 가져 가십시오.
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}