
um nanogpt nos barebones, mas fino em dados de conversação
Todas as atualizações em atualizações.md
Link colab
Para visualizar seus capabilitos, vá para o Colab Link, basta executar o git clone , pip install e prepare.py e depois executar chat.py com --init_from=huggingface
Conjunto de dados médio (~ 700 MB), cheio de uma variedade de conversas e um pouco de aritmética
Modelo e conjuntos de dados Avalível no Huggingface
(na melhor das hipóteses), pode falar com você sobre uma variedade de tópicos e alternar suavemente entre tópicos
GPT-2-Medium 353 milhões de parâmetros
Inferência muito rápida na GPU
Usuário para Bot Chat
Chat.py tem funções semelhantes ao OpenAI API Stop, remove todo o conteúdo após uma determinada palavra
Definindo o contexto para iniciar a conversa, fazendo uma nova personalidade para o chatbot
!python chat.py --init_from=huggingface --context=""
Este é um garfo de nanogpt, mas treinado no formato de dados de um chatbot como o chatgpt, com o formato inspirado no oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus , etc. etc.Embora provavelmente fora de escopo para esse modelo, isso é algo para modelos futuros, com muitos modelos, você pode perguntar do que estava falando ou resumir a conversa acima. Quando isso é tentado com este modelo:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Como podemos ver, continua com uma frase de mineração, confirmando que ele entendeu o contexto (informações do GPT2), mas não tem a capacidade de recordar. Suspeito que isso tenha a ver com os dados dos modelos e que, se eu alimentasse dados de TI, como Dados de Chamada e Resumo de Contexto de Curto
Qualquer pessoa que possa contribuir para o repositório, faça isso, todas e quaisquer contribuições são bem -vindas, basta adicionar um pouco ao conjunto de dados e expandir o conjunto de dados de TI seria incrível.
Não fiz os despejos/corpus de dados que compõem esses dados e não podem explicar nenhum vieses, pois o conjunto de dados se baseia nas conversas de pessoas reais que podem ou não ter vieses. O modelo é destinado a fins de pesquisa acadêmica e não é para nenhum cenário de risco importante ou de alto risco. Não siga seu conselho
Para fins comerciais, basta pegar os arquivos input1.txt através input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}