
un nanogpt nu, mais a été condamné à des données conversationnelles
toutes les mises à jour dans les mises à jour.md
Lien colab
Pour afficher ses capabilites, dirigez-vous vers Colab Link, exécutez simplement le git clone , pip install et prepare.py , puis exécutez Chat.py avec --init_from=huggingface
Ensemble de données moyen (~ 700 Mo), plein d'une variété de conversations et un peu d'arithmétique
Modèle et ensembles de données disponibles sur HuggingFace
(au mieux), il peut vous parler sur une variété de sujets et basculer en douceur entre des sujets
GPT-2-Medium 353 millions de paramètres
Inférence très rapide sur le GPU
Utilisateur à chat bot
Chat.py a des fonctions similaires à l'Openai API STOP, supprime tout le contenu après un certain mot
Définir le contexte pour démarrer la conversation, faire une toute nouvelle personnalité pour le chatbot
!python chat.py --init_from=huggingface --context=""
Ceci est une fourche de nanogpt, mais formé sur le format de données d'un chatbot comme Chatgpt, avec le format inspiré par oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus , etc.Bien que probablement hors de portée pour ce modèle, c'est quelque chose pour les futurs modèles, avec de nombreux modèles, vous pouvez vous demander de quoi vous parlez ou pour résumer la conversation ci-dessus. Quand cela est tenté avec ce modèle:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Comme nous pouvons le voir, il continue avec une phrase sur l'exploitation minière, confirmant qu'il comprenait le contexte (INFO GPT2) mais qu'il n'a pas la capacité de se rappeler. Je soupçonne que cela a à voir avec les données des modèles, et que si je devais nourrir des données comme des données d'appel et de résumé, cela gagnerait ces capacités
Quiconque peut contribuer au dépôt, veuillez le faire, toutes les contributions sont les bienvenues, ajoutent simplement un peu à l'ensemble de données et l'élargissement de l'ensemble de données serait incroyable.
Je n'ai pas réalisé les vidages / corpus de données qui composent ces données, et je ne peux pas tenir compte des biais, car l'ensemble de données informatique est basé sur les conversations de vraies personnes qui peuvent ou non avoir des biais. Le modèle est destiné à des fins de recherche académique et n'est pas destiné à des scénarios importants ou à haut risque. Ne suivez pas ses conseils
À des fins commerciales, prenez simplement les fichiers input1.txt via input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}