
A Barebones Nanogpt, aber mit Konversationsdaten beendet
Alle Updates in Updates.md
Colab Link
Um seine Fähigkeiten anzuzeigen, gehen Sie zu Colab Link, führen --init_from=huggingface einfach den git clone aus, pip install und prepare.py und führen
Medium Dataset (~ 700 MB), voller einer Vielzahl von Gesprächen und etwas Arithmetik
Modell und Datensätze, die auf dem Umarmungsface ausgelastet sind
(bestenfalls) kann es mit Ihnen über eine Vielzahl von Themen sprechen und reibungslos zwischen Themen wechseln
GPT-2-Medium 353 Millionen Parameter
Sehr schnelle Schlussfolgerung auf die GPU
Benutzer zum Bot -Chat
chat.py hat ähnliche Funktionen wie die OpenAI -API -Stopp, entzieht alle Inhalte nach einem bestimmten Wort
Kontext festlegen, um die Konversation zu starten, eine ganz neue Persönlichkeit für den Chatbot zu machen
!python chat.py --init_from=huggingface --context=""
Dies ist eine Nanogpt-Gabel, die jedoch auf dem Datenformat eines Chatbots wie Chatgpt ausgebildet ist, wobei das von oasst-pythia-12b inspirierte Format inspiriert ist
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus usw. einzubeziehen, usw.Obwohl dies wahrscheinlich aus dem Umfang dieses Modells herausgekommen ist, können Sie mit vielen Modellen mit vielen Modellen fragen, worüber Sie gerade gesprochen haben oder das obige Gespräch zusammenfassen. Wenn das mit diesem Modell versucht wird:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Wie wir sehen können, wird es mit einem Satz zum Bergbau fortgesetzt, der bestätigt, dass es den Kontext (GPT2 -Info) verstanden hat, es jedoch nicht in der Lage ist, sich zu erinnern. Ich vermute, das hat mit den Modelsdaten zu tun, und wenn ich Daten wie Kurzkontext- und Zusammenfassungsdaten füttern würde, würde dies diese Fähigkeiten gewinnen
Jeder, der zum Repo beitragen kann, bitte tun Sie dies, alle Beiträge sind willkommen. Fügen Sie einfach ein wenig zum Datensatz hinzu und erweitern den Datensatz.
Ich habe die Datenmüllhalte/Korpusse, die diese Daten ausmachen, nicht vorgenommen und keine Vorurteile berücksichtigen, da der Datensatz, der sich selbst selbst befindet, auf den Gesprächen von echten Personen basiert, die möglicherweise Vorurteile hatten oder nicht. Das Modell ist für akademische Forschungszwecke gedacht und ist nicht für wichtige oder hohe Risikoszenarien gedacht. Befolgen Sie den Rat nicht
Nehmen Sie für kommerzielle Zwecke einfach die Dateien input1.txt über input36.txt auf
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}