
Наногпт голой, но созданный на разговорных данных
Все обновления в updates.md
Colab Link
Чтобы просмотреть егоматы, перейдите к Colab Link, просто запустите git clone , pip install и prepare.py , затем запустите чат.py с помощью --init_from=huggingface
Набор данных среднего (~ 700 МБ), полный различных разговоров и немного арифметической
Модель и наборы данных, доступные на Huggingface
(в лучшем случае), он может поговорить с вами по различным темам и плавно переключаться между темами
GPT-2-Medium 353 миллионов параметров
Очень быстрый вывод на графическом процессоре
Пользователь для бота чат
cat.py имеет функции, похожие на остановку API OpenAI, удаляет весь контент после определенного слова
Установка контекста для начала разговора, создание совершенно новой личности для чат -бота
!python chat.py --init_from=huggingface --context=""
Это вилка Nanogpt, но обученная формату данных такого чата, как Chatgpt, с форматом, вдохновленным oasst-pythia-12b
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
<human> ... <endOfText>
<Bot> ... <endOfText>
garage-bAInd/Open-Platypus , и т. Д.Несмотря на то, что, вероятно, не в гостях для этой модели, это что -то для будущих моделей, со многими моделями, вы можете спросить, о чем вы просто говорили, или подвести итог разговора выше. Когда это предпринимается с этой моделью:
Human: Dogecoin is cool
Bot: indeed, very shibe
Human: what were we just talking about?
Bot: me and a friend gave up on mining, but now I can
Как мы видим, это продолжается с предложением о добыче, подтверждая, что он понимает контекст (информация GPT2), но не имеет возможности вспомнить. Я подозреваю, что это связано с данными моделей, и что если бы я подал ИТ-данные, такие как данные о вызовах и суммировании короткого контекста, это получило бы эти способности
Любой, кто может внести свой вклад в репо, пожалуйста, сделайте это, все взносы приветствуются, просто добавьте немного набора данных и развернуть набор данных его данных было бы удивительно.
Я не делал дампы данных/корпусы, которые составляют эти данные, и не мог учитывать какие -либо предубеждения, поскольку набор данных он сам основан на разговорах реальных людей, которые могли или не могли иметь предубеждения. Модель предназначена для академических исследовательских целей и не предназначена для каких -либо важных или высоких сценариев риска. Не следуйте его советам
Для коммерческих целей просто возьмите файлы input1.txt через input36.txt
@misc{zheng2023judging,
title={Judging LLM-as-a-judge with MT-Bench and Chatbot Arena},
author={Lianmin Zheng and Wei-Lin Chiang and Ying Sheng and Siyuan Zhuang and Zhanghao Wu and Yonghao Zhuang and Zi Lin and Zhuohan Li and Dacheng Li and Eric. P Xing and Hao Zhang and Joseph E. Gonzalez and Ion Stoica},
year={2023},
eprint={2306.05685},
archivePrefix={arXiv},
primaryClass={cs.CL}
}