Скачать GPT2 chitchat - загрузка исходного кода GPT2 chitchat

GPT2 для китайского Trainhat

Новости

Официальная учетная запись [yeungnlp]

2023.04.05: выпустить Firefly: китайский набор большой языковой модели, основанная на диалоге, набор данных по многозадачности с открытым исходным кодом, и веса модели. Смотрите статью для деталей
2023.04.02: Выпуск LLMPruner: большой инструмент для обрезки модели с большой языком, разделение метода резки и его веса обрезанных моделей. Смотрите статью для деталей.
2023.02.13: Выпуска-китайз, применение китайской мультимодальной единой предварительно обученной модели на задачах подписи изображения. Смотрите статью для деталей.
2022.12.04: выпустить Clip-Chinese, предварительно обученную модель китайского клипа. Данные были предварительно обучены с использованием 1,4 миллиона китайских изображений и текстов, которые показали хорошие результаты в сходстве графических задач, сходства текста и сходства изображений. Смотрите статью для деталей.
2022.03.30: выпустить Clipcap-Chinese, модель подписи изображения, основанная на модели клипа. Смотрите статью для деталей.
2021.06.16: Публикайте проект CPM китайского генерации текста. Его можно использовать для китайских задач поколения, таких как композиция, романы, новости и древние стихи. Смотрите статью для деталей.
2021.05.26: Добавлены исходные данные и предварительные данные для нескольких раундов диалога 50 Вт и 100 Вт.

Описание проекта

Этот проект представляет собой китайский робот в чате, основанный на GPT2, а модель реализует трансформаторы на основе HuggingFace. статья:
Этот проект был вдохновлен GPT2-Chinese и тщательно прочитал код автора и получил большую пользу.
На стадии генерации используются температура, выборка TOP-K и выборка ядра. Пожалуйста, обратитесь к газете «Любопытный случай дегенерации нервного текста
Многие подробные китайские комментарии приведены в коде, чтобы облегчить всем, чтобы лучше понять код.
На этот проект ссылается проект Microsoft Dialogpt (чтобы упростить метод генерации и ускорить генерацию, метод генерации MMI был удален)

Работая среда

Python3.6, Transformers == 4.2.0, Pytorch == 1.7.0

Структура проекта

данные
- Train.txt: исходный файл обучающих набора по умолчанию, хранение материалов чата
- Train.pkl: Файл после того, как токенизирует оригинальный учебный корпус, хранит объект списка. Каждая часть данных в списке представляет собой множество раундов диалога, представляющего данные обучения.
Модель: хранить модель, сгенерированную разговором
- Epoch40: модель, полученная после 40 раундов обучения
  - config.json: файл конфигурации для параметров модели
  - pytorch_model.bin: модельный файл
слока
- vocab.txt: файл словаря. Размер словаря по умолчанию составляет 13317. Если вам нужно использовать пользовательский словарь, вам необходимо установить поле Vocab_size в файле confog.json в соответствующий размер.
Образец: хранить исторические записи чата, генерируемые чатом на человеке-компьютере
train.py: код обучения
Interact.py: Код взаимодействия с компьютером
preprocess.py: код предварительной обработки данных

Введение модели

Структура модели

аватар

Введение в параметры модели (подробности см. Файл config.json's Config.json).

initializer_range: 0,02
layer_norm_epsilon: 1e-05
N_CTX: 1024
N_EMBD: 768
n_head: 12
n_layer: 12
n_position: 1024
vocab_size: 21128

Обучающие идеи

Каждое обучающее данные сплачиваются, а затем вводят их в модель для обучения.

Для следующих нескольких раундов данных обучения в чате при обучении модели данные обучения сплачиваются следующим образом: «[CLS] хочу увидеть ваши прекрасные фотографии [SEP] поцеловать меня и показать вам [SEP] Я целую вас [SEP] Я ненавижу людей, которые используют маленькие кулаки, чтобы ударить вашу грудь [SEP]». Затем используйте приведенные выше результаты сплайсинга в качестве входных данных для модели и позвольте модели пройти обучение авторегрессии.

想看你的美照
亲我一口就给你看
我亲两口
讨厌人家拿小拳拳捶你胸口

Как использовать

Быстрый старт

Загрузите модель в обмен моделью, поместите модель Model Model_epoch40_50W в каталог модели, выполните следующие команды и проведите диалог

 python interact.py --no_cuda --model_path model_epoch40_50w (使用cpu生成，速度相对较慢)
或
python interact.py --model_path model_epoch40_50w --device 0 (指定0号GPU进行生成，速度相对较快)

Предварительная обработка данных

Создайте папку данных в каталоге Project Root, назовите оригинальный учебный корпус Train.txt и сохраните ее в этом каталоге. Формат train.txt заключается в следующем, с одной строкой между каждым чатом, и формат выглядит следующим образом:

真想找你一起去看电影
突然很想你
我也很想你

想看你的美照
亲我一口就给你看
我亲两口
讨厌人家拿小拳拳捶你胸口

美女约嘛
开好房等你了
我来啦

Запустите preprocess.py, токенизируйте корпус Data/Train.txt, а также сохраните его в Data/Train.pkl. Тип сериализованного объекта в Train.pkl - это список [список], который записывает токены, содержащиеся в каждом разговоре в списке диалогов.

 python preprocess.py --train_path data/train.txt --save_path data/train.pkl

Обучение модели

Запустите Train.py, используйте предварительно обработанные данные для выполнения обучения авторегрессии на модели, и сохраните модель в папке модели в корневом каталоге.

Во время обучения вы можете начать раннюю остановку с указания параметра терпения. Когда терпение = n, если n последовательные эпохи, потеря модели на наборе проверки не уменьшается, то ранняя остановка и обучение останавливается. Когда терпение = 0, ранняя остановка не выполняется.

Ранняя остановка отключается по умолчанию в коде, потому что на практике эффект генерации модели, полученной ранней остановкой, может быть не лучше.

 python train.py --epochs 40 --batch_size 8 --device 0,1 --train_path data/train.pkl

Для получения дополнительной информации о параметрах обучения вы можете напрямую посмотреть на описание параметра в функции set_args () в Train.py

Взаимодействие человека с компьютером

Run interact.py, используйте обученную модель, выполните взаимодействие человека с компьютером и введите Ctrl+z, чтобы закончить разговор, запись чата будет сохранена в файле sample.txt в каталоге Sample.

 python interact.py --no_cuda --model_path path_to_your_model --max_history_len 3(由于闲聊对话生成的内容长度不是很长，因此生成部分在CPU上跑速度也挺快的)

При выполнении interact.py вы можете попытаться настроить сгенерированный эффект, настраивая параметры, такие как Topk, topp, repetition_penalty, max_history_len и т. Д. Для получения дополнительных параметров вы можете напрямую посмотреть на описание параметра в функции set_args () interact.py. Если вы хотите использовать GPU для генерации, не вызовите параметр - -NO_CUDA и используйте -Device GPU_ID, чтобы указать, какой GPU использовать.

Чат корпус обмен

Китайские материалы чата	Адрес набора данных	Корпус описание
Общие китайские чаты	Китайский_чатбот_Корпус	Включая Xiaohuang Chicken Corpus, Douban Corpus, Диалог -сериал, корпус Tieba Forum Reply Corpus, Weibo Corpus, PTT Gossip Corpus, Qingyun Corpus и т. Д.
50 Вт Китайские чаты материалы	Baidu NetDisk [Код извлечения: 4G5E] или Google Drive	Содержит исходные данные и предварительно обработанные данные с многоуровневым диалогом 50 Вт.
100 Вт материалы для чата китайского чата	Baidu NetDisk [Код извлечения: S908] или Google Drive	Содержит оригинальные корпус и предварительно обработанные данные с многоуровневым диалогом 100 Вт.

Содержание китайского чата -корпуса заключается в следующем:

谢谢你所做的一切
你开心就好
开心
嗯因为你的心里只有学习
某某某，还有你
这个某某某用的好

你们宿舍都是这么厉害的人吗
眼睛特别搞笑这土也不好捏但就是觉得挺可爱
特别可爱啊

今天好点了吗？
一天比一天严重
吃药不管用，去打一针。别拖着

Совместное использование модели

Модель	Общий адрес	Описание модели
MODEL_EPOCH40_50W	Baidu netdisk [код извлечения: ju6m] или Google Drive	40 эпох обучали с использованием мульти-раундового корпуса 50 Вт, и потеря была уменьшена примерно до 2,0.

Подписывайтесь на нас

Генерировать образец

Образец 1:

  user :你好啊
chatbot:你好，请问您是？
  user :我是你的主人啊 
chatbot:你是狗吗？
  user :你才是狗
chatbot:你不是狗我是你的小主人
  user :你这个大笨蛋
chatbot:你大笨蛋，你是想挨打了
  user :你全家都是大笨蛋
chatbot:我是你爸爸
  user :算了，不跟你吵了，你在干嘛呢
chatbot:我在上班啊，你还没下班呢啊你
  user :我周末要做作业啊
chatbot:不是才交了吗，早晚做完啊
  user :好多作业啊，还没做完呢
chatbot:我在抄，我妈让我周五交，还有事
  user :你就不怕被你妈妈骂吗
chatbot:不怕
  user :你周末有去哪里玩吗
chatbot:没时间啊，忙得很啊
  user :忙着干嘛呢
chatbot:不知道啊，我周末没有作业，我想睡觉，然后还得找人

Образец 2:

  user :你好啊
chatbot:你好我好大家好
  user :你在干嘛呢
chatbot:你不上课啊
  user :今天是周末啊，笨蛋
chatbot:我在学校呢
  user :我也是，周末还要做作业
chatbot:我还没写呢我们都还没写
  user :周末你有去哪里玩吗
chatbot:没有去南京
  user :南京有什么好玩的啊
chatbot:我们没去南京
  user :你刚刚又说你去了南京，你是不是耍我啊
chatbot:我刚刚才到南京
  user :你好笨啊
chatbot:我没有
  user :你是大笨蛋
chatbot:你才是大笨蛋
  user :你全家都是大笨蛋
chatbot:你个傻冒
  user :你个智障
chatbot:哈哈哈

Образец 3:

  user :在干嘛
chatbot:睡觉
  user :这么早就睡觉啦
chatbot:嗯啊你也早点睡啊
  user :我再玩一会儿手机
chatbot:早点休息晚安
  user :拜拜啦
chatbot:晚安晚安
  user :多喝热水
chatbot:哈哈哈
  user :多喝热水
chatbot:好的咯

Образец 4:

  user :在吗
chatbot:在
  user :我不开心
chatbot:怎么啦
  user :最近好累啊
chatbot:是挺累的
  user :作业好多啊
chatbot:还好还好
  user :我觉得我快要挂科了
chatbot:我也是啊，但是我觉得我快熬出头了
  user :不说了，我还有好多作业没写
chatbot:我也是啊好多啊
  user :那先这样，下次再聊，再见了
chatbot:好哒

Образец 5:

  user :你去过广州吗
chatbot:去过呀，但是没有找到工作呢
  user :那你去过北京吗
chatbot:没有啊
  user :北京有什么好玩的
chatbot:没有你想象的那么好
  user :是吗，我还没过北京
chatbot:那里我也不怎么熟，我去过北京
  user :北京天安门呢
chatbot:没去过，不过可以去玩玩

Образец 6:

  user :你好
chatbot:你好
  user :在干嘛呢
chatbot:在想你呢
  user :好害羞啊
chatbot:害羞什么啊
  user :你这样夸我，我觉得不好意思呀
chatbot:我夸你你还不好意思呢
  user :是啊，哈哈哈
chatbot:你是不是在考验我
  user :你怎么会这样想呢
chatbot:我说我在夸你，这么客气，
  user :你有睡午觉吗
chatbot:有啊
  user :我现在有点困呢
chatbot:我也是
  user :等下还要去上课，好烦啊
chatbot:我们不用上课的呀

Тодо

Проблема дисбаланса нагрузки при параллельном обучении нескольких карт

Ссылка

Любопытный случай дегенерации нервного текста
Трансформеры
GPT2-Chinese
Dialogpt: крупномасштабное генеративное предварительное обучение для генерации разговоров

Расширять