Все любят CHATGPT, но только несколько крупных технологических компаний или лабораторий имеют возможность обучать такие модели. Недавно в сообществе с открытым исходным кодом был популярен самозапрошенное подход: создать наборы данных инструкции через инструкт/CHATGPT, а затем настраивать мелкие LLMS (например, Llama 7B), что также может достичь «сопоставимого с» CHATGPT. Одна из типичных рабочих мест - Стэнфордская Альпака.
В настоящее время очень мало наборов данных с открытым исходным кодом и в основном на английском языке. Единственные несколько китайских наборов данных инструкций также переводятся в английских наборах данных. Тем не менее, учитывая сильный спрос каждого в CHATGPT, мы считаем, что в будущем все больше и более крупномасштабные наборы данных о китайских инструкциях будут появляться в будущем.
Этот проект направлен на то, чтобы собрать китайские наборы данных инструкций, чтобы каждый мог более удобно настраивать китайские LLMS.
| Набор данных | Размер | Описание | Источник |
|---|---|---|---|
| Набор данных гуанако | 27808 | Набор данных многоязычного инструкции, шкала будет обновлен до 92530 | Гуанако |
| alpaca_chinese_dataset | Обновление | Машинный перевод + ручная проверка набора данных Alpaca и дополнение некоторых данных диалога | Стэнфорд Альпака |
| Альпака-Кинязе-Датазет | 20465 | Машинный перевод набора данных альпаки | Стэнфорд Альпака |
| Китайская Альпака-Лора | Обновление | Набор данных Alpaca транслируется машиной. Модель перевода является GPT-3.5-Turbo, и в будущем она будет объединена с набором данных Guanaco. | Стэнфорд Альпака |
| GPT-4-LLM | 52к | Propt набора данных Alpaca переводится с использованием CHATGPT, а затем реакция китайского получается с использованием GPT-4. | Стэнфорд Альпака |
| Bellegroup/train_0.5m_cn | 0,5 м | Приглашение китайского семян, созданное автором, используя Text-Davinci-003 для получения ответа | Белль |
| Bellegroup/train_1m_cn | 1 м | Китайский пропт семян такой же, как и выше. Ответ получается с использованием Text-Davinci-003. По сравнению с набором данных 0,5 м, автор очистил данные: были удалены некоторые низкокачественные данные, такие как данные, которые, как утверждают, являются GPT模型, данные, на которые модель не может ответить из-за неполного ввода, и данные, инструкции которых являются китайскими, но входными или целевыми являются английскими. | Белль |
| Bellegroup/School_math_0.25m | 0,25 м | Китайские данные по математической задаче, включая процесс решения проблем, сгенерированные CATGPT | Белль |
| Bellegroup/MultItRurn_chat_0.8m | 0,8 м | Несколько раундов разговоров между пользователями и помощниками, сгенерированные CATGPT | Белль |
| Bellegroup/Generated_chat_0.4m | 0,4м | Персонализированные данные диалога, включая введение роли, сгенерированные CATGPT | Белль |
| Bellegroup/train_2m_cn | 2м | Данные о китайских инструкциях, сгенерированные CATGPT | Белль |