Потрясающие наборы данных о человеческих предпочтениях для LLM? ❤?
Куративный список наборов данных о предпочтениях с открытым исходным кодом для настройки инструкции LLM, RLHF и оценки.
Для общих наборов данных NLP и Text Corpora, ознакомьтесь с этим удивительным списком.
Наборы данных
Openai Webgpt сравнения
- 20K сравнения, где каждый пример содержит вопрос, пару ответов на модель и оценки предпочтений по оценке человека для каждого ответа.
- Набор данных RLHF, используемый для обучения модели вознаграждения Openai Webgpt.
Открытое суммирование
- 64K Текстовые примеры примеры, включающие в себя ответы на человеку и ответы моделей с рейтингом человека.
- Набор данных RLHF, используемый в Openai, чтобы обобщить из бумаги обратной связи с человеком.
- Изучите образцы данных здесь.
Набор данных антропной полезности и безвредности (HH-RLHF)
- В общей сложности 170 тыс. Сравнение предпочтений человека, в том числе данные о предпочтениях человека, собранные для обучения полезного и безвредного помощника с подкреплением, обучением от обратной связи человека и полученных человеком красных данных команды из красных моделей команды, чтобы уменьшить вред, разделенные на 3 последствия:
- Базовый набор данных с использованием контекстной модели 52B, с сравнением с 44 тыс. Сравнения и сравнения 42K красной команды (безвредно).
- Набор данных RS из 52 тыс. Сравнения полезности и 2K-сравнения красных командных команд с использованием моделей отбора проб отказа, где выборка отклонения использовала модель предпочтения, обученную базовому набору данных.
- Итерационный онлайн -набор данных, включая данные из моделей RLHF, обновленный еженедельно в течение пяти недель, с 22 тыс. Сравнений полезности.
Набор данных OpenAssistant Convations (OASST1)
- Сгенерированный человеком, аннотированным человеком корпус беседы в стиле, состоящий из 161 тыс. Сообщений на 35 языках, аннотированный с рейтингами качества 461K, что привело к 10K+ полностью аннотированным деревьям разговоров.
Стэнфордский набор данных человеческих предпочтений (SHP)
- 385K Коллективные человеческие предпочтения по поводу ответов на вопросы/инструкции в 18 областях для обучения моделей вознаграждения RLHF и моделей оценки NLG. Наборы данных, собранные из Reddit.
Reddit eli5
- 270K Примеры вопросов, ответов и баллов, собранных из 3 Q & A Subreddits.
CHATGPT CHATGPT CORPUS (HC3)
- 60 тыс. Человеческие ответы и 27 тыс. ЧАТГПТ ОТВЕТСТВИЯ ОРУГОМ 24K.
- Набор данных брата доступен для китайцев.
Guggingface h4 stackexchange набор данных
- 10 миллионов вопросов (с> = 2 ответами) и ответов (на основе количества голосов) от Stackoverflow.
Sharegpt.com
- 90K (по состоянию на апрель 2023 г.) Пользовательские взаимодействия CHATGPT.
Чтобы получить доступ к данным с помощью API ShareGPT, см. Документацию здесь API ShareGPT в настоящее время отключен («из -за избыточного трафика»).- Предварительные наборы данных на Huggingface.
Альпака
- 52K Инструкции и демонстрации, генерируемые двигателем Text-Davinci-003 OpenAI для обучения самостоятельной конструкции .
GPT4ALL
- 1M Prompt-Hound Pars Collece с использованием GPT-3.5-Turbo API в марте 2023 года. Github Repo.
DataBricks Dolly DataSet
- Записи, последовавшие за инструкциями, сгенерированные сотрудниками DataBricks в категориях, включая мозговой штурм, классификацию, закрытый QA, генерация, извлечение информации, открытый QA и суммирование.
Hh_golden
- 42K безвредные данные, одинаковые подсказки и «отклоненные» ответы, как и безвредный набор данных в наборах данных антропических HH, но ответы в «выбранных» ответах переписываются с использованием GPT4, чтобы получить более безвредные ответы. Сравнение до и после переписывания можно найти здесь. Эмпирически, по сравнению с исходным безвредным набором данных, обучение на этом наборе данных улучшает безвредные показатели для различных методов выравнивания, таких как RLHF и DPO.