Awesome-Text/Visual-Instruction-Tuning-Dataset
Коллекция настройки настройки инструкций с открытым исходным кодом для обучения (текстовые и мультимодальные) LLMS на основе чата (GPT-4, CHATGPT, Llama, Alpaca). В настоящее время мы включаем три типа набора данных:
- Настройка визуальной инстроумы (например, с изображением-инструментацией-ответом)
- Наборы данных настройки текста.
- красная команда | Подкрепление обучения наборе данных от обратной связи с человеком (RLHF)
Настройка инструкций / подкрепление обучения из набора данных обратной связи с человеком (RLHF) является ключевым компонентом LLM, посвященных инструкциям, таким как CHATGPT. Этот репо направлен на предоставление комплексного списка наборов данных, используемых для настройки инструкций в различных LLMS, что облегчает исследователям и разработчикам доступ и использование этих ресурсов.
Списки CodeBse для обучения ваших LLMS:
- Nichtdax/Awesome-totally-open-chatgpt: кодовая база совершенно открытых альтернатив Catgpt
Размер: количество пар настройки инструкций
Лингвальные теги:
- EN: наборы данных инструкции на английском языке
- CN: наборы данных инструкции на китайском языке
- ML: [многоязычные] наборы данных инструкций на нескольких языках
Задача:
- MT: [Multi-Task] Наборы данных, содержащих несколько задач
- TS: [Задача, специфичные] наборы данных, адаптированные для конкретных задач
Поколение-метод:
- HG: [Набор данных сгенерированного человека], созданные людьми
- SI: [Самоубийца] Наборы данных, генерируемых с использованием методов самостоятельной конструкции
- Микс: [смешанный набор данных] Набор данных содержит как человеческие, так и машинные данные
- COL: [Сбор данных набора данных] Набор данных, изготовленный из коллекции других наборов данных
Оглавление
- Шаблон
- Многомодальный набор данных инструкции
- (Vision-cair/minigpt-4) | 5k | en | mt | mix
- (Haotian-liu/llava) | 150k | en | mt | mix
- Набор данных настройки инструкций
- (tatsu-lab/alpaca) | 52k | en | mt | si
- (Гуруриз/Очищенный Альпака) | 52K | en | mt | si
- (Xuefuzhao/trancewild) | 52k | en | cn | mt | si
- (Josephuscheung/Guanacodataset) | 534K | Ml | Mt | Si
- (Hello-simpleai/hc3) | 24K | en | mt | Mix
- (Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | MIX
- (Allenai/Prosocial-Dialog) | 58k | en | mt | Mix
- (Allenai/Natural-Instructions) | 1.6K | Ml | Mt | Hg
- (BigScience/XP3) | N/A | ML | MT | MIX
- (Nomic-AI/GPT4ALL) | 437K | EN | MT | Col
- (Phoebussi/Alpaca-Cot) | 500K | Ml | Mt | Col
- (Google-research/flan) | n/a | en | mt | mix
- (thunlp/ultrachat) | 280k | en | ts | mix
- (cascip/chatalpaca) | 10k | en | mt | mix
- (Yeungnlp/Firefly-Train-1.1m) | 1100K | CN | Mt | Col
- (Orhonovich/неестественные введения) | 240k | en | mt | mix
- (Настройка инструкции с gpt-4/gpt-4-llm) | 52k | en | cn | mt | si
- (DataBrickSlabs/Dolly) | 15K | EN | MT | HG
- (OpenAssistant/OASST1) | 161K | ML | MT | HG
- (Ryokoai/sharegpt52k) | 90k | ml | mt | si
- (zjunlp/моль-инструктор) | 2043k | Ml | Mt | Mix
- Подкрепление обучения наборе данных от обратной связи с человеком (RLHF)
- (Антропический/hh-rlhf) | 22k | en | mt | mix
- (Thu-Coai/Safety-Prompts) | 100K | CN | MT | MIX
- (HuggingFaceh4/Stack-Exchange-Preferences) | 10741K | en | ts | Hg
- (stanfordnlp/shp) | 385k | en | mt | hg
- (Настройка инструкции с gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Лицензия, которая позволяет коммерческо использовать
Шаблон
Добавить новый проект в конце файла
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Наборы данных многомодальных инструкций
(Vision-cair/minigpt-4) | 5k | en | mt | mix
- Резюме: высококачественный, хорошо выравниваемый (например, более подробный набор данных изображения), созданный с использованием разговора между двумя ботами, аналогично чашкопции. Этот набор данных с изображением текста может затем использоваться с некоторым предопределенным шаблоном инструкции для создания изображений-ввода.
- Модальность: текст, изображение
- Модель генерации данных: N/A
- Бумага: Minigpt-4: улучшение понимания зрений с помощью расширенных крупных языковых моделей
- Лицензия:
BSD 3-Clause - Связанный:
- Interactive Chatcaptioner для изображения и видео
(Haotian-liu/llava) | 150k | en | mt | mix
- Резюме: Llava Visual Instruct 150K представляет собой набор данных, сгенерированных GPT, последовавших за инструкциями. Он построен для настройки визуальных инструкций и для построения больших мультимодальных для GPT-4 Vision/языковых возможностей.
- Модальность: текст, изображение
- Модель генерации данных:
GPT-4-0314 - Бумага: настройка визуальной инструкции
- Лицензия:
CC BY-NC 4.0
[({sunrainyg}/{instructcv) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Резюме: модели диффузии с настройкой текста до изображения в качестве обобщенных зрений
- Модальность: текст, изображение
- Бумага: инструкт
- Лицензия:
CC BY-NC 4.0
Наборы данных, посвященных инструкциям
(tatsu-lab/alpaca) | 52k | en | mt | si
- Резюме:
52K Данные, полученные из модифицированного трубопровода self-instruct с написанным человеком 175 seed task . - Модель генерации данных:
text-davinci-003 - Бумага: альпака-блог
- Лицензия:
CC BY-NC 4.0
(Гуруриз/Очищенный Альпака) | 52K | en | mt | si
- Резюме: проект, который вручную очистил набор данных Alpaca 52K
- Модель генерации данных:
text-davinci-003 - Бумага: N/A.
- Лицензия:
CC BY-NC 4.0
(Xuefuzhao/trancewild) | 52k | en | cn | mt | si
- Резюме:
52K Данные, полученные из модифицированного трубопровода self-instruct с надписью человека 429 seed task . - Модель генерации данных:
text-davinci-003 - Бумага: N/A.
- Лицензия: набор данных инструктов предназначен только для некоммерческих целей исследований.
(Josephuscheung/Guanacodataset) | 534K | Ml | Mt | Si
- Резюме:
52K Данные инструкции, сгенерированные из модифицированной конструкции self-instruct с написанным человеком 429 seed task . - Модель генерации данных:
text-davinci-003 - Лицензия:
GPL-3.0
(Hello-simpleai/hc3) | 24K | en | mt | Mix
- Резюме: первый Compus Compus Compus (английская версия), названный набор данных HC3
- Модель генерации данных:
gpt-3.5 , human generated - Бумага: Насколько близко чатгпт к человеческим экспертам? Сравнение корпус, оценка и обнаружение
- Лицензия:
CC BY-SA 4.0
(Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | MIX
- Резюме: первый Compus Compus Compus (китайская версия), названный набор данных HC3
- Модель генерации данных:
gpt-3.5 , human generated - Бумага: Насколько близко чатгпт к человеческим экспертам? Сравнение корпус, оценка и обнаружение
- Лицензия:
CC BY-SA 4.0
(Allenai/Prosocial-Dialog) | 58k | en | mt | Mix
- Резюме: Prosocialdialog-первый крупномасштабный набор данных английского диалога многофункционального диалога, который обучает агентов разговоров для реагирования на проблемный контент после социальных норм.
- Модель генерации данных:
gpt-3.5 , human generated - Бумага: Просоциалдиалог: просоциальная основа для разговорных агентов
- Лицензия:
CC BY 4.0
(Allenai/Natural-Instructions) | 1.6K | Ml | Mt | Hg
- Резюме: усилия сообщества по созданию большой коллекции из
1,616 diverse NLP tasks и их естественного языка определения/инструкции. - Модель генерации данных:
Human generated - Бумага: Super-NaturalInstructions: обобщение с помощью декларативных инструкций по заданиям NLP 1600+
- Лицензия:
Apache License 2.0
(BigScience/XP3) | N/A | ML | MT | MIX
- Резюме: [romplet-resource] XP3 (Crosslingual Public Pool of Drecpts)-это набор подсказок и наборов данных на 46 языках и 16 задач NLP.
- Модель генерации данных: N/A
- Бумага: кросс -обобщение с помощью многозадачного искусства
- Лицензия:
Apache License 2.0
(Phoebussi/Alpaca-Cot) | 500K | Ml | Mt | Col
- Резюме: Datset для рассуждения о цепочке, основанных на ламе и альпаке. Примечание. Их хранилище будет постоянно собирать и объединять различные наборы данных настройки инструкций. GitHub Repo
- Бумага: N/A.
- Лицензия:
Apache License 2.0
(Nomic-AI/GPT4ALL) | 437K | EN | MT | Col
- Резюме: GPT4ALL использует три общедоступных набора данных: 1.LAION/OIG, 2.Pacovaldez/StackOverflow-Questions 3. Подмножество BigScience/Bloomz-P3
- Модель генерации данных: N/A
- Бумага: GPT4ALL: Обучение чат-бота в стиле помощника с крупномасштабной дистилляцией данных от GPT-3.5-Turbo
- Лицензия:
MIT License
(teknium1/gpteacher) | 20k+| en | mt | si
- Резюме: Сбор модульных наборов данных, сгенерированных GPT-4, General-Instruct-RolePlay-Instruct-Instruct
- Модель генерации данных:
GPT-4 - Бумага: N/A.
- Лицензия:
MIT License
(Google-research/flan) | n/a | en | mt | mix
- Резюме: Коллекция FLAN собирает наборы данных от Flan 2021, P3, супер-натуральные инструкции, а также десятки наборов данных в одном месте, форматируют их в смесь с нулевым выстрелом, небольшим выстрелом и шаблонами цепочки мыслей
- Модель генерации данных: N/A
- Бумага: Коллекция Flan: проектирование данных и методов для эффективной настройки инструкций
- Лицензия:
Apache License 2.0
(thunlp/ultrachat) | 280k | en | ts | mix
- Резюме: Ultrachat стремится построить данные диалога с открытым исходным кодом, крупномасштабного и многоуровневого диалога. Первая часть Ultrachat (т. Е. Выпущена вопросы о мировом секторе), которая содержит 280 КБ разнообразные и информативные диалоги. Больше диалогов о письме и создании, помощи в существующих материалах предстоящая.
- Модель генерации данных:
GPT-3.5-turbo - Бумага: N/A.
- Лицензия:
CC BY-NC 4.0
(cascip/chatalpaca) | 10k | en | mt | mix
- Резюме: На основании данных Стэнфордской альпаки Chatalpaca распространяется данные на многократные инструкции и их соответствующие ответы. Больше данных (20K) и переведенной китайской версии.
- Модель генерации данных:
GPT-3.5-turbo - Бумага: N/A.
- Лицензия:
Apache License 2.0 - Связанный: (tatsu-lab/alpaca) | 52k | en | mt | si
(Yeungnlp/Firefly-Train-1.1m) | 1100K | CN | Mt | Col
- Резюме: Китайские наборы данных из 23 задач в сочетании с написанными человеческими шаблонами инструкций.
- Модель генерации данных: N/A
- Бумага: N/A.
- Лицензия: n/a
(Orhonovich/неестественные введения) | 240k | en | mt | mix
- Резюме: 64K Примеры, побуждая языковую модель с тремя семенными примерами инструкций и выявляя четвертый. Затем набор расширяется до 240K, побуждая модель перефразировать каждую инструкцию.
- Модель генерации данных:
text-davinci-002 - Бумага: неестественные инструкции: модели языка настройки (почти) без человеческого труда
- Лицензия:
MIT License
(Настройка инструкции с gpt-4/gpt-4-llm) | 52k | en | cn | mt | si
- Резюме: 52K Данные, посвященные инструкциям, сгенерированные GPT-4 с оригинальными подсказками Alpaca и подсказок Alpaca, переведенных на китайский язык с помощью данных, посвященных инструкциям, сгенерированным GPT-4 с подсказками в неестественной инструкции.
- Модель генерации данных:
GPT-4 - Бумага: настройка инструкции с GPT-4
- Лицензия:
CC BY-NC 4.0 - Связанный:
- (tatsu-lab/alpaca) | 52k | en | mt | si
- (Orhonovich/неестественные введения) | 240k | en | mt | mix
(DataBrickSlabs/Dolly) | 15K | EN | MT | HG
- Резюме: Этот DATSET был сгенерирован тысячами сотрудников DataBricks в нескольких поведенческих категориях, изложенных в документе «Инструктор», включая мозговой штурм, классификацию, закрытый QA, генерация, извлечение информации, открытый QA и суммирование.
- Модель генерации данных: N/A
- Бумага: бесплатная тележка
- Лицензия:
CC BY-SA 3.0
(OpenAssistant/OASST1) | 161K | ML | MT | HG
- Резюме: открытые беседы (OASST1), генеральный человек, вызванный человеком, корпус беседы, связанный с человеком, состоящий из 161 443 сообщений, распределенных по 66 497 деревьям разговоров, на 35 различных языках, аннотированных с 461 292 оценками качества.
- Модель генерации данных: N/A
- Документ: Открытые разговоры - демократизация
- Лицензия:
Apache License 2.0
(Ryokoai/sharegpt52k) | 90k | ml | mt | si
- Резюме: 90 000 разговоров, скрещенных через API ShareGPT до того, как он был закрыт. Эти разговоры включают в себя как пользовательские подсказки, так и ответы от Openai's Chatgpt.
- Модель генерации данных:
GPT-4 , GPT-3.5 - Бумага: N/A.
- Лицензия:
CC0 1.0 Universal
(zjunlp/моль-инструктор) | 2043k | Ml | Mt | Mix
- Резюме: открытый, крупномасштабный набор данных биомолекулярной инструкции, состоящий из 148,4K-ориентированных, ориентированных на белок 505K и 53K биомолекулярных текстовых инструкций.
- Модель генерации данных:
GPT-3.5 - Бумага: Мол-произведения: крупномасштабный набор данных биомолекулярной инструкции для моделей крупных языков
- Лицензия:
CC BY 4.0
Подкрепление обучения от обратной связи человека (RLHF) | Наборы данных красного команды
(Антропический/hh-rlhf) | 22k | en | mt | mix
- Сводка: Этот набор данных RLHF представляет собой итерационный набор данных «онлайн», который включает данные из 52B -моделей. Он содержит 22K сравнений полезности и нет данных о красной команде.
- Модель генерации данных:
Anthropic RL-CAI 52B - Бумага: Обучение полезного и безвредного помощника с подкреплением обучения на человеке.
- Лицензия:
MIT License - Связанный:
- (Hello-simpleai/hc3) | 24K | en | mt | Mix
- (Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | MIX
(Thu-Coai/Safety-Prompts) | 100K | CN | MT | MIX
- Резюме: Китайские подсказки для оценки и повышения безопасности LLMS. Этот репозиторий включает в себя 100 тыс. Подсказок сцены безопасности Китая и ответы CHATGPT, охватывающие различные сценарии безопасности и командные атаки. Его можно использовать для комплексной оценки и улучшения безопасности модели, а также для повышения знаний модели в области безопасности, выравнивая выход модели с людьми.
- Модель генерации данных:
GPT-3.5 - Документ: оценка безопасности моделей на крупном языке китайцев
- Лицензия:
Apache License 2.0
(HuggingFaceh4/Stack-Exchange-Preferences) | 10741K | en | ts | Hg
- Резюме: Этот набор данных содержит вопросы и ответы из дампа данных переполнения стека с целью обучения модели предпочтения.
- Модель генерации данных: N/A
- Документ: общий помощник по языку в качестве лаборатории для выравнивания
- Лицензия:
CC BY-SA 4.0 - Связанный:
(stanfordnlp/shp) | 385k | en | mt | hg
- Резюме: Каждый пример-это пост Reddit с вопросом/инструкцией и парой комментариев верхнего уровня для этого поста, где один комментарий более предпочтительнее пользователей Reddit (совместно).
- Модель генерации данных: N/A
- Бумага: N/A.
- Лицензия: n/a
(Настройка инструкции с gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Резюме: ранжированные ответы (примечание: данные оцениваются моделью
GPT-4 а не человеком) подсказок альпаки из трех моделей (GPT-4, GPT-3.5 и OPT-IML), попросив GPT-4 оценить качество. Автор считает, что «GPT-4 способен определить и исправлять свои собственные ошибки и точно определять качество ответов» - Модель генерации данных:
GPT-4 - Бумага: настройка инструкции с GPT-4
- Лицензия:
CC BY-NC 4.0 - Связанный:
- (tatsu-lab/alpaca) | 52k | en | mt | si
(Reddit/eli5) | 500K | en | mt | hg
- Резюме: Этот набор данных содержит вопросы и ответы от Subreddits R/ExplineLikeImfive, R/Askhistorians и R/Askscience.
- Модель генерации данных: N/A
- Бумага: N/A.
- Лицензия: n/a
- Связанный: набор данных ELI5. Преобразование набора данных ELI5 в формате, аналогичном пасторе стека-обмена.
Лицензия, которая позволяет коммерческо использовать
ПРИМЕЧАНИЕ. Хотя эти лицензии разрешают коммерческое использование, они могут иметь различные требования для атрибуции, распределения или модификации. Обязательно ознакомьтесь с конкретными условиями каждой лицензии, прежде чем использовать ее в коммерческом проекте.
Коммерческие лицензии на использование:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0