Awesome-Text/Visual-Inruction-Tuning-Datenet
Eine Sammlung von Open-Source-Anweisungsdatensätzen zum Zug (Text und multi-modal) Chat-basierte LLMs (GPT-4, Chatgpt, LLAMA, Alpaka). Wir enthalten derzeit drei Arten von Datensatz:
- Visualinstruktionsabstimmung (z. B. Bildinstruktion-Antworten)
- Datensätze für Textverbindungen.
- Rotteaming | Verstärkungslernen aus Datensätzen des menschlichen Feedbacks (RLHF)
Das Lernen von Anweisungen / Verstärkung aus dem Datensatz von Human Feedback (RLHF) ist eine Schlüsselkomponente von LLMs wie ChatGPT. Dieses Repo ist bestrebt, eine umfassende Liste von Datensätzen zur Verfügung zu stellen, die für die Anweisungen in verschiedenen LLMs verwendet werden, um Forschern und Entwicklern einfacher, auf diese Ressourcen zuzugreifen und zu nutzen.
Listen von Codebse, um Ihre LLMs zu trainieren:
- NICKTDAX/Awesome-Totally-Open-Chatgpt: Eine Codebasis von völlig offenen Alternativen zu Chatgpt
Größe: Die Anzahl der Anweisungs -Tuning -Paare
Linguale Tags:
- EN: Anweisungsdatensätze in Englisch
- CN: Anweisungsdatensätze auf Chinesisch
- ML: [Multi-Lingual] Anweisungsdatensätze in mehreren Sprachen
Aufgabenmarke:
- MT: [Multi-Task] -Datensätze mit mehreren Aufgaben
- TS: [aufgabenspezifische] Datensätze, die auf bestimmte Aufgaben zugeschnitten sind
Generation-Methode:
- HG: [Human generierte Datensatz] Datensätze, die von Menschen erstellt wurden
- SI: [Self-Construct] -Datensätze, die mit Self-Struktur-Methoden generiert wurden
- Mix: [gemischter Datensatz] Dataset enthält sowohl menschliche als auch maschinell generierte Daten
- Col: [Sammlung des Datensatzes] Datensatz aus einer Sammlung anderer Datensätze hergestellt
Inhaltsverzeichnis
- Die Vorlage
- Der multimodale Anweisungsdatensatz
- (Vision-Cair/Minigpt-4) | 5k | en | mt | mix
- (haotian-liu/llava) | 150k | en | mt | mix
- Der Anweisungs -Tuning -Datensatz
- (Tatsu-Lab/Alpaka) | 52K | en | Mt | Si
- (Gururise/gereinigtes Alpaka) | 52K | en | mt | Si
- (XUEFUZHAO/DISTORDWILD) | 52K | EN | CN | MT | SI
- (Josephuscheung/Guanacodataset) | 534K | Ml | Mt | Si
- (Hallo-Simpleai/HC3) | 24K | en | Mt | Mix
- (Hallo-Simpleai/HC3-Chinese) | 13K | Cn | Mt | Mix
- (Allenai/Prosocial-Dialog) | 58K | en | Mt | Mix
- (Allenai/Naturalentructions) | 1,6K | Ml | Mt | Hg
- (BigScience/xp3) | n/a | ml | mt | mix
- (nomic-ai/gpt4all) | 437k | en | Mt | col
- (Phoebussi/Alpaka-Cot) | 500K | Ml | Mt | col
- (Google-Research/Flan) | n/a | en | mt | mix
- (Thunlp/Ultrachat) | 280k | en | ts | mix
- (Cascip/Chatalpaca) | 10k | en | Mt | Mix
- (Yeungnlp/Firefly-train-1.1m) | 1100K | cn | mt | col
- (Orhonovich/Unnatural-Instructions) | 240K | en | mt | mix
- (Anweisungs-Tuning-with-gpt-4/gpt-4-llm) | 52K | en | cn | mt | si
- (Databrickslabs/Dolly) | 15K | en | Mt | Hg
- (OpenStileTant/Oast1) | 161K | Ml | Mt | Hg
- (Ryokoai/Sharegpt52K) | 90K | Ml | Mt | Si
- (Zjunlp/Mol-Instructions) | 2043K | Ml | Mt | Mix
- Verstärkungslernen aus Datensätzen des menschlichen Feedbacks (RLHF)
- (Anthropisch/hh-rlhf) | 22k | en | mt | mix
- (THU-COAI/SICHERHEITSPROMPTEN) | 100K | CN | MT | MIX
- (HuggingfaceH4/Stack-Exchange-Präferenzen) | 10741K | en | ts | hg
- (Stanfordnlp/shp) | 385K | en | Mt | Hg
- (Anweisungs-Tuning-with-gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Lizenz, die den kommerziellen Gebrauch ermöglicht
Die Vorlage
Gehen Sie das neue Projekt am Ende der Datei an
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Die multimodalen Anweisungsdatensätze
(Vision-Cair/Minigpt-4) | 5k | en | mt | mix
- Zusammenfassung: Ein hochwertiger, gut ausgerichteter (z. B. detaillierterer Bilddesacher) Bild-Text-Datensatz, der mit einer Konversation zwischen zwei Bots erstellt wurde, ähnlich wie ChatCaptioner. Dieser Bild-Text-Datensatz kann dann mit einer vordefinierten Befehlsvorlage für die Bilde-Instruktion-Antworten-Finetuning verwendet werden.
- Modalität: Text, Bild
- Datenerzeugungsmodell: N/A
- Papier: MiniGPT-4: Verbesserung des Verständnisses der Visionsprachen mit fortgeschrittenen Großsprachenmodellen
- Lizenz:
BSD 3-Clause - Verwandt:
- Interaktiver ChatCaptioner für Bild und Video
(haotian-liu/llava) | 150k | en | mt | mix
- Zusammenfassung: LLAVA Visual Instruct 150K ist ein Satz von GPT-generierten multimodalen Anweisungsdaten. Es ist für die visuelle Unterrichtsabstimmung und für den Aufbau großer multimodaler GPT-4-Seh-/Sprachfähigkeit konstruiert.
- Modalität: Text, Bild
- Datenerzeugungsmodell:
GPT-4-0314 - Papier: Visuelle Anweisungsstimmung
- Lizenz:
CC BY-NC 4.0
[({Sunrainyg}/{Instructcv) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Zusammenfassung: Diffusionsmodelle für unterrichtungseingestaltete Text-zu-Im-Im-Im-Im-Im-Im-Im-Image
- Modalität: Text, Bild
- Papier: InstructCV
- Lizenz:
CC BY-NC 4.0
Die Anweisungsdatensätze
(Tatsu-Lab/Alpaka) | 52K | en | Mt | Si
- Zusammenfassung:
52K -Daten, die aus einer modifizierten self-instruct mit human geschriebener 175 seed task erzeugt wurden. - Datenerzeugungsmodell:
text-davinci-003 - Papier: Alpaca-Blog
- Lizenz:
CC BY-NC 4.0
(Gururise/gereinigtes Alpaka) | 52K | en | mt | Si
- Zusammenfassung: Ein Projekt, das den Alpaca 52K -Datensatz manuell reinigte
- Datenerzeugungsmodell:
text-davinci-003 - Papier: n/a
- Lizenz:
CC BY-NC 4.0
(XUEFUZHAO/DISTORDWILD) | 52K | EN | CN | MT | SI
- Zusammenfassung:
52K -Daten, die aus einer modifizierten self-instruct mit humanem schriftlichen 429 seed task erzeugt wurden. - Datenerzeugungsmodell:
text-davinci-003 - Papier: n/a
- Lizenz: Der Datensatz für Anweisungen ist nur für nichtkommerzielle Forschungszwecke vorgesehen.
(Josephuscheung/Guanacodataset) | 534K | Ml | Mt | Si
- Zusammenfassung:
52K Anweisungsdaten, die aus einer modifizierten self-instruct mit humanem schriftlichen 429 seed task erzeugt wurden. - Datenerzeugungsmodell:
text-davinci-003 - Lizenz:
GPL-3.0
(Hallo-Simpleai/HC3) | 24K | en | Mt | Mix
- Zusammenfassung: Der erste Human-ChatGPT-Vergleichskorpus (englische Version) namens HC3-Datensatz
- Datenerzeugungsmodell:
gpt-3.5 , human generated - Papier: Wie nahe ist Chatgpt an menschliche Experten? Vergleichskorpus, Bewertung und Erkennung
- Lizenz:
CC BY-SA 4.0
(Hallo-Simpleai/HC3-Chinese) | 13K | Cn | Mt | Mix
- Zusammenfassung: Der erste Human-Chatgpt-Vergleichskorpus (chinesische Version), den HC3-Datensatz namens
- Datenerzeugungsmodell:
gpt-3.5 , human generated - Papier: Wie nahe ist Chatgpt an menschliche Experten? Vergleichskorpus, Bewertung und Erkennung
- Lizenz:
CC BY-SA 4.0
(Allenai/Prosocial-Dialog) | 58K | en | Mt | Mix
- Zusammenfassung: ProSocialdialog ist der erste groß angelegte, vielfältige englische Dialog-Datensatz, der Konversationsagenten unterrichtet, um auf problematische Inhalte nach sozialen Normen zu reagieren.
- Datenerzeugungsmodell:
gpt-3.5 , human generated - Papier: Prosocialdialog: Ein prosoziales Rückgrat für Konversationsmittel
- Lizenz:
CC BY 4.0
(Allenai/Naturalentructions) | 1,6K | Ml | Mt | Hg
- Zusammenfassung: Eine Gemeinschaftsanstrengung, um eine große Sammlung von
1,616 diverse NLP tasks und ihren natürlichen Sprachdefinitionen/-anweisungen zu erstellen. - Datenerzeugungsmodell:
Human generated - Papier: Super-naturalinstructions: Verallgemeinerung durch deklarative Anweisungen zu über 1600 NLP-Aufgaben
- Lizenz:
Apache License 2.0
(BigScience/xp3) | n/a | ml | mt | mix
- Zusammenfassung: [prompt-ressource] xp3 (Kreuzlingspool von Eingabeaufforderungen) ist eine Sammlung von Eingabeaufforderungen und Datensätzen in 46 Sprachen und 16 NLP-Aufgaben.
- Datenerzeugungsmodell: N/A
- Papier: Kreuzlingsverallgemeinerung durch Multitasking -Finetuning
- Lizenz:
Apache License 2.0
(Phoebussi/Alpaka-Cot) | 500K | Ml | Mt | col
- Zusammenfassung: Ein Datensatz für das Denken der Kette der Gedanken, die auf Lama und Alpaka basieren. Hinweis: Ihr Repository sammelt und kombiniert kontinuierliche Datensätze für Anweisungen. Github Repo
- Papier: n/a
- Lizenz:
Apache License 2.0
(nomic-ai/gpt4all) | 437k | en | Mt | col
- Zusammenfassung: GPT4ALL nutzt drei öffentlich verfügbare Datensätze: 1. Laion/OIG, 2.Pacovaldez/Stackoverflow-Questions 3. Teilmenge von BigScience/Bloomz-P3
- Datenerzeugungsmodell: N/A
- Papier: GPT4ALL: Training einen Chatbot im Assistent-Stil mit großen Datendestillation von GPT-3,5-Turbo
- Lizenz:
MIT License
(Teknium1/gpteigner) | 20k+| en | Mt | Si
- Zusammenfassung: Eine Sammlung modularer Datensätze, die von GPT-4, General-Incroct-Roleplay-Instruct-Code-Incroct-und Toolformer generiert wurden-und Toolformer
- Datenerzeugungsmodell:
GPT-4 - Papier: n/a
- Lizenz:
MIT License
(Google-Research/Flan) | n/a | en | mt | mix
- Zusammenfassung: Die Flan Collection erstellt Datensätze aus Flan 2021, P3, übernatürliche Anweisungen sowie Dutzende weitere Datensätze an einem Ort, formatieren sie zu einer Mischung aus Null-Schotten, wenigen Schleifen und den Gedanken-Ketten-Vorlagen.
- Datenerzeugungsmodell: N/A
- Papier: Die Flan -Sammlung: Entwerfen von Daten und Methoden für eine effektive Anweisungsstimmung
- Lizenz:
Apache License 2.0
(Thunlp/Ultrachat) | 280k | en | ts | mix
- Zusammenfassung: Ultrachat zielt darauf ab, eine Open-Source-Dialogdaten für Groß-, Groß- und Mehrrund-Dialog zu erstellen. Der erste Teil von Ultrachat (dh die Fragen zum Weltsektor) wird veröffentlicht, die 280.000 vielfältige und informative Dialoge enthält. Weitere Dialoge über Schreiben und Schöpfung, die Unterstützung vorhandenen Materialien werden kommen.
- Datenerzeugungsmodell:
GPT-3.5-turbo - Papier: n/a
- Lizenz:
CC BY-NC 4.0
(Cascip/Chatalpaca) | 10k | en | Mt | Mix
- Zusammenfassung: Basierend auf den Stanford Alpaca-Daten erweitert Chatalpaca die Daten auf Multiturn-Anweisungen und deren entsprechende Antworten. Weitere Daten (20K) und die chinesische übersetzte Version werden kommen.
- Datenerzeugungsmodell:
GPT-3.5-turbo - Papier: n/a
- Lizenz:
Apache License 2.0 - Verwandte: (Tatsu-Lab/Alpaka) | 52K | en | Mt | Si
(Yeungnlp/Firefly-train-1.1m) | 1100K | cn | mt | col
- Zusammenfassung: Chinesische Datensätze von 23 Aufgaben in Kombination mit von Menschen geschriebenen Anweisungsvorlagen.
- Datenerzeugungsmodell: N/A
- Papier: n/a
- Lizenz: n/a
(Orhonovich/Unnatural-Instructions) | 240K | en | mt | mix
- Zusammenfassung: 64K -Beispiele, indem ein Sprachmodell mit drei Samenbeispielen für Anweisungen aufgefordert und ein viertes ausgelöst wird. Dann wird der Satz auf 240k erweitert, indem das Modell aufgefordert wird, jede Anweisung neu zu formulieren.
- Datenerzeugungsmodell:
text-davinci-002 - Papier: Unnatürliche Anweisungen: Stimmen von Sprachmodellen mit (fast) ohne menschliche Arbeit abstellen
- Lizenz:
MIT License
(Anweisungs-Tuning-with-gpt-4/gpt-4-llm) | 52K | en | cn | mt | si
- Zusammenfassung: 52K-Befehlsverfolgung von Daten, die von GPT-4 mit den ursprünglichen Alpaca-Eingabeaufforderungen und -Anessenten generiert wurden, übersetzt mit Chatgpt + 9K-Anweisungen, die von GPT-4 generiert wurden, mit Eingabeaufforderungen in unnatürlicher Anweisung.
- Datenerzeugungsmodell:
GPT-4 - Papier: Anweisung Tuning mit GPT-4
- Lizenz:
CC BY-NC 4.0 - Verwandt:
- (Tatsu-Lab/Alpaka) | 52K | en | Mt | Si
- (Orhonovich/Unnatural-Instructions) | 240K | en | mt | mix
(Databrickslabs/Dolly) | 15K | en | Mt | Hg
- Zusammenfassung: Dieser Datenset wurde von Tausenden von Datenbankmitarbeitern in mehreren der in der InstructGPT -Papier beschriebenen Verhaltenskategorien generiert, einschließlich Brainstorming, Klassifizierung, geschlossener QA, Erzeugung, Informationsextraktion, offener QA und Zusammenfassung.
- Datenerzeugungsmodell: N/A
- Papier: Kostenloser Dolly
- Lizenz:
CC BY-SA 3.0
(OpenStileTant/Oast1) | 161K | Ml | Mt | Hg
- Zusammenfassung: Openssistant Conversations (OASST1), ein von Menschen erzeugter, von Menschen erbautes Konversationskorpus im Assistenten im Stil, das aus 161.443 Botschaften besteht, die über 66.497 Konversationsbäume verteilt sind, in 35 verschiedenen Sprachen, die mit 461.292 Qualitätsbewertungen kommuniziert wurden.
- Datenerzeugungsmodell: N/A
- Papier: Openssistant Conversations - Demokratisierung der Ausrichtung des Großsprachenmodells
- Lizenz:
Apache License 2.0
(Ryokoai/Sharegpt52K) | 90K | Ml | Mt | Si
- Zusammenfassung: 90.000 Gespräche über die Sharegpt -API, bevor sie geschlossen wurde. Diese Gespräche umfassen sowohl Benutzeraufforderungen als auch Antworten aus OpenAIs Chatgpt.
- Datenerzeugungsmodell:
GPT-4 , GPT-3.5 - Papier: n/a
- Lizenz:
CC0 1.0 Universal
(Zjunlp/Mol-Instructions) | 2043K | Ml | Mt | Mix
- Zusammenfassung: Ein offener, groß angelegter biomolekularer Befehlsdatensatz, der aus 148,4K-molekülorientierten, 505K-Protein-orientierten und 53K biomolekularen Textanweisungen besteht.
- Datenerzeugungsmodell:
GPT-3.5 - Papier: Mol-Instruktionen: Ein groß an
- Lizenz:
CC BY 4.0
Verstärkungslernen aus menschlichem Feedback (RLHF) | Datensätze mit Rotteaming
(Anthropisch/hh-rlhf) | 22k | en | mt | mix
- Zusammenfassung: Dieser RLHF -Datensatz ist ein iteratter "Online -Datensatz", der Daten aus 52B -Sprachmodellen enthält. Es enthält 22-km-Hilfsfunktionsvergleiche und keine Red-Team-Daten.
- Datenerzeugungsmodell:
Anthropic RL-CAI 52B - Papier: Training eines hilfsbereiten und harmlosen Assistenten mit Verstärkungslernen aus menschlichem Feedback
- Lizenz:
MIT License - Verwandt:
- (Hallo-Simpleai/HC3) | 24K | en | Mt | Mix
- (Hallo-Simpleai/HC3-Chinese) | 13K | Cn | Mt | Mix
(THU-COAI/SICHERHEITSPROMPTEN) | 100K | CN | MT | MIX
- Zusammenfassung: Chinesische Sicherheitsaufforderungen zur Bewertung und Verbesserung der Sicherheit von LLMs. Dieses Repository enthält 100K chinesische Sicherheitsszene und ChatGPT -Antworten, die verschiedene Sicherheitsszenarien und Befehlsangriffe abdecken. Es kann zur umfassenden Bewertung und Verbesserung der Modellsicherheit verwendet werden und das Wissen des Modells über die Sicherheit des Modells verbessern und die Modellausgabe auf menschliche Werte ausrichten.
- Datenerzeugungsmodell:
GPT-3.5 - Papier: Sicherheitsbewertung chinesischer Großsprachenmodelle
- Lizenz:
Apache License 2.0
(HuggingfaceH4/Stack-Exchange-Präferenzen) | 10741K | en | ts | hg
- Zusammenfassung: Dieser Datensatz enthält Fragen und Antworten aus dem Stack Overflow Data Dump zum Zweck des Präferenzmodelltrainings.
- Datenerzeugungsmodell: N/A
- Papier: Ein allgemeiner Sprachassistent als Labor für die Ausrichtung
- Lizenz:
CC BY-SA 4.0 - Verwandt:
(Stanfordnlp/shp) | 385K | en | Mt | Hg
- Zusammenfassung: Jedes Beispiel ist ein Reddit-Beitrag mit einer Frage/Anweisung und einem Paar von Top-Level-Kommentaren zu diesem Beitrag, bei dem ein Kommentar (zusammen) von Reddit-Benutzern eher bevorzugt wird.
- Datenerzeugungsmodell: N/A
- Papier: n/a
- Lizenz: n/a
(Anweisungs-Tuning-with-gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Zusammenfassung: Rangleichter Antworten (Hinweis: Die Daten werden vom
GPT-4 Modell nicht menschlich bewertet) von Alpaca-Eingabeaufforderungen aus drei Modellen (GPT-4, GPT-3.5 und OPT-IML), indem GPT-4 gefragt wird, um die Qualität zu bewerten. Der Autor ist der Ansicht, dass "GPT-4 seine eigenen Fehler identifizieren und beheben kann und die Qualität der Antworten genau beurteilt". - Datenerzeugungsmodell:
GPT-4 - Papier: Anweisung Tuning mit GPT-4
- Lizenz:
CC BY-NC 4.0 - Verwandt:
- (Tatsu-Lab/Alpaka) | 52K | en | Mt | Si
(Reddit/eli5) | 500k | en | mt | hg
- Zusammenfassung: Dieser Datensatz enthält Fragen und Antworten aus den Subreddits r/erklären likeImfive, R/Askhistorians und R/Asscescience.
- Datenerzeugungsmodell: N/A
- Papier: n/a
- Lizenz: n/a
- Verwandte: ELI5-Datensatz Eine Transformation des ELI5-Datensatzes in einem Format ähnlich wie Stack-Exchange-Paired.
Lizenz, die den kommerziellen Gebrauch ermöglicht
Hinweis: Während diese Lizenzen die kommerzielle Nutzung erlauben, können sie unterschiedliche Anforderungen an die Zuordnung, Verteilung oder Änderung haben. Überprüfen Sie unbedingt die spezifischen Bedingungen jeder Lizenz, bevor Sie sie in einem kommerziellen Projekt verwenden.
Lizenzen für kommerzielle Nutzung:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0