Jeder liebt Chatgpt, aber nur wenige große Technologieunternehmen oder Labors können solche Modelle trainieren. In jüngster Zeit war in der Open-Source-Community ein selbstinstruktiver Ansatz beliebt: Erstellen von Anweisungsdatensätzen über Anweisungen/Chatgpt und fein abtunigung auf kleinen LLMs (wie LLAMA 7B), die auch mit Chatgpt "vergleichbar" erreichen können. Einer der typischen Jobs ist Stanford Alpaka.
Derzeit gibt es nur sehr wenige Open -Source -Befehlsdatensätze und befinden sich hauptsächlich in Englisch. Die einzigen wenigen chinesischen Befehlsdatensätze werden auch in den englischen Datensätzen übersetzt. In Anbetracht der starken Nachfrage aller ChatGPT aller und der Ansicht, dass immer mehr groß angelegte chinesische Unterrichtsdatensätze in Zukunft erscheinen werden.
Dieses Projekt zielt darauf ab, chinesische Anweisungsdatensätze zu sammeln, damit jeder bequeme chinesische LLMs fein abstimmen kann.
| Datensatz | Größe | Beschreibung | Quelle |
|---|---|---|---|
| Guanaco -Datensatz | 27808 | Mehrsprachiger Anweisungsdatensatz, die Skala wird auf 92530 aktualisiert | Guanaco |
| ALPACA_CHINEESE_DATASET | Aktualisierung | Maschinelle Übersetzung + manuelle Überprüfung des Alpaca -Datensatzes und ergänzen einige Dialogdaten | Stanford Alpaka |
| Alpaca-Chinese-Datenet | 20465 | Maschinelle Übersetzung des Alpaka -Datensatzes | Stanford Alpaka |
| Chinesisch-Alpaka-Lora | Aktualisierung | Der Alpaka-Datensatz ist maschinell translatiert. Das Übersetzungsmodell ist GPT-3,5-Turbo und wird in Zukunft mit Guanaco-Datensatz kombiniert. | Stanford Alpaka |
| GPT-4-LlM | 52k | Der Alpaca-Datensatz-ProPT wird mit ChatGPT übersetzt und dann wird die chinesische Antwort mit GPT-4 erhalten. | Stanford Alpaka |
| Bellegroup/Train_0.5m_cn | 0,5 m | Die vom Autor erstellte chinesische Saatgut-Eingabeaufforderung mit Text-Davinci-003, um eine Antwort zu erhalten | Belle |
| Bellegroup/Train_1m_cn | 1m | Der chinesische Saatgut ist der gleiche wie oben. Die Antwort wird unter Verwendung von Text-Davinci-003 erhalten. Im Vergleich zum 0,5-m-Datensatz säuberte der Autor die Daten: Einige Daten von geringer Qualität wurden entfernt, z. B. Daten, die als GPT模型, Daten, die das Modell aufgrund unvollständiger Eingaben nicht beantworten kann, und Daten, deren Anweisungen chinesische, aber Eingabe oder Ziel sind, nicht beantworten. | Belle |
| Bellegroup/School_math_0.25m | 0,25 m | Chinesische mathematische Problemdaten, einschließlich Problemlösungsprozess, generiert von ChatGPT | Belle |
| Bellegroup/Multiturn_Chat_0.8m | 0,8 m | Mehrere Gespräche zwischen Benutzern und Assistenten, die von ChatGPT generiert wurden | Belle |
| Bellegroup/generated_chat_0.4m | 0,4 m | Personalisierte Rollendialogdaten, einschließlich Rolleneinführung, generiert von ChatGPT | Belle |
| Bellegroup/Train_2m_cn | 2m | Chinesische Anweisungsdaten, die von ChatGPT generiert werden | Belle |