data juicer herunterladen - data juicer Quellcode herunterladen

data juicer

Anderer Quellcode

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Herunterladen

[中文主页] | [Docs] | [API] | [DJ-Sora] | [Großartige Liste]

Data-Juicer: Ein One-Stop-Datenverarbeitungssystem für große Sprachmodelle

Data-Juicer ist ein multimodales Datenverarbeitungssystem mit einem Stop, um Daten qualitativ hochwertiger, saftiger und mehr verdaulicher für LLMs zu gestalten.

Wir bieten einen Spielplatz mit einem verwalteten JupyterLab. Versuchen Sie es sofort in Ihrem Browser Data-Juicer! Wenn Sie Daten-Juicer für Ihre Forschung oder Entwicklung nützlich finden, zitieren Sie bitte unsere Arbeit.

Die Plattform für KI von Alibaba Cloud (PAI) hat unsere Arbeit und integrierte Daten-Juicer in seine Datenverarbeitungsprodukte zitiert. PAI ist eine KI -native große Modell- und AIGC -Engineering -Plattform, die Datensatzverwaltung, Computing -Stromverwaltung, Modell -Toolkette, Modellentwicklung, Modelltraining, Modellbereitstellung und AI -Asset -Management bietet. Informationen zur Datenverarbeitung finden Sie unter: PAI-Datenverarbeitung für große Modelle.

Data-Juicer wird aktiv aktualisiert und aufrechterhalten. Wir werden regelmäßig weitere Funktionen, Datenrezepte und Datensätze hinzufügen und hinzufügen. Wir begrüßen Sie mit uns (über Themen, PRS, Slack Channel, Dinging Group, ...), um die Co-Entwicklung von Datenmodell sowie die Forschung und Anwendungen von (multimodalen) LLMs zu fördern!

Nachricht

[2024-08-09] Wir schlagen IMG-DIFF vor, was die Leistung multimodaler Großsprachenmodelle durch kontrastive Datensynthese verbessert und eine Punktzahl erzielt, die 12 Punkte höher als GPT-4V am MMVP-Benchmark ist. Weitere Informationen in unserem Artikel finden Sie in unserem Papier und laden Sie den Datensatz von Suggingface und ModelsCope herunter.
[2024-07-24] "Tianchi Better Synth Data Synthesis-Wettbewerb für multimodale große Modelle"-Unser 4. datenorientierter LLM-Wettbewerb hat begonnen! Bitte besuchen Sie die offizielle Website des Wettbewerbs, um weitere Informationen zu erhalten.
[2024-07-17] Wir haben die Daten-Juicer-Sandbox-Laborsuite verwendet, um Daten und Modelle systematisch über einen Co-Entwicklungs-Workflow zwischen Daten und Modellen zu optimieren und einen neuen Spitzenplatz auf dem VBEch-Text-zu-Video-Laderboard zu erreichen. Die damit verbundenen Erfolge wurden in einem Papier zusammengestellt und veröffentlicht, und das Modell wurde auf den Plattformen modelsCope und Huggingface veröffentlicht.
[2024-07-12] Unsere großartige Liste von Mllm-Daten hat sich zu einer systemischen Umfrage aus der Sicht des Modelldaten-Entwicklung entwickelt. Willkommen zu entdecken und beitragen!
[2024-06-01] ModelsCope-Sora "Data Directors" Creative Sprint-Unser dritter datenzentrierter LLM-Wettbewerb hat begonnen! Bitte besuchen Sie die offizielle Website des Wettbewerbs, um weitere Informationen zu erhalten.

Geschichtsnachrichten:

>

[2024-03-07] Wir veröffentlichen jetzt Daten-Juicer v0.2.0 ! In dieser neuen Version unterstützen wir weitere Funktionen für multimodale Daten (einschließlich Video jetzt) und stellen DJ-SORA ein, um offene groß angelegte, hochwertige Datensätze für Sora-ähnliche Modelle bereitzustellen.
[2024-02-20] Wir haben aktiv eine großartige Liste von LLM-Data geführt, willkommen, um zu besuchen und beizutragen!
[2024-02-05] Unser Papier wurde von Sigmod'24 Industrial Track akzeptiert!
[2024-01-10] Entdecken Sie neue Horizonte in "Data Mix"-Unser zweiter datenzentrierter LLM-Wettbewerb hat begonnen! Bitte besuchen Sie die offizielle Website des Wettbewerbs, um weitere Informationen zu erhalten.
[2024-01-05] Wir veröffentlichen jetzt Daten-Juicer V0.1.3 ! In dieser neuen Version unterstützen wir weitere Python-Versionen (3.8-3.10) und unterstützen multimodale Datensatzkonvertieren/-verarbeitung (einschließlich Texte, Bilder und Audios. Weitere Modalitäten werden in Zukunft unterstützt). Außerdem wird unsere Arbeit auf V3 aktualisiert.
[2023-10-13] Unser erster datenzentrierter LLM-Wettbewerb beginnt! Bitte besuchen Sie die offiziellen Websites des Wettbewerbs, FT-Data Ranker (1B Track, 7B Track), für weitere Informationen.

Inhaltsverzeichnis

Data-Juicer: Ein One-Stop-Datenverarbeitungssystem für große Sprachmodelle
- Nachricht
Inhaltsverzeichnis
- Merkmale
- Dokumentationsindex
- Demos
- Voraussetzungen
- Installation
  - Von Quelle
  - Verwenden von PIP
  - Verwenden von Docker
  - Installationsprüfung
- Schneller Start
  - Datenverarbeitung
  - Verteilte Datenverarbeitung
  - Datenanalyse
  - Datenvisualisierung
  - Konfigurationsdateien erstellen
  - Sandkasten
  - Preprocess Rohdaten (optional)
  - Für Docker -Benutzer
- Datenrezepte
- Lizenz
- Beitragen
- Anerkennung
- Referenzen

Merkmale

Systematisch und wiederverwendbar : Beförderung von Benutzern eine systematische Bibliothek mit 80 Kern-Ops, mehr als 20 wiederverwendbaren Konfigurationsrezepten und mehr als 20 featurenreichen Toolkits, die unabhängig von spezifischen multimodalen LLM-Datensätzen und Verarbeitung von Pipelines entwickelt wurden.
Daten-in-the-Loop & Sandbox : Unterstützung der kollaborativen Entwicklung von One-Stop-Datenmodells, die Ermöglichung einer schnellen Iteration durch das Sandbox-Labor und Bereitstellung von Funktionen wie Rückkopplungsschleifen, die auf Daten und Modell, Visualisierung und mehrdimensionaler automatischer Bewertung basieren, damit Sie Ihre Daten und Modelle besser verstehen und verbessern können.
In Bezug auf die Produktionsumgebung : Bereitstellung effizienter und paralleler Datenverarbeitungspipelines (Aliyun-Pai Ray Slurm CUDA OP Fusion), die weniger Speicher und CPU-Verwendung erfordern, optimiert mit automatischer Fehlertoleranz.
Umfassende Rezepte für die Datenverarbeitung : Angebot zehn vorgefertigte Datenverarbeitungsrezepte für Vorausbildung, Feinabstimmung, EN, ZH und weitere Szenarien. Validiert auf Referenzlama- und Llava -Modellen.
Flexibel und erweiterbar : die meisten Arten von Datenformaten (z. B. JSONL, Parquet, CSV, ...) und flexible Kombinationen von OPS ermöglichen. Fühlen Sie sich frei, Ihre eigenen OPs für die anpassbare Datenverarbeitung zu implementieren.
Benutzerfreundliches Erlebnis : Einfachheitlich ausgelegt, mit umfassenden Dokumentation, einfachen Startführern und Demo-Konfigurationen sowie intuitive Konfiguration mit einfachem Hinzufügen/Entfernen von OPs aus vorhandenen Konfigurationen.

Dokumentationsindex

Überblick
Operator Zoo
Konfigurationen
Entwicklerleitfaden
API -Referenzen
KDD-Tutorial
"Schlechte" Datenausstellung
Super LLM-Data
Dedizierte Toolkits
- Qualitätsklassifizierer
- Automatische Bewertung
- Vorverarbeitung
- Postprozess
DJ-Sora
Dritter (LLM-Ökosysteme)

Demos

Einführung in Data-Juicer [ModelsCope] [Huggingface]
Datenvisualisierung:
- Basisstatistik [ModelsCope] [Huggingface]
- Lexikalische Vielfalt [modelscope] [Huggingface]
- Operator Insight (Single OP) [ModelsCope] [Huggingface]
- Bedienerffekt (Mehrfach OPS) [ModelsCope] [Huggingface]
Datenverarbeitung:
- Wissenschaftliche Literatur (z. B. ARXIV) [modelsCope] [Huggingface]
- Programmiercode (zB thestack) [modelsCope] [Huggingface]
- Chinesische Anweisungsdaten (z. B. Alpaka-COT) [modelsCope] [Huggingface]
Werkzeugpool:
- Datensatzaufteilung nach Sprache [modelsCope] [Huggingface]
- Qualitätsklassifizierer für Commoncrawl [modelsCope] [Huggingface]
- Auto -Bewertung am Helm [ModelsCope] [Huggingface]
- Datenabtastung und Mischung [ModelsCope] [Huggingface]
Datenverarbeitungsschleife [ModelsCope] [Huggingface]

Voraussetzungen

Empfehlen Sie Python> = 3,9, <= 3,10
GCC> = 5 (mindestens C ++ 14 Unterstützung)

Installation

Von Quelle

Führen Sie die folgenden Befehle aus, um die neueste grundlegende data_juicer -Version im bearbeitbaren Modus zu installieren:

 cd < path_to_data_juicer >
pip install -v -e .

Einige OPs verlassen sich auf andere zu große oder mit niedrig plattformübergreifende Kompatibilitätsbibliotheken. Sie können optionale Abhängigkeiten nach Bedarf installieren:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

Die Abhängigkeitsoptionen sind unten aufgeführt:

Etikett	Beschreibung
`.` oder `.[mini]`	Installieren Sie minimale Abhängigkeiten für grundlegende Daten-Juicer.
`.[all]`	Installieren Sie alle Abhängigkeiten mit Ausnahme von Sandbox.
`.[sci]`	Installieren Sie alle Abhängigkeiten für alle OPs.
`.[dist]`	Installieren Sie Abhängigkeiten für die verteilte Datenverarbeitung. (Experimental)
`.[dev]`	Installieren Sie Abhängigkeiten für die Entwicklung des Pakets als Mitwirkende.
`.[tools]`	Installieren Sie Abhängigkeiten für dedizierte Tools wie Qualitätsklassifizierer.
`.[sandbox]`	Installieren Sie alle Abhängigkeiten für Sandbox.

Verwenden von PIP

Führen Sie den folgenden Befehl aus, um den neuesten veröffentlichten data_juicer mit pip zu installieren:

pip install py-data-juicer

Notiz :
- Auf diese Weise stehen nur die grundlegenden APIs in data_juicer und zwei grundlegenden Tools (Datenverarbeitung und -analyse) zur Verfügung. Wenn Sie anpassbare und vollständige Funktionen wünschen, empfehlen wir Ihnen, data_juicer aus der Quelle zu installieren.
- Die Veröffentlichungsversionen von PYPI haben eine bestimmte Verzögerung im Vergleich zur neuesten Version von Source. Wenn Sie also die neuesten Funktionen von data_juicer befolgen möchten, empfehlen wir Ihnen, bei der Quelle zu installieren.

Verwenden von Docker

Du kannst
- Entweder ziehen Sie unser vorgefertigtes Bild von DockerHub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- Oder führen Sie den folgenden Befehl aus, um das Docker-Bild mit dem neuesten data-juicer mit bereitgestellter Dockerfile zu erstellen:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- Das Format von <version_tag> ist wie v0.2.0 , das dem Versions -Tag -Tag entspricht.

Installationsprüfung

 import data_juicer as dj
print ( dj . __version__ )

Für Video-bezogene Betreiber

Vor der Verwendung von Video-bezogenen Operatoren sollte FFMPEG über die Variable Umgebungsvariable $ Path installiert und zugänglich sein.

Sie können FFMPEG über Paketmanager (z. B. sudo APT installieren ffmpeg auf Debian/Ubuntu, Brew Install ffmpeg unter OS X) installieren oder den offiziellen FFMPEG -Link besuchen.

Überprüfen Sie, ob Ihr Umgebungsweg korrekt eingestellt wird, indem Sie den Befehl FFMPEG aus dem Terminal ausführen.

? Zurück zum Index

Schneller Start

Datenverarbeitung

Führen Sie process_data.py Tool oder dj-process Befehlszeilen-Tool mit Ihrer Konfiguration als Argument zur Verarbeitung Ihres Datensatzes aus.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

Hinweis: Für einige Betreiber, die Modelle oder Ressourcen von Drittanbietern beinhalten, die nicht lokal auf Ihrem Computer gespeichert sind, ist dies möglicherweise langsam für das erste Laufen, da diese OPs entsprechende Ressourcen zuerst in ein Verzeichnis herunterladen müssen. Das Standard -Download -Cache -Verzeichnis ist ~/.cache/data_juicer . Ändern Sie den Cache -Speicherort, indem Sie die Shell -Umgebungsvariable, DATA_JUICER_CACHE_HOME in ein anderes Verzeichnis einstellen, und Sie können auch DATA_JUICER_MODELS_CACHE oder DATA_JUICER_ASSETS_CACHE auf die gleiche Weise ändern:
HINWEIS: Bei Verwendung von Operatoren mit Modellen von Drittanbietern müssen die entsprechenden mem_required in der Konfigurationsdatei deklariert werden (Sie können sich auf die Einstellungen in der Datei config_all.yaml beziehen). Während der Laufzeit steuert Data-Juicer die Anzahl der Prozesse basierend auf Speicherverfügbarkeit und den Speicheranforderungen der Bedienermodelle, um eine bessere Datenverarbeitungseffizienz zu erzielen. Wenn der MEM_REQUED für einen Bediener nicht korrekt deklariert wird, kann dies möglicherweise zu einem CUDA -Problem führen.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Flexible Programmierschnittstelle

Wir bieten verschiedenen einfachen Schnittstellen für Benutzer wie folgt.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Verteilte Datenverarbeitung

Wir haben jetzt die verteilte Datenverarbeitung von Multi-Maschinen basierend auf Ray implementiert. Die entsprechenden Demos können mit den folgenden Befehlen ausgeführt werden:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Um die Datenverarbeitung über mehrere Maschinen hinweg auszuführen, müssen Sie sicherstellen, dass alle verteilten Knoten auf die entsprechenden Datenpfade zugreifen können (z. B. durch die Montage der jeweiligen Datenpfade auf einem Datei-Sharing-System wie NAS).
Die Deduplicator-Operatoren für den Ray-Modus unterscheiden sich von der Einzelmaschine-Version, und alle diese Operatoren sind mit ray , z. B. ray_video_deduplicator und ray_document_deduplicator vorangestellt. Diese Betreiber verlassen sich auch auf eine Redis -Instanz. Zusätzlich zum Starten des Ray -Cluster müssen Sie Ihre Redis -Instanz im Voraus einrichten und host und port Ihrer Redis -Instanz in der Konfiguration bereitstellen.

Benutzer können sich auch dafür entscheiden, Ray nicht zu verwenden, und stattdessen den Datensatz auf einen Cluster mit Slurm aufzuteilen. In diesem Fall verwenden Sie bitte den Standarddaten-Juicer ohne Strahl. Aliyun Pai-DLC unterstützt das Ray-Framework, das Slurm-Framework usw. Benutzer können direkt Ray-Jobs und Slurm-Jobs im DLC-Cluster erstellen.

Datenanalyse

Führen Sie analyze_data.py Tool oder dj-analyze Befehlszeilen-Tool mit Ihrer Konfiguration als Argument zur Analyse Ihres Datensatzes aus.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

Hinweis: Analysator berechnen nur Statistiken von Filter -Ops. Daher werden im Analyseprozess zusätzliche Mapper- oder Deduplicator -OPs ignoriert.

Datenvisualisierung

Führen Sie app.py Tool aus, um Ihren Datensatz in Ihrem Browser zu visualisieren.
Hinweis : Nur zur Installation von Quelle verfügbar.

streamlit run app.py

Konfigurationsdateien erstellen

Konfigurationsdateien geben einige globale Argumente an und eine Bedienerliste für den Datenprozess. Sie müssen festlegen:
- Globale Argumente: Eingabe-/Ausgabe -Datensatzpfad, Anzahl der Arbeitnehmer usw.
- Bedienerliste: Listen Sie die Operatoren mit ihren Argumenten auf, die zur Verarbeitung des Datensatzes verwendet werden.
Sie können Ihre eigenen Konfigurationsdateien erstellen nach:
- ➖ ： Ändern Sie aus unserem Beispiel -Konfigurationsdatei config_all.yaml das alle OPs und Standardargumente enthält. Sie müssen nur OPS entfernen , die Sie nicht verwenden und einige Argumente von OPs verfeinern werden.
- ➕ ： Erstellen Sie Ihre eigenen Konfigurationsdateien von Grund auf neu . Sie können unseren Beispiel für die Konfigurationsdatei config_all.yaml , OP-Dokumente und erweiterte Aufbauhandbuch für Entwickler verweisen.
- Neben den YAML -Dateien haben Sie auch die Flexibilität, nur eine (von mehreren) Parametern in der Befehlszeile anzugeben, die die Werte in YAML -Dateien überschreibt.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

Das grundlegende Konfigurationsformat und die Definition finden Sie unten.

Sandkasten

Das Data Sandbox Laboratory (DJ-Sandbox) bietet Benutzern die besten Verfahren für die kontinuierliche Erzeugung von Datenrezepten. Es verfügt über einen geringen Overhead, die Portabilität und die Anleitung.

In der Sandbox können Benutzer Datenrezepte schnell experimentieren, iterieren und verfeinern, die auf kleinen Datensätzen und Modellen basieren, bevor sie hochwertige Daten erstellen, um groß angelegte Modelle zu bedienen.
Zusätzlich zu den von Data-Juicer angebotenen grundlegenden Funktionen zur Datenoptimierung und Rezeptfunktionen können Benutzer konfigurierbare Komponenten wie Datensonde und Analyse, Modelltraining und -bewertung sowie Daten- und Modell-Feedback-basierte Rezeptverfeinerungen verwenden, um eine vollständige Ein-Stop-Datenmodell-Forschungs- und -entwicklungs-Pipeline zu bilden.

Die Sandbox wird standardmäßig mit den folgenden Befehlen ausgeführt. Weitere Informationen und Details finden Sie in der Sandbox -Dokumentation.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Preprocess Rohdaten (optional)

Unsere Formatters unterstützen vorerst einige gängige Eingabedatensatzformate:
- Mehrstichprobe in einer Datei: JSONL/JSON, Parquet, CSV/TSV usw.
- Einzelprobe in einer Datei: TXT, Code, docx, pdf usw.
Daten aus verschiedenen Quellen sind jedoch kompliziert und vielfältig. Wie zum Beispiel:
- Von S3 heruntergeladene RAW -ARXIV -Daten enthalten Tausende von TAR -Dateien und noch mehr GZIP -Dateien, und erwartete Tex -Dateien sind in die GZIP -Dateien eingebettet, sodass sie schwer direkt zu erhalten sind.
- Einige krabbende Daten enthalten verschiedene Arten von Dateien (PDF, HTML, DOCX usw.). Und zusätzliche Informationen wie Tabellen, Diagramme usw. sind schwer zu extrahieren.
Es ist unmöglich, alle Arten von Daten in Data-Juicer zu behandeln. Probleme/PRs können dazu beitragen, neue Datentypen zu verarbeiten!
Daher bieten wir einige häufige Vorverarbeitungswerkzeuge in tools/preprocess zur Verfügung, mit denen Sie diese Daten vorverproduzieren können.
- Sie können gerne Ihre Beiträge zu neuen Vorverarbeitungswerkzeugen für die Community leisten.
- Wir empfehlen dringend , dass komplizierte Daten in JSONL- oder Parquet -Dateien vorverarbeitet werden können.

Für Docker -Benutzer

Wenn Sie das Docker-Bild von data-juicer erstellen oder ziehen, können Sie die oben genannten Befehle oder Tools mit diesem Docker-Bild ausführen.
Direkt laufen:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

Oder in den laufenden Container eingeben und Befehle im bearbeitbaren Modus ausführen:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? Zurück zum Index

Datenrezepte

Rezepte für den Datenprozess in Blüte
Rezepte für den Datenprozess in Redpajama
Verfeinerte Rezepte für Textdaten vor dem Training
Verfeinerte Rezepte für Feinabstimmungsdaten
Raffinierte Rezepte für Multimodaldaten vor dem Training

Lizenz

Data-Juicer wird unter Apache-Lizenz 2.0 veröffentlicht.

Beitragen

Wir befinden uns in einem sich schnell entwickelnden Feld und begrüßen Beiträge neuer Funktionen, Fehlerbehebungen und besseren Dokumentationen. Weitere Informationen finden Sie in Entwicklern.

Wenn Sie Fragen haben, nehmen Sie bitte unseren Diskussionsgruppen bei.

Anerkennung

Data-Juicer wird in verschiedenen LLM-Produkten und Forschungsinitiativen verwendet, darunter Industrial LLMs aus Alibaba Clouds Tongyi wie Dianjin für die Finanzanalyse und Zhiwen für den Leseassistenten sowie die Plattform der Alibaba Cloud für AI (PAI). Wir freuen uns auf weitere Erfahrungen, Vorschläge und Diskussionen für die Zusammenarbeit!

Data-Juicer dankt und bezieht sich auf mehrere Community-Projekte, wie z. B. Harmingface-Datensätze, Bloom, Redpajama, Stapel, Alpaka-Cot, Megatron-LM, Deepspeed, Pfeil, Strahl, Strahl, LM-HART, HELM, HELM, ....

Referenzen

Wenn Sie unsere Arbeit für Ihre Forschung oder Entwicklung nützlich finden, zitieren Sie bitte das folgende Papier.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Weitere verwandte Artikel aus dem Data-Juicer-Team:

>

Data-Juicer-Sandbox: Eine umfassende Suite für die gemeinsame Entwicklung multimodaler Datenmodellentwicklung
Die Synergie zwischen Daten und multimodalen Großsprachenmodellen: Eine Umfrage aus der gemeinsamen Entwicklung der Entwicklung
IMGDIFF: Kontrastive Datensynthese für Vision Großsprachenmodelle
Datenmischung effizient gemacht: Ein bivariates Skalierungsgesetz für Sprachmodell -Vorbau

? Zurück zum Index

Expandieren

Zusätzliche Informationen

Version v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-28
Größe 30.38MB
Kommt von Github

Ähnliche Anwendungen

MMEarth data

2024-11-12
Contoso Data Generator V2

2024-11-11
EMIT Data Resources

2024-11-09
data pump log analyzer

2024-11-06
Biologisches Data Mining

2010-03-22
Intelligente Datenwiederherstellung

2009-06-18