Загрузка data juicer - Загрузка исходного кода data juicer

data juicer

Другой исходный код

v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!

Скачать

[中文主页] | [Документы] | [API] | [DJ-Sora] | [Потрясающий список]

Data Juicer: универсальная система обработки данных для крупных языковых моделей

Data-Juicer-это универсальная мультимодальная система обработки данных, чтобы сделать данные более качественными, сочно и более усваиваемыми для LLMS.

Мы предоставляем детскую площадку с управляемым jupyterlab. Попробуйте сразу же в своем браузере! Если вы считаете, что джаницеру, полезным для ваших исследований или разработок, пожалуйста, упоминайте нашу работу.

Платформа для искусственного интеллекта Alibaba Cloud (PAI) пригласила нашу работу и интегрированного Juicer в свои продукты обработки данных. PAI - это крупная модель AI и инженерную платформу AIGC, которая предоставляет управление наборами данных, управление компьютером, цепочка инструментов модели, разработку модели, обучение модели, развертывание модели и управление активами ИИ. Для документации по обработке данных, пожалуйста, см.

Data-Juicer активно обновляется и поддерживается. Мы периодически улучшаем и добавляем больше функций, рецептов данных и наборов данных. Мы приветствуем вас присоединиться к нам (через проблемы, PRS, Slack Channel, Dingding Group, ...), в содействии совместной разработке модели данных вместе с исследованиями и приложениями (мультимодальных) LLMS!

Новости

[2024-08-09] Мы предлагаем IMG-DIFF, который повышает производительность мультимодальных крупных языковых моделей посредством контрастного синтеза данных , достигая оценки, которая на 12 баллов выше, чем GPT-4V на эталон MMVP. Смотрите более подробную информацию в нашей статье и загрузите набор данных из HuggingFace и ModelsCope.
[2024-07-24] «Конкуренция синтеза синтезации данных Tianchi Better Synth Data для мультимодальных крупных моделей»-наша 4-я конкуренция LLM, ориентированная на данные, началась! Пожалуйста, посетите официальный сайт конкурса для получения дополнительной информации.
[2024-07-17] Мы использовали лабораторную лабораторную лабораторную набор песочниц данных для систематической оптимизации данных и моделей с помощью рабочего процесса совместного развития между данными и моделями, достигнув новое первое место в таблице лидеров текста в VBENCH. Связанные достижения были скомпилированы и опубликованы в статье, а модель была выпущена на платформах моделей и Huggingface.
[2024-07-12] Наш удивительный список MLLM-DATA превратился в системный опрос с точки зрения совместного развития моделей DATA. Добро пожаловать, чтобы исследовать и внести свой вклад!
[2024-06-01] Modelcope-Sora «Data Data Dighters» Creative Sprint-наш третий конкурс LLM, ориентированный на данные, началась! Пожалуйста, посетите официальный сайт конкурса для получения дополнительной информации.

Новости истории:

>

[2024-03-07] Сейчас мы выпускаем Data-Juicer V0.2.0 ! В этой новой версии мы поддерживаем больше функций для мультимодальных данных (включая видео сейчас) и вводим DJ-Sora для предоставления открытых крупномасштабных высококачественных наборов данных для моделей, подобных Sora.
[2024-02-20] Мы активно поддерживали потрясающий список LLM-DATA , добро пожаловать и внести свой вклад!
[2024-02-05] Наша статья была принята Sigmod'24 Industrial Track!
[2024-01-10] Откройте для себя новые горизонты в «Смесь данных»-наша вторая конкуренция LLM, ориентированная на данные, началась! Пожалуйста, посетите официальный сайт конкурса для получения дополнительной информации.
[2024-01-05] Сейчас мы выпускаем Data-Juicer V0.1.3 ! В этой новой версии мы поддерживаем больше версий Python (3.8-3.10) и поддерживаем мультимодальные наборы данных/обработку (включая тексты, изображения и звуки. В будущем будет поддерживаться больше модальностей). Кроме того, наша статья также обновлена до V3.
[2023-10-13] Наша первая конкуренция LLM, ориентированная на данные, начинается! Пожалуйста, посетите официальные веб-сайты конкурса, FT-Data Ranker (трек 1B, трек 7B), чтобы получить дополнительную информацию.

Data Juicer: универсальная система обработки данных для крупных языковых моделей
- Новости
Оглавление
- Функции
- Индекс документации
- Демо
- Предварительные условия
- Установка
  - Из источника
  - Использование PIP
  - Использование Docker
  - Проверка установки
- Быстрый старт
  - Обработка данных
  - Распределенная обработка данных
  - Анализ данных
  - Визуализация данных
  - Создать файлы конфигурации
  - Песочница
  - Предварительные данные необработанные данные (необязательно)
  - Для пользователей Docker
- Рецепты данных
- Лицензия
- Внося
- Подтверждение
- Ссылки

Функции

Систематическое и повторное использование : расширение возможностей пользователей с помощью систематической библиотеки из 80+ Core Ops, 20+ повторных рецептов конфигурации и более 20+ функций выделенных наборов инструментов, предназначенных для функционирования независимо от конкретных мультимодальных наборов LLM и трубопроводов обработки.
Data-in-The-The-The Sandbox : поддержка универсальной совместной разработки модели данных, обеспечение быстрой итерации через лабораторию песочницы и предоставление таких функций, как петли обратной связи на основе данных и модели, визуализации и многомерной автоматической оценки, чтобы вы могли лучше понимать и улучшать свои данные и модели.
На пути к производственной среде : предоставление эффективных и параллельных трубопроводов обработки данных (Aliyun-Pai Ray Slurm Cuda OP Fusion), требующая меньшего количества памяти и использования процессора, оптимизированных с автоматическим сбоем.
Комплексные рецепты обработки данных : предлагая десятки предварительно созданных рецептов обработки данных для предварительного обучения, тонкой настройки, en, ZH и большего количества сценариев. В подтверждении моделей Llama и Llava.
Гибкий и расширяемый : приспосабливание большинства типов форматов данных (например, JSONL, Parquet, CSV, ...) и позволяет гибкие комбинации OPS. Не стесняйтесь реализовать свой собственный OPS для настраиваемой обработки данных.
Опыт для пользователя : разработан для простоты, с полной документацией, простыми руководствами запуска и демонстрационными конфигурациями, а также интуитивной конфигурацией с простой добавлением/удалением OPS из существующих конфигураций.

Индекс документации

Обзор
Оператор зоопарк
Конфигурации
Руководство разработчика
Ссылки API
KDD-Tutorial
«Плохая» выставка данных
Потрясающий LLM-Data
Выделенные наборы инструментов
- Качественный классификатор
- Автоматическая оценка
- Предварительная обработка
- Постпроцесс
DJ-Sora
Третьи стороны (экосистемы LLM)

Демо

Введение в Data-Juicer [ModelCope] [HuggingFace]
Визуализация данных:
- Основная статистика [ModelCope] [HuggingFace]
- Лексическое разнообразие [моделикоп] [Huggingface]
- Оператор Insight (Single OP) [ModelCope] [HuggingFace]
- Эффект оператора (несколько OPS) [ModelCope] [HuggingFace]
Обработка данных:
- Научная литература (например, arxiv) [Modelcope] [Huggingface]
- Код программирования (например, thestack) [Modelscope] [Huggingface]
- Данные о китайских инструкциях (например, Alpaca-Cot) [ModelCope] [HuggingFace]
Пул инструментов:
- Расщепление наборов данных по языку [ModelCope]
- Качественный классификатор для Commoncrawl [ModelCope] [HuggingFace]
- Автоматическая оценка на рулевом [ModelCope] [HuggingFace]
- Выборка и смеси данных [ModelCope] [HuggingFace]
Цикл обработки данных [ModelCope] [HuggingFace]

Предварительные условия

Рекомендую Python> = 3,9, <= 3,10
GCC> = 5 (по крайней мере C ++ 14 Поддержка)

Установка

Из источника

Запустите следующие команды, чтобы установить последнюю версию data_juicer в редактируемом режиме:

 cd < path_to_data_juicer >
pip install -v -e .

Некоторые операции полагаются на некоторые другие слишком большие или низкоплатформенные составные библиотеки. Вы можете установить дополнительные зависимости по мере необходимости:

 cd < path_to_data_juicer >
pip install -v -e .  # install a minimal dependencies, which support the basic functions
pip install -v -e .[tools] # install a subset of tools dependencies

Параметры зависимости перечислены ниже:

Ярлык	Описание
`.` или `.[mini]`	Установите минимальные зависимости для базового Juicer.
`.[all]`	Установите все зависимости, кроме песочницы.
`.[sci]`	Установите все зависимости для всех OPS.
`.[dist]`	Установите зависимости для обработки распределенных данных. (Экспериментальный)
`.[dev]`	Установите зависимости для разработки пакета в качестве участников.
`.[tools]`	Установите зависимости для выделенных инструментов, таких как качественные классификаторы.
`.[sandbox]`	Установите все зависимости для песочницы.

Использование PIP

Запустите следующую команду, чтобы установить последнюю выпущенную data_juicer с помощью pip :

pip install py-data-juicer

Примечание :
- Таким образом доступны только основные API в data_juicer и два основных инструмента (обработка данных и анализ данных). Если вам нужны настраиваемые и полные функции, мы рекомендуем вам установить data_juicer из Source.
- Версии релизов от PYPI имеют определенную задержку по сравнению с последней версией из Source. Поэтому, если вы хотите следовать последним функциям data_juicer , мы рекомендуем вам установить из Source.

Использование Docker

Ты можешь
- Либо вытащите наше предварительно построенное изображение из Dockerhub:
```
docker pull datajuicer/data-juicer: < version_tag >
```
- или запустите следующую команду для создания изображения Docker, включая последнего data-juicer с предоставленным DockerFile:
```
docker build -t datajuicer/data-juicer: < version_tag > .
```
- Формат <version_tag> похож на v0.2.0 , который такой же, как и тег версии релиза.

Проверка установки

 import data_juicer as dj
print ( dj . __version__ )

Для операторов, связанных с видео

Перед использованием операторов, связанных с видео, FFMPEG должен быть установлен и доступен через переменную среды $ Path.

Вы можете установить FFMPEG с помощью менеджеров пакетов (например, Sudo Apt Install FFMPEG на Debian/Ubuntu, Brew Install FFMPEG на OS X) или посетить официальную ссылку FFMPEG.

Проверьте, правильно ли устанавливается путь вашей среды, запустив команду FFMPEG из терминала.

? Вернуться к индексу

Быстрый старт

Обработка данных

Запустите инструмент process_data.py или инструмент командной строки dj-process с вашим конфигурацией в качестве аргумента для обработки вашего набора данных.

 # only for installation from source
python tools/process_data.py --config configs/demo/process.yaml

# use command line tool
dj-process --config configs/demo/process.yaml

ПРИМЕЧАНИЕ. Для некоторых операторов, которые включают сторонние модели или ресурсы, которые не хранятся локально на вашем компьютере, это может быть медленным для первого запуска, поскольку эти OPS необходимо сначала загружать соответствующие ресурсы в каталог. Каталог скачивания по умолчанию ~/.cache/data_juicer . Измените местоположение кэша, установив переменную среды оболочки, DATA_JUICER_CACHE_HOME на другой каталог, и вы также можете изменить DATA_JUICER_MODELS_CACHE или DATA_JUICER_ASSETS_CACHE таким же образом:
ПРИМЕЧАНИЕ. При использовании операторов со сторонними моделями необходимо объявить соответствующий mem_required в файле конфигурации (вы можете обратиться к настройкам в файле config_all.yaml ). Во время выполнения Data Juicer будет управлять количеством процессов на основе доступности памяти и требований к памяти моделей операторов для достижения лучшей эффективности обработки данных. При запуске в среде CUDA, если MEM_REQUED для оператора не объявлен правильно, это может привести к проблеме CUDA из -за проблемы с памятью.

 # cache home
export DATA_JUICER_CACHE_HOME= " /path/to/another/directory "
# cache models
export DATA_JUICER_MODELS_CACHE= " /path/to/another/directory/models "
# cache assets
export DATA_JUICER_ASSETS_CACHE= " /path/to/another/directory/assets "

Гибкий интерфейс программирования

Мы предоставляем различные простые интерфейсы для пользователей на выбор.

 #... init op & dataset ...

# Chain call style, support single operator or operator list
dataset = dataset . process ( op )
dataset = dataset . process ([ op1 , op2 ])
# Functional programming style for quick integration or script prototype iteration
dataset = op ( dataset )
dataset = op . run ( dataset )

Распределенная обработка данных

В настоящее время мы реализовали обработку данных с несколькими машинами на основе Ray. Соответствующие демонстрации можно запускать с помощью следующих команд:

 # Run text data processing
python tools/process_data.py --config ./demos/process_on_ray/configs/demo.yaml
# Run video data processing
python tools/process_data.py --config ./demos/process_video_on_ray/configs/demo.yaml

Чтобы запустить обработку данных на нескольких машинах, необходимо убедиться, что все распределенные узлы могут получить доступ к соответствующим путям данных (например, путем установки соответствующих путей данных в системе обмена файлами, такой как NAS).
Операторы Deduplicator для режима Ray отличаются от одной версии с одной машиной, и все эти операторы предварительно профиксированы с помощью ray , например, ray_video_deduplicator и ray_document_deduplicator . Эти операторы также полагаются на экземпляр Redis. Таким образом, в дополнение к запуску кластера Ray, вам также необходимо заранее настроить экземпляр Redis и предоставить host и port экземпляра Redis в конфигурации.

Пользователи также могут не использовать Ray и вместо этого разделять набор данных для работы на кластере с Slurm. В этом случае, пожалуйста, используйте Juicer Data по умолчанию без Ray. Aliyun Pai-DLC поддерживает Ray Framework, Slurm Framework и т. Д. Пользователи могут непосредственно создавать задания Ray и рабочие задания в кластере DLC.

Анализ данных

Запустите инструмент analyze_data.py или инструмент командной строки dj-analyze с вашим конфигурацией в качестве аргумента для анализа вашего набора данных.

 # only for installation from source
python tools/analyze_data.py --config configs/demo/analyzer.yaml

# use command line tool
dj-analyze --config configs/demo/analyzer.yaml

Примечание. Анализатор только вычислите статистику фильтров. Таким образом, в процессе анализа будет проигнорирована дополнительная Mapper или Deduplicator Ops.

Визуализация данных

Запустите инструмент app.py , чтобы визуализировать набор данных в браузере.
Примечание . Доступно только для установки из Source.

streamlit run app.py

Создать файлы конфигурации

Файлы конфигурации указывают некоторые глобальные аргументы и список операторов для процесса данных. Вам нужно установить:
- Глобальные аргументы: путь набора данных ввода/вывода, количество работников и т. Д.
- Список операторов: списка операторов с их аргументами, используемыми для обработки набора данных.
Вы можете создать свои собственные файлы конфигурации с помощью:
- ➖ Изменить из нашего примера файла конфигурации config_all.yaml , который включает в себя все операции по умолчанию и по умолчанию. Вам просто нужно удалить OPS, который вы не будете использовать, и уточнить некоторые аргументы OPS.
- ➕: Создайте свои собственные файлы конфигурации с нуля . Вы можете направить наш пример файла конфигурации config_all.yaml , OP Documents и расширенное руководство по наращиванию для разработчиков.
- Помимо файлов YAML, у вас также есть гибкость, чтобы указать только один (из нескольких) параметров в командной строке, которые будут переопределять значения в файлах YAML.

python xxx.py --config configs/demo/process.yaml --language_id_score_filter.lang=en

Основной формат и определение конфигурации показаны ниже.

Песочница

Laboratory Data Sandbox Laboratory (DJ-Sandbox) предоставляет пользователям наилучшие методы для постоянного производства рецептов данных. Он имеет низкие накладные расходы, портативность и руководство.

В песочнице пользователи могут быстро экспериментировать, итерацию и уточнить рецепты данных на основе мелких наборов данных и моделей, прежде чем масштабироваться для получения высококачественных данных для обслуживания крупномасштабных моделей.
В дополнение к основным функциям оптимизации данных и уточнения рецептов, предлагаемыми Data-Juicer, пользователи могут беспроводительно использовать настраиваемые компоненты, такие как зонд данных и анализ, обучение и оценку модели, а также уточнение рецептов на основе обратной связи с данными и моделями.

Песочница запускается с использованием следующих команд по умолчанию, и для получения дополнительной информации и деталей, пожалуйста, обратитесь к документации Sandbox.

python tools/sandbox_starter.py --config configs/demo/sandbox/sandbox.yaml

Предварительные данные необработанные данные (необязательно)

Наши форматеры на данный момент поддерживают некоторые общие форматы наборов данных входных данных:
- Multi-Sample в одном файле: jsonl/json, parquet, csv/tsv и т. Д.
- Один выборка в одном файле: TXT, CODE, DOCX, PDF и т. Д.
Тем не менее, данные из разных источников сложны и разнообразны. Такой как:
- Необработанные данные Arxiv, загруженные с S3, включают в себя тысячи файлов TAR и еще больше файлов GZIP, а ожидаемые файлы TEX встроены в файлы GZIP, поэтому их трудно получить напрямую.
- Некоторые ползанные данные включают в себя различные виды файлов (PDF, HTML, DOCX и т. Д.). И дополнительная информация, такая как таблицы, диаграммы и т. Д. Трудно извлечь.
Невозможно обработать все виды данных в Juicer, проблемы/PR, которые могут внести свой вклад в обработку новых типов данных!
Таким образом, мы предоставляем некоторые общие инструменты предварительной обработки в tools/preprocess для вас, чтобы предварительно обработать эти данные.
- Вы можете внести свой вклад в новые инструменты предварительной обработки для сообщества.
- Мы настоятельно рекомендуем , чтобы сложные данные могли быть предварительно обработаны файлам JSONL или Parquet.

Для пользователей Docker

Если вы создаете или вытащите изображение Docker data-juicer , вы можете запустить команды или инструменты, упомянутые выше, используя это изображение Docker.
Запустить напрямую:

 # run the data processing directly
docker run --rm   # remove container after the processing
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --name dj   # name of the container
  -v < host_data_path > : < image_data_path >   # mount data or config directory into the container
  -v ~ /.cache/:/root/.cache/   # mount the cache directory into the container to reuse caches and models (recommended)
  datajuicer/data-juicer: < version_tag >   # image to run
  dj-process --config /path/to/config.yaml  # similar data processing commands

Или вступить в управляющий контейнер и запустить команды в редактируемом режиме:

 # start the container
docker run -dit   # run the container in the background
  --privileged 
  --shm-size 256g 
  --network host 
  --gpus all 
  --rm 
  --name dj 
  -v < host_data_path > : < image_data_path > 
  -v ~ /.cache/:/root/.cache/ 
  datajuicer/data-juicer:latest /bin/bash

# enter into this container and then you can use data-juicer in editable mode
docker exec -it < container_id > bash

? Вернуться к индексу

Рецепты данных

Рецепты процесса данных в цвету
Рецепты процесса данных в Redpajama
Рафинированные рецепты для предварительных текстовых данных
Рафинированные рецепты для тонкой настройки текстовых данных
Рафинированные рецепты для предварительного обучения многомодальных данных

Лицензия

Data-Juicer выпускается по Apache License 2.0.

Внося

Мы находимся в быстро развивающейся области и очень приветствуем вклад новых функций, исправлений ошибок и лучших документаций. Пожалуйста, обратитесь к руководству для разработчиков.

Если у вас есть какие -либо вопросы, присоединяйтесь к нашим дискуссионным группам.

Подтверждение

Data-Juicer используется в различных продуктах LLM и исследовательских инициативах, в том числе промышленные LLMS из Tongyi Alibaba Cloud, таких как Dianjin для финансового анализа, и Zhiwen для помощника по чтению, а также платформы Alibaba Cloud для ИИ (PAI). Мы с нетерпением ждем больше вашего опыта, предложений и обсуждений для сотрудничества!

Джайн-джайкерс благодарит и относится к нескольким общественным проектам, таким как Daggingface-Datasets, Bloom, Redpajama, Pile, Alpaca-Cot, Megatron-LM, Deepspeed, стрелка, луч, луч, LM-Harness, Helm, ....

Ссылки

Если вы обнаружите нашу работу полезной для исследования или разработки, пожалуйста, упоминайте следующую статью.

 @inproceedings{chen2024datajuicer,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Daoyuan Chen and Yilun Huang and Zhijian Ma and Hesen Chen and Xuchen Pan and Ce Ge and Dawei Gao and Yuexiang Xie and Zhaoyang Liu and Jinyang Gao and Yaliang Li and Bolin Ding and Jingren Zhou},
  booktitle={International Conference on Management of Data},
  year={2024}
}

Больше связанных документов от команды Data Juicer:

>

Песочница данных: комплексный набор для мультимодальной совместной разработки данных модели данных
Синергия между данными и мультимодальными крупными языковыми моделями: опрос с точки зрения совместной разработки
Imgdiff: Синтез контрастных данных для моделей Vision Large Language Models
Смешивание данных стало эффективным: двумерный закон масштабирования для языковой модели предварительно

? Вернуться к индексу

Расширять

Дополнительная информация

Версия v1.0.0: Refactor DJ-Dataset & DJ-Operator, Sandbox, and more exciting features!
Тип Другой исходный код
Время обновления 2025-02-28
размер 30.38MB
От Github