Проверьте наш новый DataChain продукта (и дайте ему!), Если вам нужно вернуть и обработать большое количество файлов. Свяжитесь с нами по адресу [email protected], чтобы обсудить коммерческие решения и поддержку сценариев воспроизводимости ИИ и управления данными.
Веб -сайт • Документы • Блог • Учебное пособие • Связанные технологии • Как работает DVC.

Управление версиями данных или DVC - это инструмент командной строки и расширение кода VS, чтобы помочь вам разработать воспроизводимые проекты машинного обучения:
Пожалуйста, прочитайте нашу командную ссылку для полного списка.
Общий рабочий процесс CLI включает в себя:
| Задача | Терминал |
|---|---|
| Отслеживать данные | $ git add train.py params.yaml$ dvc add images/ |
| Подключить код и данные | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py$ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
| Вносить изменения и экспериментировать | $ dvc exp run -n exp-baseline$ vi train.py$ dvc exp run -n exp-code-change |
| Сравните и выберите эксперименты | $ dvc exp show$ dvc exp apply exp-baseline |
| Поделиться кодом | $ git add .$ git commit -m 'The baseline model'$ git push |
| Поделиться данными и моделями ML | $ dvc remote add myremote -d s3://mybucket/image_cnn$ dvc push |
Мы призываем вас прочитать наши документы «Начало работы», чтобы лучше понять, что делает DVC и как он может соответствовать вашим сценариям.
Самые близкие аналогии для описания основных функций DVC - это:
GIT используется, как обычно, для хранения и кода версии (включая мета-билет DVC в качестве заполнителей для данных). DVC хранит данные и файлы моделей плавно в кэше за пределами GIT, сохраняя при этом почти тот же пользовательский опыт, что и в репо. Чтобы поделиться и резервным образом заполнение кеша данных , DVC поддерживает несколько удаленных платформ хранения - любое облако (S3, Azure, Google Cloud и т. Д.) Или локальное сетевое хранилище (например, через SSH).
DVC Pipelines (вычислительные графики) Подключите код и данные вместе. Они указывают все шаги, необходимые для создания модели: входные зависимости, включая код, данные, команды для запуска; и вывод информации, которая будет сохранена.
И последнее, но не менее важное, DVC Experiment Wrersing позволяет подготовить и запустить большое количество экспериментов. Их результаты могут быть отфильтрованы и сравниваются на основе гиперпараметров и метрик, а также визуализированы с несколькими участками.
Чтобы использовать DVC в качестве графического интерфейса прямо из вашей IDE VS Code, установите расширение DVC с рынка. В настоящее время он включает отслеживание экспериментов и управление данными, а также больше функций (поддержка конвейера данных и т. Д.) Скоро появятся!
Примечание: вам придется установить DVC Core DVC отдельно (как подробно описано ниже). Расширение направит вас, если это необходимо.
Есть несколько способов установить DVC: в VS -коде; Использование snap , choco , brew , conda , pip ; или с ОС-специфическим пакетом. Полные инструкции доступны здесь.
snap install dvc --classic Это соответствует последнему выпуску с меткой. Добавить --beta для последнего кандидата в релиз с тегами, или --edge для последней main версии.
choco install dvcbrew install dvcconda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvcВ зависимости от удаленного типа хранения, который вы планируете использовать для сохранения и обмена вашими данными, вам может потребоваться установить дополнительные зависимости: DVC-S3, DVC-AZURE, DVC-GDRIVE, DVC-GS, DVC-OSS, DVC-SSH.
pip install dvc В зависимости от удаленного типа хранения, который вы планируете использовать для сохранения и обмена вашими данными, вам может потребоваться указать одну из дополнительных зависимостей: s3 , gs , azure , oss , ssh . Или all , чтобы включить их всех. Команда должна выглядеть следующим образом: pip install 'dvc[s3]' (в данном случае зависимости AWS S3, такие как boto3 будут установлены автоматически).
Чтобы установить версию разработки, запустите:
pip install git+git://github.com/iterative/dvcАвтономные пакеты для Linux, Windows и Mac доступны. Последнюю версию пакетов можно найти на странице Github Relesess.
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvcsudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvcВзносы приветствуются! Пожалуйста, смотрите наше руководство для получения более подробной информации. Спасибо всем нашим участникам!
Этот проект распространяется в соответствии с версией лицензии Apache лицензии 2.0 (см. Файл лицензии в Project Root).
Отправляя запрос на привлечение в этот проект, вы соглашаетесь лицензировать свой вклад в соответствии с лицензией Apache лицензии 2.0 в этот проект.
Итеративный, DVC: управление версиями данных - GIT для данных и моделей (2020) DOI: 10.5281/Zenodo.012345.
Баррак, А., Эган, Э. И. и Адамс, Б. О совместной эволюции трубопроводов и исходного кода - эмпирическое исследование проектов DVC, в процессах 28 -й Международной конференции IEEE по анализу программного обеспечения, эволюции и реинжинирингу, Saner 2021 ..