ตรวจสอบ Datachain ผลิตภัณฑ์ใหม่ของเรา (และให้มัน!) หากคุณต้องการเวอร์ชันและประมวลผลไฟล์จำนวนมาก ติดต่อเราที่ [email protected] เพื่อหารือเกี่ยวกับโซลูชั่นเชิงพาณิชย์และการสนับสนุนสำหรับสถานการณ์การทำซ้ำ AI และสถานการณ์การจัดการข้อมูล
เว็บไซต์•เอกสาร•บล็อก•การสอน•เทคโนโลยีที่เกี่ยวข้อง•วิธีการทำงานของ DVC • VS Code Extension •การติดตั้ง•การสนับสนุน•ชุมชนและการสนับสนุน

การควบคุมเวอร์ชันข้อมูล หรือ DVC เป็นเครื่องมือบรรทัดคำสั่งและส่วนขยายรหัส VS เพื่อช่วยให้คุณพัฒนาโครงการเรียนรู้ของเครื่องที่ทำซ้ำได้:
โปรดอ่านการอ้างอิงคำสั่งของเราสำหรับรายการที่สมบูรณ์
เวิร์กโฟลว์ CLI ทั่วไปรวมถึง:
| งาน | เทอร์มินัล |
|---|---|
| ติดตามข้อมูล | $ git add train.py params.yaml$ dvc add images/ |
| เชื่อมต่อรหัสและข้อมูล | $ dvc stage add -n featurize -d images/ -o features/ python featurize.py$ dvc stage add -n train -d features/ -d train.py -o model.p -M metrics.json python train.py |
| ทำการเปลี่ยนแปลงและทดลอง | $ dvc exp run -n exp-baseline$ vi train.py$ dvc exp run -n exp-code-change |
| เปรียบเทียบและเลือกการทดลอง | $ dvc exp show$ dvc exp apply exp-baseline |
| แชร์รหัส | $ git add .$ git commit -m 'The baseline model'$ git push |
| แบ่งปันข้อมูลและโมเดล ML | $ dvc remote add myremote -d s3://mybucket/image_cnn$ dvc push |
เราขอแนะนำให้คุณอ่านเอกสารการเริ่มต้นของเราเพื่อทำความเข้าใจว่า DVC ทำอะไรได้ดีขึ้นและมันจะเหมาะสมกับสถานการณ์ของคุณอย่างไร
การเปรียบเทียบ ที่ใกล้เคียงที่สุดเพื่ออธิบายคุณสมบัติ DVC หลักคือสิ่งเหล่านี้:
Git ใช้ตามปกติในการจัดเก็บและรหัสเวอร์ชัน (รวมถึง DVC Meta-Files เป็นตัวยึดตำแหน่งสำหรับข้อมูล) DVC เก็บข้อมูลและไฟล์โมเดลได้อย่างราบรื่นในแคชนอก Git ในขณะที่รักษาประสบการณ์ผู้ใช้เกือบเหมือนกันราวกับว่าพวกเขาอยู่ใน repo ในการแชร์และสำรอง ข้อมูลแคชข้อมูล DVC รองรับแพลตฟอร์มการจัดเก็บข้อมูลระยะไกลหลายแพลตฟอร์ม - คลาวด์ใด ๆ (S3, Azure, Google Cloud, ฯลฯ ) หรือที่เก็บข้อมูลเครือข่ายในสถานที่ (ผ่าน SSH เป็นต้น)
DVC Pipelines (กราฟการคำนวณ) เชื่อมต่อรหัสและข้อมูลเข้าด้วยกัน พวกเขาระบุขั้นตอนทั้งหมดที่จำเป็นในการสร้างแบบจำลอง: การพึ่งพาอินพุตรวมถึงรหัสข้อมูลคำสั่งที่จะเรียกใช้; และข้อมูลผลลัพธ์ที่จะบันทึก
สุดท้าย แต่ไม่ท้ายสุดการกำหนดเวอร์ชันการทดลอง DVC ช่วยให้คุณเตรียมและดำเนินการทดลองจำนวนมาก ผลลัพธ์ของพวกเขาสามารถกรองและเปรียบเทียบได้ตามพารามิเตอร์และตัวชี้วัดและมองเห็นด้วยพล็อตหลายแปลง
หากต้องการใช้ DVC เป็น GUI จากรหัส VS ของคุณให้ติดตั้งส่วนขยาย DVC จากตลาด ปัจจุบันมีคุณสมบัติการติดตามการทดลองและการจัดการข้อมูลและคุณสมบัติอื่น ๆ (การสนับสนุนท่อส่งข้อมูล ฯลฯ ) กำลังจะมาเร็ว ๆ นี้!
หมายเหตุ: คุณจะต้องติดตั้ง Core DVC ในระบบของคุณแยกกัน (ตามรายละเอียดด้านล่าง) ส่วนขยายจะแนะนำคุณหากจำเป็น
มีหลายวิธีในการติดตั้ง DVC: ในรหัส VS; ใช้ snap , choco , brew , conda , pip ; หรือด้วยแพ็คเกจเฉพาะระบบปฏิบัติการ มีคำแนะนำเต็มรูปแบบที่นี่
snap install dvc --classic สิ่งนี้สอดคล้องกับรุ่นล่าสุดที่ติดแท็ก เพิ่ม --beta สำหรับผู้สมัครรุ่นล่าสุดที่ติดแท็กหรือ --edge สำหรับเวอร์ชัน main ล่าสุด
choco install dvcbrew install dvcconda install -c conda-forge mamba # installs much faster than conda
mamba install -c conda-forge dvcขึ้นอยู่กับประเภทที่เก็บข้อมูลระยะไกลที่คุณวางแผนที่จะใช้เพื่อเก็บและแบ่งปันข้อมูลของคุณคุณอาจต้องติดตั้งการพึ่งพาตัวเลือก: DVC-S3, DVC-Azure, DVC-GDRIVE, DVC-GS, DVC-OSS, DVC-SSH
pip install dvc ขึ้นอยู่กับประเภทที่เก็บข้อมูลระยะไกลที่คุณวางแผนที่จะใช้เพื่อเก็บและแบ่งปันข้อมูลของคุณคุณอาจต้องระบุหนึ่งในการพึ่งพาที่เป็นตัวเลือก: s3 , gs , azure , oss , ssh หรือ all เพื่อรวมไว้ทั้งหมด คำสั่งควรมีลักษณะเช่นนี้: pip install 'dvc[s3]' (ในกรณีนี้การพึ่งพา AWS S3 เช่น boto3 จะถูกติดตั้งโดยอัตโนมัติ)
ในการติดตั้งเวอร์ชันการพัฒนา Run:
pip install git+git://github.com/iterative/dvcมีแพ็คเกจที่มีอยู่ในตัวเองสำหรับ Linux, Windows และ Mac แพ็คเกจเวอร์ชันล่าสุดสามารถพบได้ในหน้า GitHub Reasees
sudo wget https://dvc.org/deb/dvc.list -O /etc/apt/sources.list.d/dvc.list
wget -qO - https://dvc.org/deb/iterative.asc | sudo apt-key add -
sudo apt update
sudo apt install dvcsudo wget https://dvc.org/rpm/dvc.repo -O /etc/yum.repos.d/dvc.repo
sudo rpm --import https://dvc.org/rpm/iterative.asc
sudo yum update
sudo yum install dvcยินดีต้อนรับ! โปรดดูคู่มือการสนับสนุนของเราสำหรับรายละเอียดเพิ่มเติม ขอบคุณผู้มีส่วนร่วมของเราทุกคน!
โครงการนี้มีการแจกจ่ายภายใต้ Apache License Version 2.0 (ดูไฟล์ใบอนุญาตในรูทโครงการ)
โดยการส่งคำขอดึงไปยังโครงการนี้คุณตกลงที่จะอนุญาตให้มีส่วนร่วมของคุณภายใต้ Apache License Version 2.0 ไปยังโครงการนี้
การวนซ้ำ, DVC: การควบคุมเวอร์ชันข้อมูล - GIT สำหรับข้อมูลและรุ่น (2020) DOI: 10.5281/Zenodo.012345
Barrak, A. , Eghan, EE และ Adams, B. ในการวิวัฒนาการร่วมของ ML ท่อและซอร์สโค้ด - การศึกษาเชิงประจักษ์ของโครงการ DVC ในการดำเนินการประชุมนานาชาติ IEEE ครั้งที่ 28 เกี่ยวกับการวิเคราะห์ซอฟต์แวร์วิวัฒนาการและการปรับโครงสร้าง Saner 2021 . ฮาวายสหรัฐอเมริกา