Baca ini dalam bahasa lain: 中文.
Repositori ini berisi layanan inti dari platform FFDL (Fabric for Deep Learning). FFDL adalah sistem operasi "kain" untuk pembelajaran yang mendalam. Ini adalah platform kolaborasi untuk:

Untuk mengetahui lebih lanjut tentang detail arsitektur, silakan baca dokumen desainnya. Jika Anda mencari demo, slide, jaminan, blog, webinar, dan materi lain yang terkait dengan FFDL, silakan temukan di sini
kubectl : Antarmuka baris perintah Kubernetes (https://kubernetes.io/docs/tasks/tools/install-kubectl/)helm : Manajer Paket Kubernetes (https://helm.sh)docker : Antarmuka Garis Perintah Docker (https://www.docker.com/)S3 CLI : Antarmuka baris perintah untuk mengonfigurasi penyimpanan objek AndaAda beberapa jalur instalasi untuk menginstal FFDL ke kluster Kubernetes yang ada. Di bawah ini adalah langkah -langkah untuk pemasangan cepat. Jika Anda ingin mengikuti instruksi langkah demi langkah yang lebih terperinci, silakan kunjungi panduan instalasi terperinci
helm init sebelum menjalankan perintah berikut. Untuk menginstal FFDL ke kluster Kubernetes yang tepat, pastikan kubectl menunjuk ke namespace kanan, lalu sebarkan layanan platform:
export NAMESPACE=default # If your namespace does not exist yet, please create the namespace `kubectl create namespace $NAMESPACE` before running the make commands below
export SHARED_VOLUME_STORAGE_CLASS= " ibmc-file-gold " # Change the storage class to what's available on your Cloud Kubernetes Cluster.
helm install ibmcloud-object-storage-plugin --name ibmcloud-object-storage-plugin --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE # Configure s3 driver on the cluster
helm install ffdl-helper --name ffdl-helper --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE ,shared_volume_storage_class= $SHARED_VOLUME_STORAGE_CLASS --wait # Deploy all the helper micro-services for ffdl
helm install ffdl-core --name ffdl-core --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE ,lcm.shared_volume_storage_class= $SHARED_VOLUME_STORAGE_CLASS --wait # Deploy all the core ffdl services.Jika Anda memiliki Kubeadm-Dind yang diinstal pada mesin Anda, gunakan perintah ini untuk menggunakan platform FFDL:
export SHARED_VOLUME_STORAGE_CLASS= " "
export NAMESPACE=default
./bin/s3_driver.sh # Copy the s3 drivers to each of the DIND node
helm install ibmcloud-object-storage-plugin --name ibmcloud-object-storage-plugin --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE ,cloud=false
helm install ffdl-helper --name ffdl-helper --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE ,shared_volume_storage_class= $SHARED_VOLUME_STORAGE_CLASS ,localstorage=true --wait
helm install ffdl-core --name ffdl-core --repo https://ibm.github.io/FfDL/helm-charts --set namespace= $NAMESPACE ,lcm.shared_volume_storage_class= $SHARED_VOLUME_STORAGE_CLASS --wait
# Forward the necessary microservices from the DIND cluster to your localhost.
./bin/dind-port-forward.sh Untuk mengirimkan contoh pelatihan contoh sederhana yang termasuk dalam repo ini (lihat folder etc/examples ):
Catatan: Untuk public_ip, letakkan salah satu IP publik cluster Anda yang dapat mengakses nodeport cluster Anda. Anda dapat memeriksa IP publik cluster Anda dengan
kubectl get nodes -o wide. Untuk IBM Cloud, Anda bisa mendapatkan IP publik denganbx cs workers <cluster_name>.
export PUBLIC_IP= < Cluster Public IP > # Put down localhost if you are running with Kubeadm-DIND
make test-push-data-s3
make test-job-submit Platform dikirimkan dengan dasbor pemantauan grafana sederhana. URL dicetak saat menjalankan status membuat target.
Silakan merujuk ke panduan pengembang untuk detail lebih lanjut.
Jika Anda ingin menghapus FFDL dari cluster Anda, cukup gunakan perintah berikut.
helm delete --purge ffdl-core ffdl-helperJika Anda ingin menghapus driver penyimpanan dari cluster Anda, jalankan:
helm delete --purge ibmcloud-object-storage-plugin Untuk Kubeadm-Dind, Anda perlu membunuh port yang diteruskan. Perhatikan bahwa perintah di bawah ini akan membunuh semua port yang dibuat dengan kubectl .
kill $( lsof -i | grep kubectl | awk ' {printf $2 " " } ' ) Jika glide install gagal dengan kesalahan mengeluh tentang jalur yang tidak ada (misalnya, "tanpa SRC, tidak dapat melanjutkan"), pastikan untuk mengikuti tata letak direktori GO standar (lihat bagian Prasyarat).
Untuk menghapus FFDL pada cluster Anda, cukup jalankan, make undeploy
Saat menggunakan FFDL CLI untuk melatih model, pastikan jalur direktori Anda tidak memiliki slash / di akhir.
Jika pekerjaan Anda terjebak dalam tahap yang tertunda, Anda dapat mencoba untuk memulihkan kembali plugin dengan helm install storage-plugin --set dind=true,cloud=false untuk Kubeadm-Dind dan helm install storage-plugin untuk kluster Kuberernetes umum. Juga, periksa ulang file manifes pekerjaan pelatihan Anda untuk memastikan Anda memiliki kredensial penyimpanan objek yang benar.
Berdasarkan pekerjaan penelitian IBM dalam pembelajaran mendalam.
B. Bhattacharjee et al., "IBM Deep Learning Service," dalam IBM Journal of Research and Development, Vol. 61, no. 4, hlm. 10: 1-10: 11, Juli-September. 1 2017. https://arxiv.org/abs/1709.05871
Scott Boag, dkk. Manajemen siklus hidup multi-tenant multi-tenant yang dapat diskalakan dari pekerjaan pelatihan pembelajaran mendalam, dalam lokakarya tentang sistem ML di NIPS'17, 2017. Http://learningsys.org/nips17/assets/papers/paper_29.pdf