يحتوي هذا المستودع على جميع المواد الفئة الخاصة بـ Georgia Tech's Spring 2020 CSE 6040 ، الحوسبة لفئة تحليل البيانات مع Dr. Richard Vuduc . (كملاحظة جانبية ، كان هذا هو أفضل فئة أخذتها على الإطلاق.) كل المحتوى موجود في مجلد project_files ويتم تسلسله لتسهيل التنقل. داخل project_files ، ستجد مجلد Getting Started . لذلك ، ابدأ هناك.
يعتمد هذا الفئة على دفاتر Python 3.7 و Jupyter. لقد قمت بتضمين البيئة الافتراضية التي يمكنك استخدامها معها. ومع ذلك ، قد تحتاج إلى تثبيت الحزم المطلوبة في كثير من الأحيان أثناء تصادلك إليها خلال الدورة. لقد خلقت البيئة الافتراضية بعد الحقيقة.
يمكنك تجاهل مجلد Scratch Pad . ليس عليك أن تنظر إليها ، ولكن قد تجد بعض التعليمات البرمجية المثيرة للاهتمام هناك ، وبالتالي السبب احتفظت به هناك لأنني أريد أن أجد هذا الرمز بنفسي إذا كنت أبحث عنه.
شيء آخر يجب ملاحظته: بعض مجموعات البيانات أكبر من 100 ميجابايت ويجب تخزينها كأجزاء. لذلك ، قد ترى أنه يتم دمج مجموعة البيانات في ملف واحد من ملفات متعددة ثم يتم حذف الملف المدمج مرة أخرى. هذا بسبب قيود جيثب.