พอร์ตโฟลิโอวิทยาศาสตร์ข้อมูล
พื้นที่เก็บข้อมูลที่มีพอร์ตโฟลิโอของโครงการวิทยาศาสตร์ข้อมูลเสร็จสิ้นโดยฉันสำหรับการเรียนรู้การเรียนรู้ด้วยตนเองและวัตถุประสงค์ในงานอดิเรก นำเสนอในรูปแบบของสมุดบันทึก Jupyter และไฟล์ Markdown (เผยแพร่ที่ RPUBS)
สำหรับประสบการณ์ที่น่าพึงพอใจยิ่งขึ้นสำหรับการท่องผลงานให้ตรวจสอบ sajalsharma.com
พอร์ตการลงทุน R ตั้งอยู่ที่นี่
หมายเหตุ: ข้อมูลที่ใช้ในโครงการ (เข้าถึงภายใต้ไดเรกทอรีข้อมูล) มีวัตถุประสงค์เพื่อการสาธิตเท่านั้น
คำแนะนำสำหรับการเรียกใช้โน้ตบุ๊ก Python ในพื้นที่
- ติดตั้งการพึ่งพาโดยใช้ข้อกำหนด. txt
- เรียกใช้โน้ตบุ๊กตามปกติโดยใช้เซิร์ฟเวอร์ Jupyter Notebook, VScode ฯลฯ
สารบัญ
การเรียนรู้ของเครื่องจักร
- การทำนายราคาที่อยู่อาศัยของบอสตัน: แบบจำลองการทำนายมูลค่าของบ้านที่กำหนดในตลาดอสังหาริมทรัพย์บอสตันโดยใช้เครื่องมือวิเคราะห์ทางสถิติต่างๆ ระบุราคาที่ดีที่สุดที่ลูกค้าสามารถขายบ้านโดยใช้การเรียนรู้ของเครื่อง
- การเรียนรู้ภายใต้การดูแล: การหาผู้บริจาคเพื่อการกุศล ML: การทดสอบอัลกอริธึมการเรียนรู้ที่มีภายใต้การดูแลหลายอย่างเพื่อสร้างแบบจำลองที่คาดการณ์ได้อย่างแม่นยำว่าบุคคลนั้นทำเงินได้มากกว่า $ 50,000 เพื่อระบุผู้บริจาคที่เป็นไปได้สำหรับองค์กรที่ไม่แสวงหาผลกำไร
- การเรียนรู้ที่ไม่ได้รับการดูแล: การสร้างกลุ่มลูกค้า: การวิเคราะห์ชุดข้อมูลที่มีข้อมูลเกี่ยวกับจำนวนการใช้จ่ายประจำปีของลูกค้าที่หลากหลาย (รายงานในหน่วยการเงิน) ของหมวดหมู่ผลิตภัณฑ์ที่หลากหลายสำหรับการค้นพบโครงสร้างภายในรูปแบบและความรู้ภายใน
- การเรียนรู้การเสริมแรง: การฝึกอบรม SmartCab เพื่อขับเคลื่อน: การสร้างตัวแทนขับรถ Q-Learning ที่ได้รับการปรับปรุงซึ่งจะนำทาง SmartCab ผ่านสภาพแวดล้อมไปสู่เป้าหมาย
- การเรียนรู้อย่างลึกซึ้ง: การรับรู้ลำดับตัวเลขโดยใช้ CNNs: การออกแบบและการใช้งานเครือข่ายประสาทแบบ convolutional ที่เรียนรู้ที่จะรับรู้ลำดับของตัวเลขโดยใช้ข้อมูลสังเคราะห์ที่สร้างขึ้นโดยการต่อภาพจาก MNIST
เครื่องมือ: Scikit-Learn, Pandas, Seoborn, Matplotlib, Pygame
การประมวลผลภาษาธรรมชาติ
ตัวจําแนกข้อความภัยพิบัติ: รูปแบบการจำแนกประเภท multilabel เพื่อทำนายหมวดหมู่ของข้อความภัยพิบัติ รวมถึงท่อ ETL สำหรับการประมวลผลข้อมูลท่อส่ง ML เพื่อฝึกอบรมโมเดลและเว็บแอปพร้อมการสร้างภาพข้อมูลซึ่งสามารถใช้โมเดลเพื่อจำแนกข้อความได้ เครื่องมือ: nltk, scikit-learn, xgboost, flask, plotly
การวิเคราะห์ความเชื่อมั่น 3 ทางสำหรับทวีต: ขั้ว 3 ทาง (บวก, ลบ, เป็นกลาง, เป็นกลาง) ระบบสำหรับทวีตโดยไม่ต้องใช้เอ็นจิ้นการวิเคราะห์ความเชื่อมั่นของ NLTK
การดึงข้อมูลภาษาข้าม: ระบบการดึงข้อมูลภาษาข้าม (CLIR) ซึ่งได้รับการสืบค้นเป็นภาษาเยอรมันค้นหาเอกสารข้อความที่เขียนเป็นภาษาอังกฤษ
เครื่องมือ: NLTK, Scikit
การวิเคราะห์ข้อมูลและการสร้างภาพข้อมูล
- งูหลาม
- การวิเคราะห์ความสามารถในการเดินที่ปรับขนาดได้ของเมลเบิร์น: การวิเคราะห์ความสามารถในการเดินของชานเมืองในเมลเบิร์นวิคตอเรียและผลกระทบ
- ชุดข้อมูลไททานิค - การวิเคราะห์เชิงสำรวจ: การวิเคราะห์เชิงสำรวจของผู้โดยสารออนบอร์ด RMS ไททานิคโดยใช้แพนด้าและภาพทะเล
- การวิเคราะห์ตลาดหุ้นสำหรับหุ้นเทคโนโลยี: การวิเคราะห์หุ้นเทคโนโลยีรวมถึงการเปลี่ยนแปลงราคาเมื่อเวลาผ่านไปผลตอบแทนรายวันและการทำนายพฤติกรรมหุ้น
- 2016 การวิเคราะห์ข้อมูลการสำรวจการเลือกตั้งทั่วไปของสหรัฐอเมริกา: การวิเคราะห์ที่ง่ายมากของปี 2559 ข้อมูลการสำรวจการเลือกตั้งทั่วไปของสหรัฐอเมริกา
- 911 การโทร - การวิเคราะห์เชิงสำรวจ: การวิเคราะห์ข้อมูลเชิงสำรวจของชุดข้อมูลการโทร 911 ที่โฮสต์บน Kaggle แสดงให้เห็นถึงการสกัดคุณสมบัติที่มีประโยชน์จากตัวแปรที่แตกต่างกัน
เครื่องมือ: Pandas, Folium, Seoborn และ Matplotlib
- R
- ระบบเฝ้าระวังปัจจัยเสี่ยงเชิงพฤติกรรม (BRFSS) 2013: การวิเคราะห์ข้อมูลเชิงสำรวจ: การวิเคราะห์เชิงสำรวจของชุดข้อมูล BRFSS-2013 โดยมุ่งเน้นไปที่การตรวจสอบความสัมพันธ์ระหว่างการศึกษาและพฤติกรรมการกินการนอนหลับและสุขภาพจิตและการสูบบุหรี่การดื่มและสุขภาพทั่วไปของบุคคล
- สถิติเชิงอนุมาน: ผู้ชายหรือผู้หญิงคัดค้านการสอนเพศศึกษาหรือไม่? : การใช้ชุดข้อมูล GSS (การสำรวจทางสังคมทั่วไป) เพื่ออนุมานว่าในปี 2555 เป็นผู้ชายอายุ 18 ปีขึ้นไปในสหรัฐอเมริกามีแนวโน้มที่จะต่อต้านการศึกษาเรื่องเพศศึกษาในโรงเรียนของรัฐมากกว่าผู้หญิง
- การสร้างภาพข้อมูล: การทุจริตและการพัฒนามนุษย์: พล็อตกระจายสำหรับความสัมพันธ์ระหว่าง 'ดัชนีการพัฒนามนุษย์' และ 'ดัชนีการรับรู้ทุจริต' ของประเทศ
- Moneyball: การวิเคราะห์และแทนที่ผู้เล่นที่หายไป: การสำรวจข้อมูลเบสบอลสำหรับปี 2544 เพื่อดูการเปลี่ยนสำหรับผู้เล่นคนสำคัญที่หายไปโดย Oakland A ในปี 2544 ได้รับแรงบันดาลใจจากหนังสือ/ภาพยนตร์: Moneyball
โครงการขนาดเล็ก:
งูหลาม
- ML ด้วยการถดถอยโลจิสติก: การใช้การถดถอยโลจิสติกเพื่อทำนายว่าผู้ใช้อินเทอร์เน็ตคลิกโฆษณาหรือไม่
- ML กับ K เพื่อนบ้านที่ใกล้ที่สุด: ใช้ KNN เพื่อจำแนกอินสแตนซ์จากชุดข้อมูลปลอมเป็นสองคลาสเป้าหมายในขณะที่เลือกค่าที่ดีที่สุดสำหรับ K โดยใช้วิธีข้อศอก
- ML กับต้นไม้ตัดสินใจและป่าไม้สุ่ม: การใช้ต้นไม้ตัดสินใจและป่าไม้สุ่มเพื่อทำนายว่าผู้ให้กู้จะจ่ายเงินคืนหรือไม่ ใช้ข้อมูลที่มีอยู่ในที่สาธารณะจาก LendingClub.com
- คำแนะนำภาพยนตร์โดยใช้ระบบแนะนำ: โครงการไมโครเพื่อสร้างระบบคำแนะนำที่ให้คำแนะนำภาพยนตร์ตามความคล้ายคลึงกันของการตรวจสอบผู้ใช้
R
- การถดถอยโลจิสติก ML: การทำนายระดับเงินเดือนของบุคคลที่ใช้การถดถอยโลจิสติก
- ต้นไม้ตัดสินใจ ML และป่าไม้สุ่ม: การใช้ต้นไม้ตัดสินใจและป่าไม้สุ่มเพื่อจัดประเภทโรงเรียนเป็นส่วนตัวหรือสาธารณะ
ฉันยังตะลุยเทคโนโลยีประเภทอื่น ๆ ทั้งหมด คุณสามารถค้นหาผลงานทั่วไปได้ที่นี่
หากคุณชอบสิ่งที่คุณเห็นต้องการแชทกับฉันเกี่ยวกับพอร์ตโฟลิโอโอกาสในการทำงานหรือการทำงานร่วมกันยิงอีเมลที่ [email protected]
สนับสนุนงานของฉัน
หากโครงการนี้เป็นแรงบันดาลใจให้คุณให้ความคิดเกี่ยวกับพอร์ตโฟลิโอของคุณเองหรือช่วยคุณโปรดลองซื้อกาแฟให้ฉัน