MyDatasciencePortfolio ได้รับการสนับสนุนจากเครื่องมือต่อไปนี้ โปรดช่วยสนับสนุนเราโดยการดูและลงทะเบียนเพื่อทดลองใช้ฟรี ?? ✌
การแนะนำ
การศึกษาลูกค้าปั่นป่วน
โพสต์บล็อกขนาดกลาง
ระบบแนะนำภาพยนตร์
การศึกษาอาชญากรรมซานฟรานซิสโก
การจัดกลุ่มสรุป
ไลบรารี NLP ที่มีประโยชน์
โครงการที่มีศักยภาพในอนาคต
ภาคผนวก
ยินดีต้อนรับสู่ผลงานโครงการวิทยาศาสตร์ข้อมูลที่ยอดเยี่ยมของฉัน ใน repo ของฉันคุณสามารถค้นหาวิธีแก้ปัญหาที่ยอดเยี่ยมและใช้งานได้จริงสำหรับปัญหาทางธุรกิจในโลกแห่งความเป็นจริงด้วยวิธีการทางสถิติและรูปแบบการเรียนรู้ของเครื่องจักรของรัฐ โครงการส่วนใหญ่ของฉันจะได้รับการสาธิตในสมุดบันทึก Jupyter Jupyter Notebook เป็นวิธีที่ยอดเยี่ยมในการแบ่งปันงานของฉันกับโลก มันมาพร้อมกับ markdown และ python environment และสามารถพกพาไปยังแพลตฟอร์มอื่น ๆ เช่น Databricks และ Google Colaboratory เช่นกัน
คอลเลกชันโครงการของฉันครอบคลุมแอพพลิเคชั่นการเรียนรู้ของเครื่องจักรที่ได้รับความนิยมเช่น การประมวลผลภาษาธรรมชาติ การเรียนรู้ของเครื่องจักรขนาดใหญ่ด้วย Spark และ ระบบแนะนำ มีอีกมากที่จะมา โครงการในอนาคตที่มีศักยภาพรวมถึง การสรุปข้อความ การพยากรณ์ราคาหุ้น กลยุทธ์การซื้อขายด้วยการเรียนรู้การเสริมแรง และ วิสัยทัศน์คอมพิวเตอร์
อัตราการปั่นเป็นหนึ่งในตัวชี้วัดธุรกิจที่สำคัญ บริษัท สามารถเปรียบเทียบอัตราการปั่นและอัตราการเติบโตเพื่อพิจารณาว่ามีการเติบโตหรือขาดทุนโดยรวมหรือไม่ เมื่ออัตราการปั่นป่วนสูงกว่าอัตราการเติบโต บริษัท ได้รับผลขาดทุนในฐานลูกค้า
ทำไมลูกค้าถึงปั่นและหยุดใช้บริการของ บริษัท ? จำนวนเงินที่ประมาณการปั่นป่วนสำหรับไตรมาสหน้าคืออะไร? ความสามารถในการตอบคำถามสองข้อสามารถให้ข้อมูลเชิงลึกที่มีความหมายเกี่ยวกับทิศทางที่ บริษัท กำลังมุ่งหน้าไปและวิธีที่ บริษัท สามารถปรับปรุงผลิตภัณฑ์และบริการของตนเพื่อให้ Constomers อยู่
Medium เป็นแพลตฟอร์มการเผยแพร่บล็อกยอดนิยมที่มีเนื้อหาและข้อมูลข้อความจำนวนมหาศาล ผู้คนเผยแพร่อะไร? หัวข้อแฝงในบล็อกโพสต์เหล่านั้นคืออะไร? อะไรทำให้บล็อกโพสต์เป็นที่นิยม? และแนวโน้มของเทคโนโลยีในปัจจุบันคืออะไร? โครงการนี้มีวัตถุประสงค์เพื่อตอบคำถามผ่านการสร้างภาพการวิเคราะห์กระบวนการภาษาธรรมชาติและเทคนิคการเรียนรู้ของเครื่อง
โดยเฉพาะฉันจะใช้ ทะเล และ แพนด้า สำหรับการวิเคราะห์เชิงสำรวจ สำหรับการสร้างแบบจำลองการเรียนรู้ของเครื่องฉันเลือก K-Mean , TSVD และ LatentDirichletAllocation สำหรับการสร้างแบบจำลองหัวข้อ ฉันจะทำการศึกษานี้ด้วยเฟรมเวิร์ก ML ที่แตกต่างกันสองแบบ: Sklearn และ Spark
Sklearn เป็นไลบรารีการเรียนรู้ของเครื่อง Python ที่ยอดเยี่ยมสำหรับนักวิทยาศาสตร์ด้านข้อมูล
อย่างไรก็ตามในยุคของข้อมูลขนาดใหญ่การวิเคราะห์ข้อมูลส่วนใหญ่จะถูกกำหนดไว้ในการคำนวณแบบกระจาย Spark เป็นเฟรมเวิร์กการคำนวณคลัสเตอร์แบบกระจายและจัดเตรียมอินเทอร์เฟซสำหรับการเขียนโปรแกรมกลุ่มทั้งหมดด้วยการขนานข้อมูลโดยนัยและความทนทานต่อความผิดพลาด
ผลิตภัณฑ์ส่วนใหญ่ที่เราใช้ในวันนี้ใช้พลังงานจากเอ็นจิ้นแนะนำ YouTube, Netflix, Amazon, Pinterest และรายการข้อมูลข้อมูลอื่น ๆ ทั้งหมดขึ้นอยู่กับเอ็นจิ้นคำแนะนำเพื่อกรองเนื้อหานับล้านและให้คำแนะนำส่วนบุคคลแก่ผู้ใช้
มันเจ๋งมากที่ได้สร้างระบบผู้แนะนำด้วยตัวเอง ฉันชอบดูหนังเมื่อฉันใช้เวลาอยู่กับครอบครัว ดังนั้นฉันจึงตัดสินใจสร้างภาพยนตร์แนะนำให้ตัวเอง ใน Generaly ระบบผู้แนะนำสามารถแบ่งออกเป็นสามประเภทได้อย่างหลวม ๆ : ระบบที่ใช้เนื้อหา ระบบการกรองความร่วมมือ และ ระบบไฮบริด (ซึ่งใช้การรวมกันของอีกสองอย่าง)
โครงการของฉันมุ่งเน้นไปที่ระบบการกรองความร่วมมือ ระบบที่ใช้การกรองร่วมกันใช้การกระทำของผู้ใช้เพื่อแนะนำรายการอื่น ๆ โดยทั่วไปพวกเขาสามารถเป็นผู้ใช้หรือตามรายการ วิธีการตามรายการมักจะต้องการมากกว่าวิธีการที่ใช้ผู้ใช้ วิธีการที่ใช้ผู้ใช้มักจะปรับขนาดได้ยากขึ้นเนื่องจากลักษณะแบบไดนามิกของผู้ใช้ในขณะที่รายการมักจะไม่เปลี่ยนแปลงมากนักดังนั้นวิธีการตามรายการมักจะสามารถคำนวณแบบออฟไลน์ได้
อย่างไรก็ตามการกรองการทำงานร่วมกันทั้งในรายการและตามผู้ใช้ยังคงเผชิญกับความท้าทายตาม:
เพื่อเอาชนะความท้าทายข้างต้นฉันจะใช้ การแยกตัวประกอบเมทริกซ์ เพื่อเรียนรู้คุณสมบัติแฝงและการโต้ตอบระหว่างผู้ใช้และรายการ
ซานฟรานซิสโกเกิดขึ้นเป็นเมืองที่แพงที่สุดแห่งหนึ่ง บริษัท ที่เพิ่งเริ่มต้นและ บริษัท ต่างๆย้ายเข้ามาในเมืองและดึงดูดความสามารถในเมืองมากขึ้นเรื่อย ๆ อย่างไรก็ตามเหตุการณ์อาชญากรรมดูเหมือนจะเพิ่มขึ้นเป็นรายได้เฉลี่ยของผู้อยู่อาศัยเช่นกัน รถเบรก-อินไลน์ 'การแพร่ระบาดของโรค' ในซานฟรานซิสโก
ในการศึกษานี้ฉันจะใช้ Spark เพื่อวิเคราะห์ชุดข้อมูลเหตุการณ์ที่รายงาน 15 ปีจาก SFPD และใช้วิธีการเรียนรู้ของเครื่องเพื่อทำความเข้าใจรูปแบบอาชญากรรมและการกระจายใน SF สุดท้ายฉันจะสร้างแบบจำลองการคาดการณ์อนุกรมเวลาเพื่อคาดการณ์อัตราอาชญากรรม
วันนี้เราสามารถรวบรวมข้อมูลที่ไม่มีโครงสร้างได้มากขึ้นก่อนหน้านี้ ไม่เหมือนกับข้อมูลที่มีโครงสร้างข้อมูลที่ไม่มีโครงสร้างไม่ได้ถูกจัดโครงสร้างผ่านแบบจำลองข้อมูลหรือสคีมาที่กำหนดไว้ล่วงหน้า แต่มีโครงสร้างภายใน ตัวอย่างหนึ่งของข้อมูลที่ไม่มีโครงสร้างคือข้อมูลข้อความเช่นสรุปการพล็อตเรื่องย่อของภาพยนตร์
ในโครงการนี้ฉันจะใช้เทคนิค NLP แบบคลาสสิก: คำโทเค็นคำ , คำพูดที่เกิดจาก การถอดคำหยุด , TF-IDF และอื่น ๆ เพื่อทำความสะอาดข้อมูลข้อความดิบและสารสกัดจากข้อความดิบ จากนั้นฉันจะใช้โมเดลการเรียนรู้ที่ไม่ได้รับการดูแลเช่น K-mean และ latentdirichletallocation ในการจัดกลุ่มเอกสารที่ไม่มีป้ายกำกับในกลุ่มที่แตกต่างกันมองเห็นผลลัพธ์และระบุหัวข้อ/โครงสร้างแฝงของพวกเขา
ด้วยเทคนิคการจัดกลุ่มที่ใช้กับข้อมูลที่ไม่มีโครงสร้างเราสามารถเริ่มค้นพบโครงสร้างภายในภายในข้อมูลและระบุความคล้ายคลึงกันระหว่างเอกสาร ด้วยคะแนนความคล้ายคลึงกันระหว่างเอกสารเราเริ่มมีความสามารถในการสอบถามและวิเคราะห์เอกสารจากที่เก็บเอกสารใด ๆ
การประมวลผลภาษาธรรมชาติ (NLP) เป็นพื้นที่ที่ได้รับความนิยมเกี่ยวกับวิธีการโปรแกรมเครื่องจักรในการประมวลผลและวิเคราะห์ข้อมูลภาษาธรรมชาติจำนวนมากและแยกข้อมูลที่มีความหมายออกมา
มีเครื่องมือและห้องสมุดมากมายที่ออกแบบมาเพื่อแก้ปัญหา NLP ไลบรารีที่ใช้กันมากที่สุดคือ ชุดเครื่องมือภาษา Natrual (NLTK) , Spacy , ชุดเครื่องมือ Sklearn NLP , Gensim , Pattern , Polyglot และอื่น ๆ อีกมากมาย สมุดบันทึกของฉันจะแนะนำการใช้งานขั้นพื้นฐานข้อดีและข้อเสียของแต่ละห้องสมุด NLP