ในพื้นที่เก็บข้อมูลคอลเลกชันที่มีความหลงใหลในตัวเองนี้คุณจะพบกับการเรียนรู้ของเครื่องจักรการขุดข้อมูลและความท้าทายด้านวิศวกรรมข้อมูลที่ฉันได้รับการจัดการจนถึงตอนนี้ ตลอดแนวทางนี้คุณจะเดินผ่านรายละเอียดของโครงการและที่เก็บ
ฉันหวังว่าคุณจะเพลิดเพลินไปกับการตรวจสอบที่เก็บข้อมูลเหล่านั้นที่เกี่ยวข้องกับ ML การขุดข้อมูลและวิศวกรรมข้อมูลบนโต๊ะด้านล่าง
คุณอาจติดต่อฉันเมื่อใดก็ตามที่คุณต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับโครงการ
| ปัญหา | วิธีการ | Libs | repo |
|---|---|---|---|
| การแปลงหน้า Landing Page | AB Testing , Z test | pandas , statsmodel | คลิก |
| การบูรณาการโมเดล Fashion Mnist (CNN) เข้ากับ Tensorboard และ MLFlow | CNN Deep Learning | Keras , MLflow , Pandas , Sklearn | คลิก |
| Dockerize แอปพลิเคชัน Apache Flink ผ่าน Docker | Apache Flink Table & SQL | Apache Flink Table & SQL , Docker , Docker-Compose | คลิก |
| ตัวรวบรวมข้อมูลเป็นบริการ | การค้นหา ( DFS , BFS ) | GO , Neo4j , Redis , Docker , Docker-Compose | คลิก |
| การทำนายข้ามแอ็คชั่นบนชุดข้อมูลเพลง | LightGBM , Linear Reg , Logistic Reg. | Sklearn , LightGBM , Pandas , Seaborn | คลิก |
| การจำแนกทรงผม | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | คลิก |
| การวิเคราะห์อนุกรมเวลาโดย Sarimax | ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | คลิก |
| ปัญหาการจำแนกประเภทหลายภาษาและหลายฉลากบนชุดข้อมูลแฟชั่น | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | คลิก |
| อันไหนที่จับ SMS ทั้งหมด* สแปม? | Naive Bayesian , SVM , Random Forest Classifier , Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | คลิก |
| ฉันเป็นของนวนิยายเรื่องไหน? | Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | คลิก |
| ทำไมลูกค้าถึงเลือกและจองยานพาหนะเฉพาะ | Random Forest Classifier | Sklearn , Pandas , Seaborn | คลิก |
| การพยากรณ์ผลกระทบของโปรโมชั่น (โปรโมชั่น 1, โปรโมชั่น 2) ต่อยอดขายในเยอรมนีออสเตรียและฝรั่งเศส | Random Forest Regressor , ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | คลิก |
| การสอนการจำแนกป่าแบบสุ่มใน Pyspark | Random Forest Classifier | Spark (PySpark) , Sklearn , Pandas , Seaborn | คลิก |
| การเพิ่มประสิทธิภาพข้อมูลเชิงพื้นที่: เข้าร่วมชุดข้อมูลตำแหน่งทางภูมิศาสตร์สองชุดโดยใช้ kdtree | Kd-tree | cKDTree | คลิก |
| การใช้อัลกอริทึม K-means ตั้งแต่เริ่มต้นใน Java | K-Means | Java SDK | คลิก |
| การคาดการณ์ราคาสปอต AWS โดยใช้ adaboosting บน rapidminer | Adaboost Classifier Decision Tree | Rapidminer | คลิก |
โปรดเลื่อนลงเพื่อดูรายละเอียดของโครงการอย่างครอบคลุมและเยี่ยมชมที่เก็บของพวกเขา
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Conversion | ขายปลีก | AB Testing , Z test | pandas , statsmodel | https://github.com/erdiolmezogullari/ml-ab-testing |
ในโครงการนี้การทดสอบ A/B ดำเนินการในชุดข้อมูลหลักสูตรของ Udacity ประกอบด้วย 5 คอลัมน์, <user_id, timestamp, group, landing_page, converted> ในการทดสอบ A/B เราใช้คอลัมน์ 3 คอลัมน์ของพวกเขา group, landing_page, and converted
ครั้งหนึ่งเราเคยจำลองการทดลองบางครั้งเกี่ยวกับอัตราการแปลง ( control, treatment ) ที่ได้รับผ่านชุดข้อมูลแล้ว หลังจากได้รับแนวคิดเพิ่มเติมเกี่ยวกับชุดข้อมูลด้วยการจำลองนี้เราควรสมมติฐานว่างและวิทยานิพนธ์ทางเลือก เพื่อเรียกร้องความจริงของเราเกี่ยวกับสมมติฐานทางเลือกเราคำนวณคะแนนวิกฤต Z โดยใช้วิธี Z test เกี่ยวกับอัลฟ่า (0.05) จากนั้นเราตรวจสอบเบต้าและพลังงานด้วยขนาดผลของการทดลอง
โปรดทราบว่าคุณสามารถตรวจสอบ ab_test.md เพื่อรับข้อมูลเพิ่มเติมเกี่ยวกับการทดสอบสมมติฐานและการทดสอบ A/B ด้วยภาพถ่ายที่สำคัญบางอย่าง
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Prediction | นักเขียนแฟชั่น | CNN Deep Learning | Keras , MLflow , Pandas , Sklearn | https://github.com/erdiolmezogullari/ml-fmnist-mlflow-tensorboard |
ในโครงการนี้เราใช้เทคโนโลยีคอนเทนเนอร์ Docker เพื่อสร้างแพลตฟอร์ม ML ตั้งแต่เริ่มต้น ประกอบด้วยคอนเทนเนอร์ Docker ที่แตกต่างกันสี่แบบ (MLFlow, Notebook, Postgres, Tensorboard) ที่สร้างขึ้นแล้วใน docker-compose.yml
รายละเอียดของคอนเทนเนอร์สามารถพบได้ภายใต้ไดเรกทอรี ./platform platform บริการคอนเทนเนอร์แต่ละแห่งมี dockerfile เฉพาะที่สอดคล้องกับไดเรกทอรี (MLFlow, Notebook, Postgres, Tensorboard) ภายใต้ไดเรกทอรีแพลตฟอร์ม
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Implementation | คลิกชุดข้อมูลสตรีม | Apache Flink Table & SQL | Apache Flink Table & SQL , Docker , Docker-Compose | https://github.com/erdiolmezogullari/de-flink-sql-as-a-docker |
ในโครงการนี้เราใช้เทคโนโลยีคอนเทนเนอร์ Docker เพื่อเปิดตัวกลุ่ม Flink และแอพ Flink แยกต่างหากตั้งแต่เริ่มต้น Flink Cluster (แพลตฟอร์ม) ประกอบด้วยคอนเทนเนอร์ Docker สองตัวที่แตกต่างกัน (JobManager, TaskManager) ที่สร้างขึ้นแล้วใน Docker-compose.flink.yml แอปพลิเคชัน Flink ประกอบด้วยคอนเทนเนอร์ Docker หนึ่งตัวที่ใช้ DockerFile (./App-flink-base/dockerfile) และเชลล์สคริปต์ (./App-flink-base/run.sh) เพื่อส่งไฟล์ JAR ไปยังคลัสเตอร์ใน Docker-compose-app-flink.yml
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Implementation | N/A | การค้นหา ( BFS , DFS ) | GO , Neo4j , Redis , Docker , Docker-Compose | https://github.com/erdiolmezogullari/de-crawler-as-a-service |
ในโครงการนี้มีการใช้บริการตัวรวบรวมข้อมูลอย่างง่ายตั้งแต่เริ่มต้นและรวมเข้ากับระบบ Redis และ Neo4j NOSQL โดยใช้ Docker และ Docker-compose บริการตัวรวบรวมข้อมูลกำลังรวบรวมข้อมูล URL เป้าหมายแรกจากนั้นไปที่ส่วนที่เหลือของ URL ในเอกสาร HTML ที่ดึงมาตามลำดับและซ้ำ ในขณะที่คลานเอกสาร HTML ที่สอดคล้องกับ URL มันสามารถอ้างถึงอัลกอริทึมการค้นหา 1 จาก 2 อัลกอริทึมที่แตกต่างกัน ( BFS, DFS ) อัลกอริทึมการค้นหาเหล่านั้นได้รับการสนับสนุนโดย go routines ใน GO เพื่อเพิ่มความเร็วให้บริการคลาน
ในระหว่างการคลานมีความเป็นไปได้ที่พวงของกิจวัตร GO ที่จะถูกสร้างขึ้นอาจนำมาใช้และประมวลผลเอกสาร HTML เดียวกันในเวลาเดียวกัน ในกรณีนี้ตัวรวบรวมข้อมูลอาจสร้างข้อมูลที่ไม่สอดคล้องกัน ดังนั้นระบบ Redis Key-Value NOSQL จึงเป็นที่ต้องการโดยใช้ในโครงการนี้เพื่อแก้ปัญหานั้นและสร้างระบบที่แข็งแกร่งและสม่ำเสมอ
URL แต่ละอันอาจหมายถึง URL อื่น ๆ ที่แตกต่างกันหรือตัวเองในเอกสาร HTML ความสัมพันธ์ระหว่างสอง URL สามารถเรียกได้ว่าเป็นลิงค์ มีวิธีง่ายๆที่ง่ายในการแสดงลิงก์และ URL ที่รวบรวมข้อมูลเหล่านั้นโดยใช้โครงสร้างข้อมูลเฉพาะซึ่งเป็นกราฟ ดังนั้นกราฟ Neo4j NOSQL จึงถูกนำมาใช้เพื่อแสดงและแสดงภาพกราฟที่ประกอบด้วย URL และลิงก์ ในระหว่างการรวบรวมข้อมูลบริการคลานกำลังสร้างโหนดใหม่สำหรับแต่ละ URL และลิงค์ใหม่สำหรับแต่ละคู่ URL หรืออัปเดตโหนดและลิงก์ที่มีอยู่ใน Neo4j โดยใช้ Cypher Query เช่นกัน
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Prediction | ชุดข้อมูลเพลง | LightGBM , Linear Reg , Logistic Reg. | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-prediction-skip-action |
ในโครงการนี้เราต้องทำนายความน่าจะเป็นของการข้ามการกระทำที่ทำโดยผู้ฟังซึ่งกำลังฟังเพลง เนื่องจากเราไม่มีชั้นเรียนใด ๆ ที่มีอยู่แล้วโดยใคร ในสถานการณ์เช่นนี้เราต้องสร้างป้ายกำกับเป้าหมายที่สามารถแก้ปัญหาได้ ดังนั้นควรเลือกตัวแปรเป้าหมายต่อเนื่องใด ๆ เป็นคุณสมบัติเป้าหมาย ตามคุณสมบัติที่เราสร้างขึ้น per_listen (percentage of listen) จะเหมาะสำหรับปัญหานั้นมากขึ้นเนื่องจากเห็นได้ชัดว่ามันให้แนวคิดเกี่ยวกับการข้ามการกระทำ หากเราเลือกมันเป็นคุณสมบัติเป้าหมายปัญหานี้จะกลายเป็นปัญหาการให้คะแนน/ความน่าจะเป็นเนื่องจากมีอัตราส่วนเวลาการฟังซึ่งมีแนวโน้มระหว่าง 0 ถึง 1
หากเราต้องการแปลงปัญหานั้นเป็นปัญหาคลาสสิกเราสามารถกำหนด treshold สำหรับการข้าม aciton เป็นกฎของ thump per_listen หมายถึงเปอร์เซ็นต์ของแทร็กที่ฟังโดยผู้ฟัง ดังนั้นเกณฑ์ของเราอาจเป็น 25%, 50% แม้ 51% และอื่น ๆ อย่างไรก็ตามก่อนที่จะตัดสินใจเราสามารถตรวจสอบฟังก์ชั่นการแจกแจงสะสมแบบเสริม (CCDF) ของ per_listen มันจะให้ความคิดเกี่ยวกับเกณฑ์เหตุผลของเรา ตามพล็อตต่อไปนี้เรามี 65% ของอินสแตนซ์ซึ่งมีค่า per_listen มากกว่า 0.5 ดังนั้น 0.5 มีความสมเหตุสมผลอย่างไรก็ตามเมื่อเราคิดเกี่ยวกับความเป็นจริงมากขึ้นน้อยกว่า 0.5 ประมาณ 0.25 จะเหมาะสมกว่ากำหนดการข้ามการกระทำใด ๆ
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Classification | ชุดข้อมูลทรงผม | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-hairstyle-classification |
ในโครงการนี้ชุดข้อมูลมีตัวอย่าง 10,000 ภาพที่ขุดจาก Instagram และคลัสเตอร์ตามทรงผมที่พวกเขาแสดง
cluster ตัวแปรแสดงถึงคลัสเตอร์ทรงผมที่ภาพได้รับการกำหนดโดยอัลกอริทึมการจดจำภาพ
แต่ละแถวมี url ตัวแปรซึ่งเป็นลิงค์ไปยังรูปภาพและจำนวนไลค์พร้อมกับ comments ต่อภาพ user_id เป็น ID ที่ไม่ซ้ำกันของบัญชี Instagram ที่โพสต์มาและ id ตัวแปรเป็นตัวระบุเฉพาะที่เกี่ยวข้องกับโพสต์เอง
แต่ละโพสต์มีวันที่ ( date_unix ) ในรูปแบบ UNIX เมื่อรูปภาพถูกโพสต์บน Instagram และนอกจากนี้วันที่ได้รับการแปลงเป็นรูปแบบที่แตกต่างกัน ( date_week -> หมายเลขที่ไม่ใช่ ISO ของสัปดาห์, วัน date_month -> เดือน, date_formated -> วันที่เต็ม DD/mm/yy) ส่วนหนึ่งสำหรับการวิเคราะห์ก่อน อย่าลังเลที่จะแปลงตัวแปรนั้นในลักษณะที่เหมาะสมกับการวิเคราะห์ของคุณ
นอกจากนี้ยังมีการเพิ่มตัวจําแนก influencer_flag ลงในแต่ละภาพที่มีมากกว่า 500 ไลค์ตั้งค่าสถานะเป็นโพสต์ที่มีอิทธิพล
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Time Series Analysis | สถิติการทำงาน | ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | https://github.com/erdiolmezogullari/ml-time-series-analysis-sarimax |
ในโครงการนี้เราใช้เทคนิคการวิเคราะห์อนุกรมเวลาเพื่อย่อยสลายข้อมูลของเราเป็น 3 องค์ประกอบเช่นด้านล่าง:
1-Trend (T)
2-Seasonility (S)
3-Residual (R)
เมื่อเราจำเป็นต้องได้รับชุดข้อมูล statinory ก่อนที่จะทำการวิเคราะห์อนุกรมเวลา (TSA) Beacuse อย่างไม่มีที่ติมันจะง่ายในการทำสัญญาผ่านชุดข้อมูลที่อยู่นิ่งเนื่องจากมันจะตอบสนองก่อนการแจกแจงปกติในแง่ของค่าเฉลี่ยและความแปรปรวน ดังนั้นเราจำเป็นต้องเจาะลึกลงไปในชุดข้อมูล RAW โดยใช้เทคนิค EDA บางอย่างเพื่อเปิดเผยข้อมูลเชิงลึกที่มีคุณค่าของข้อมูลที่เกี่ยวข้องกับแนวโน้มและฤดูกาลหากเป็นไปได้ที่จะสังเกตใน EDA หลังจากที่เราเสร็จสิ้นขั้นตอนการวิเคราะห์ข้อมูลเราต้องเลือกเทคนิคที่ดีที่สุด (เช่น Arima, Sarimax) เพื่อดำเนินการในชุดข้อมูลตามความรู้ของเราที่เราจะได้รับใน EDA
ใน EDA Stage เราจะใช้เทคนิคมากมายเช่นการวางกล่อง, การกลิ้งสถิติ (ค่าเฉลี่ย, std) ตามคุณสมบัติตามเวลา (ปี, เดือน, วัน, วัน, วันธรรมดาและไตรมาส) เพื่อค้นหา 2 องค์ประกอบ (เทรนด์, ฤดูกาล) จากชุดชุดเวลา 3 ชุด แปลงเหล่านั้นจะให้ข้อเสนอแนะที่สมเหตุสมผลสำหรับ TSA ก่อนเริ่มต้น
ในเวที TSA เราจะสร้างโมเดลที่แตกต่างกันสำหรับการพิจารณาที่ไม่ใช่ฤดูกาลและตามฤดูกาลโดยใช้ Arima และ Sarimax ในแพ็คเกจ Statsmodels ตามลำดับ
เนื่องจากส่วนที่ท้าทายที่สุดของ TSA คือการค้นหาพารามิเตอร์ที่เหมาะสมที่สุด (P, D, Q) และ (P, D, Q, S) ของเทคนิคเหล่านั้นเราจะอ้างถึง Autocorrelation (ACF) และฟังก์ชั่น Autocorrelation (MA)
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Classification | ชุดข้อมูลแฟชั่น | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/multi-label-classification |
ในโครงการนี้ชุดข้อมูลถูกรวบรวมผ่านเว็บไซต์แฟชั่นที่แตกต่างกัน ประกอบด้วย 7 ฟิลด์เช่นด้านล่าง
id : ตัวระบุผลิตภัณฑ์ที่ไม่ซ้ำกันname : ชื่อเรื่องของผลิตภัณฑ์ดังที่แสดงในเว็บไซต์ของเราdescription : คำอธิบายของผลิตภัณฑ์price : ราคาของผลิตภัณฑ์shop : ร้านค้าที่คุณสามารถซื้อผลิตภัณฑ์นี้ได้brand : แบรนด์ผลิตภัณฑ์labels : ป้ายกำกับหมวดหมู่ที่ใช้กับผลิตภัณฑ์นี้คุณสมบัติข้อความ (ชื่อ, คำอธิบาย) อยู่ในภาษาที่แตกต่างกันเช่นภาษาอังกฤษเยอรมันและรัสเซีย รูปแบบของคุณสมบัติเป้าหมายคือ multilabels (60 หมวดหมู่) ที่ติดแท็กตามหมวดหมู่ในเว็บไซต์แฟชั่นแตกต่างกัน
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
NLP | ข้อความ | Naive Bayesian , SVM , Random Forest Classifier , Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-spam-sms-classification |
ในโครงการนี้เราใช้อัลกอริธึมการเรียนรู้ (การจำแนกประเภท) และการเรียนรู้เชิงลึก (LSTM)
เราใช้ชุดข้อมูลสแปม SMS สาธารณะซึ่งไม่ใช่ชุดข้อมูลที่สะอาดหมดจด ข้อมูลประกอบด้วยสองคอลัมน์ที่แตกต่างกัน (คุณสมบัติ) เช่นบริบทและคลาส บริบทคอลัมน์หมายถึง SMS คลาสคอลัมน์อาจใช้ค่าที่อาจเป็น spam หรือ ham ที่สอดคล้องกับบริบท SMS ที่เกี่ยวข้อง
ก่อนที่จะใช้วิธีการเรียนรู้แบบภายใต้การดูแลใด ๆ เราได้ใช้การดำเนินการทำความสะอาดข้อมูลจำนวนมากเพื่อกำจัดข้อมูลที่ยุ่งเหยิงและสกปรกเนื่องจากมีบริบทที่ขาดและยุ่งเหยิง
หลังจากได้รับชุดข้อมูลที่ทำความสะอาดเราได้สร้างโทเค็นและบทละครของคลังข้อมูล SMS แยกกันโดยใช้ Spacy จากนั้นเราก็สร้าง Bag-of-word และ TF-IDF ของ SMS Corpus ตามลำดับ นอกเหนือจากการแปลงข้อมูลเหล่านี้แล้วเรายังดำเนินการ SVD, SVC, PCA เพื่อลดขนาดของชุดข้อมูล
เพื่อจัดการการแปลงข้อมูลในการฝึกอบรมและการทดสอบอย่างมีประสิทธิภาพและหลีกเลี่ยงการรั่วไหลของข้อมูลเราใช้คลาสไปป์ไลน์ของ Sklearn ดังนั้นเราจึงเพิ่มขั้นตอนการแปลงข้อมูลแต่ละขั้นตอน (เช่น bag-of-word , TF-IDF , SVC ) และตัวจําแนก (เช่น Naive Bayesian SVM , Random Forest Classifier ) เป็นอินสแตนซ์ของ Pipeline คลาส
หลังจากใช้วิธีการเรียนรู้ที่มีการดูแลผู้ดูแลแล้วเราก็ทำการเรียนรู้อย่างลึกซึ้ง สถาปัตยกรรมการเรียนรู้ลึกของเราที่เราใช้ขึ้นอยู่กับ LSTM ในการดำเนินการ LSTM โดยอนุมัติใน Keras (TensorFlow) เราจำเป็นต้องสร้างเมทริกซ์การฝังของคลังข้อมูลของเรา ดังนั้นเราจึงใช้วิธีการ Word2VEC ของ Gensim เพื่อรับเมทริกซ์การฝังมากกว่า TF-IDF
ในตอนท้ายของการประมวลผลแต่ละครั้งโดยตัวจําแนกที่แตกต่างกันเราได้วางแผนเมทริกซ์ความสับสนเพื่อเปรียบเทียบตัวจําแนกที่ดีที่สุดสำหรับการกรอง SMS สแปม

| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
NLP | ข้อความ | Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-deep-learning-keras-novel |
โครงการนี้เกี่ยวข้องกับปัญหาการจำแนกประเภทข้อความที่เราจัดการกับโมเดล Deeplearing (LSTM) ซึ่งจำแนกได้ตามย่อหน้าที่ได้รับการรวบรวมมากกว่า 12 นวนิยายที่แตกต่างกันแบบสุ่มด้านบน:
1. alice_in_wonderland
2. dracula
3. dubliners
4. great_expectations
5. hard_times
6. huckleberry_finn
7. les_miserable
8. moby_dick
9. oliver_twist
10. peter_pan
11. talw_of_two_cities
12. tom_sawyer
กล่าวอีกนัยหนึ่งคุณสามารถคิดเกี่ยวกับนวนิยายเหล่านั้นเป็นคลาสเป้าหมายของเราในชุดข้อมูลของเรา เพื่อแยกความแตกต่างของวรรคจริงแฝงความหมายระหว่างย่อหน้าจะมีบทบาทสำคัญ ดังนั้นเราจึงใช้ Deeplearing (LSTM) ที่ด้านบนของ Keras (Tensorflow) หลังจากสร้างเมทริกซ์การฝังโดย Gensim's word2vec
หากมีความหมายแฝงความหมายใด ๆ ในประโยคในย่อหน้าที่สอดคล้องกันเราคิดเกี่ยวกับย่อหน้าที่คล้ายกันถูกรวบรวมจากทรัพยากรเดียวกัน (นวนิยาย) ส่วนใหญ่น่าจะเป็น
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Imbalanced Data | การจองรถยนต์ | Random Forest Classifier | Sklearn , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-imbalanced-car-booking-data |
ในโครงการนี้เราได้สร้างรูปแบบการเรียนรู้ของเครื่องที่ตอบคำถาม - สิ่งที่ลูกค้าต้องการในชุดข้อมูลการจองรถยนต์
เราสำรวจชุดข้อมูลโดยใช้ Seaborn และเปลี่ยนคุณสมบัติใหม่ที่จำเป็น
นอกจากนี้รูปร่างของชุดข้อมูลนั้น imbalanced หมายความว่าการกระจายตัวของตัวแปรเป้าหมายนั้นเบ้ เพื่อเอาชนะความท้าทายนั้นได้มีการกำหนดเทคนิคที่แตกต่างกันสองสามอย่าง (เช่น over/under re-sampling techniques ) และวิธีการที่ใช้งานง่าย เราพยายามที่จะแก้ปัญหานั้นโดยใช้เทคนิคการสุ่มตัวอย่างอีกครั้งเช่นกัน
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Forecasting - Timeseries | ฝ่ายขาย | Random Forest Regressor | statsmodels , pandas , sklearn , seaborn | https://github.com/erdiolmezogullari/ml-time-series-analysis-on-sales-data |
ในโครงการนี้เราจำเป็นต้องทำการวิเคราะห์อนุกรมเวลาเพื่อรับข้อมูลเชิงลึกใหม่เกี่ยวกับโปรโมชั่น มีร้านค้าที่ให้โปรโมชั่นสองประเภทเช่นวิทยุทีวีที่สอดคล้องกับโปรโมชั่น 1 และโปรโมชั่น 2 เพื่อให้พวกเขาต้องการเพิ่มยอดขายทั่วประเทศเยอรมนีออสเตรียและฝรั่งเศส อย่างไรก็ตามพวกเขาไม่มีความคิดใด ๆ เกี่ยวกับโปรโมชั่นที่เพียงพอที่จะทำ ดังนั้นผลกระทบของโปรโมชั่นที่มีต่อการขายของพวกเขาจึงมีบทบาทสำคัญต่อความชอบของพวกเขา
ในการกำหนดกลยุทธ์การส่งเสริมการขายที่กำหนดไว้อย่างดีเราจำเป็นต้องวิเคราะห์ข้อมูลในแง่ของผลกระทบของโปรโมชั่น ในกรณีนั้นเนื่องจากข้อมูลขึ้นอยู่กับอนุกรมเวลาเราเคยเรียกใช้ time series decomposition หลังจากที่เราย่อยสลายข้อมูล observed เป็นส่วนประกอบ trend seasonal และส่วนประกอบ residual เราได้เปิดเผยผลกระทบของโปรโมชั่นอย่างชัดเจนเพื่อทำการตัดสินใจว่าโปรโมชั่นนั้นดีกว่าในแต่ละประเทศ
นอกจากนี้เราใช้ Random Forest Regression ในปัญหาการพยากรณ์นี้เพื่อเพิ่มการตัดสินใจของเรา
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
ML Service | สร้างแบบสุ่ม | Random Forest Classifier | Flask , Docker , Redis , Sklearn | https://github.com/erdiolmezogullari/ml-dockerized-microservice |
ในโครงการนี้ ML based micro-service ได้รับการพัฒนาที่ด้านบนของ REST และ Docker หลังจากสร้างรูปแบบการเรียนรู้ของเครื่องโดยการ Random Forest
เราใช้ docker-compose เพื่อเปิดใช้บริการไมโครด้านล่าง
1.Jupyter Notebook,
2.Restful Comm. (Flask),
3.Redis
หลังจากที่เราสร้างภาชนะที่แตกต่างกันสามคอนเทนเนอร์ MLASS ของเราจะพร้อม
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
PySpark | สร้างแบบสุ่ม | Random Forest Classifier | Spark (PySpark) , Sklearn , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-random-forest-pyspark |
ในโครงการนี้คุณสามารถค้นหาโค้ดตัวอย่างที่เกี่ยวข้องกับวิธีที่คุณสามารถใช้ mllib ของ Pyspark Spark (ตัวจําแนกป่าสุ่ม) และไปป์ไลน์ผ่าน Pyspark
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Data Enrichment | เชิงพื้นที่ | Kd-tree | cKDTree | https://github.com/erdiolmezogullari/ml-join-spatial-data |
ในโครงการนี้เพื่อสร้างสคริปต์ที่มีประสิทธิภาพซึ่งพบสนามบินที่ใกล้เคียงที่สุดกับผู้ใช้ที่กำหนดตามตำแหน่งทางภูมิศาสตร์และตำแหน่งทางภูมิศาสตร์ของสนามบิน
เพื่อให้การเพิ่มประสิทธิภาพข้อมูลนั้นเราใช้อัลกอริทึม Kd-tree
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Implementation | สถิติของประเทศ | K-Means | Java SDK | https://github.com/erdiolmezogullari/ml-k-means |
ในโครงการนี้อัลกอริทึมการจัดกลุ่ม k-mean ถูกนำไปใช้ใน Java ตั้งแต่เริ่มต้น ชุดข้อมูล: https://en.wikibooks.org/wiki/data_mining_algorithms_in_r/clustering/k-means#input_data
| ปัญหา | ข้อมูล | วิธีการ | Libs | การเชื่อมโยง |
|---|---|---|---|---|
Forecasting, Timeseries Analysis | ราคาสปอต AWS EC2 | Adaboost Classifier Decision Tree | Rapidminer | https://github.com/erdiolmezogullari/ml-forecasting-aws-spot-price |
ในโครงการนี้เราจะใช้ข้อมูลสาธารณะซึ่งรวบรวมโดยบุคคลที่สามและเผยแพร่ผ่านเว็บไซต์เฉพาะบางแห่ง เนื่องจากข้อมูลของเราจะเกี่ยวข้องกับการคำนวณแบบยืดหยุ่น (AWS) (EC2) ของ Amazon Web Services (EC2) ส่วนใหญ่จะประกอบด้วยฟิลด์ที่แตกต่างกัน EC2 เป็นเครื่องเสมือนจริงในคลาวด์ของ AWS เครื่องเสมือนสามารถสร้างได้ทันเวลาไม่ว่าจะเป็นคลาวด์ส่วนตัวหรือสาธารณะเหนือ AWS เมื่อใดก็ตามที่คุณต้องการ เครื่องเสมือนใหม่สามารถเลือกได้เกี่ยวกับรายละเอียดและการกำหนดค่าที่แตกต่างกันในแง่ของ CPU, RAM, ที่เก็บข้อมูลและวงดนตรีเครือข่ายก่อนที่จะสร้างครั้งเดียวตั้งแต่เริ่มต้น เครื่องจักร EC2 ยังถูกแยกออกจากกันและจัดการโดย AWS ในภูมิภาคทางภูมิศาสตร์ที่แตกต่างกัน (US East, US West, EU, Asia Pacific, อเมริกาใต้) และโซนเพื่อเพิ่มความพร้อมของเครื่องเสมือนจริงทั่วโลก AWS มีการแบ่งส่วนที่แตกต่างกันซึ่งถูกจัดประเภทตามข้อกำหนดของระบบโดย AWS ตามเป้าหมายที่แตกต่างกัน (อินสแตนซ์มาโครวัตถุประสงค์ทั่วไปการคำนวณที่ดีที่สุดการจัดเก็บที่ดีที่สุดอินสแตนซ์ GPU อินสแตนซ์หน่วยความจำที่ปรับให้เหมาะสม) ตัวเลือกการชำระเงินจะทุ่มเท, ondemand และสปอตอินสแตนซ์ เนื่องจากพวกเขามีค่าใช้จ่ายที่แตกต่างกันในการดำเนินงานของลูกค้าลูกค้าอาจต้องการเครื่องเสมือนประเภทต่าง ๆ ตามเป้าหมายและงบประมาณของพวกเขา โดยทั่วไปอินสแตนซ์สปอตนั้นถูกกว่าตัวเลือกที่เหลือ อย่างไรก็ตามอินสแตนซ์ของสปอตอาจถูกขัดจังหวะหากราคาตลาดเกินกว่าการเสนอราคาสูงสุดของเรา ในการวิจัยของเราเราจะมุ่งเน้นไปที่การชำระเงินสปอตอินสแตนซ์ เป้าหมายของเราในโครงการนี้คือการเลือกอินสแตนซ์ AWS ที่ถูกต้องจากตลาดอินสแตนซ์สปอตตามความต้องการของลูกค้า เราวางแผนที่จะดำเนินการตามแผนการตัดสินใจเกี่ยวกับการสตรีมข้อมูลเพื่อทำการตัดสินใจทันที มันอาจจะถูกนำไปใช้เป็นต้นไม้ตัดสินใจรุ่นที่เพิ่มขึ้นเนื่องจากข้อมูลมีการเปลี่ยนแปลงอย่างต่อเนื่อง