ดาวน์โหลด ml projects - ml projects Source Download

ml projects

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การแนะนำ

ในพื้นที่เก็บข้อมูลคอลเลกชันที่มีความหลงใหลในตัวเองนี้คุณจะพบกับการเรียนรู้ของเครื่องจักรการขุดข้อมูลและความท้าทายด้านวิศวกรรมข้อมูลที่ฉันได้รับการจัดการจนถึงตอนนี้ ตลอดแนวทางนี้คุณจะเดินผ่านรายละเอียดของโครงการและที่เก็บ

ฉันหวังว่าคุณจะเพลิดเพลินไปกับการตรวจสอบที่เก็บข้อมูลเหล่านั้นที่เกี่ยวข้องกับ ML การขุดข้อมูลและวิศวกรรมข้อมูลบนโต๊ะด้านล่าง

คุณอาจติดต่อฉันเมื่อใดก็ตามที่คุณต้องการรับข้อมูลเพิ่มเติมเกี่ยวกับโครงการ

ปัญหา	วิธีการ	Libs	repo
การแปลงหน้า Landing Page	`AB Testing` , `Z test`	`pandas` , `statsmodel`	คลิก
การบูรณาการโมเดล Fashion Mnist (CNN) เข้ากับ Tensorboard และ MLFlow	`CNN` `Deep Learning`	`Keras` , `MLflow` , `Pandas` , `Sklearn`	คลิก
Dockerize แอปพลิเคชัน Apache Flink ผ่าน Docker	`Apache Flink Table & SQL`	`Apache Flink Table & SQL` , `Docker` , `Docker-Compose`	คลิก
ตัวรวบรวมข้อมูลเป็นบริการ	การค้นหา ( `DFS` , `BFS` )	`GO` , `Neo4j` , `Redis` , `Docker` , `Docker-Compose`	คลิก
การทำนายข้ามแอ็คชั่นบนชุดข้อมูลเพลง	`LightGBM` , `Linear Reg` , `Logistic Reg.`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	คลิก
การจำแนกทรงผม	`LightGBM` , `TF-IDF`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	คลิก
การวิเคราะห์อนุกรมเวลาโดย Sarimax	`ARIMA` , `SARIMAX`	`statsmodels` , `pandas` , `sklearn` , `seaborn`	คลิก
ปัญหาการจำแนกประเภทหลายภาษาและหลายฉลากบนชุดข้อมูลแฟชั่น	`LightGBM` , `TF-IDF`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	คลิก
อันไหนที่จับ SMS ทั้งหมด* สแปม?	`Naive Bayesian` , `SVM` , `Random Forest Classifier` , `Deep Learning - LSTM` , `Word2Vec`	`Sklearn` , `Keras` , `Gensim` , `Pandas` , `Seaborn`	คลิก
ฉันเป็นของนวนิยายเรื่องไหน?	`Deep Learning - LSTM` , `Word2Vec`	`Sklearn` , `Keras` , `Gensim` , `Pandas` , `Seaborn`	คลิก
ทำไมลูกค้าถึงเลือกและจองยานพาหนะเฉพาะ	`Random Forest Classifier`	`Sklearn` , `Pandas` , `Seaborn`	คลิก
การพยากรณ์ผลกระทบของโปรโมชั่น (โปรโมชั่น 1, โปรโมชั่น 2) ต่อยอดขายในเยอรมนีออสเตรียและฝรั่งเศส	`Random Forest Regressor` , `ARIMA` , `SARIMAX`	`statsmodels` , `pandas` , `sklearn` , `seaborn`	คลิก
การสอนการจำแนกป่าแบบสุ่มใน Pyspark	`Random Forest Classifier`	`Spark (PySpark)` , `Sklearn` , `Pandas` , `Seaborn`	คลิก
การเพิ่มประสิทธิภาพข้อมูลเชิงพื้นที่: เข้าร่วมชุดข้อมูลตำแหน่งทางภูมิศาสตร์สองชุดโดยใช้ kdtree	`Kd-tree`	`cKDTree`	คลิก
การใช้อัลกอริทึม K-means ตั้งแต่เริ่มต้นใน Java	`K-Means`	`Java SDK`	คลิก
การคาดการณ์ราคาสปอต AWS โดยใช้ adaboosting บน rapidminer	`Adaboost Classifier` `Decision Tree`	`Rapidminer`	คลิก

โปรดเลื่อนลงเพื่อดูรายละเอียดของโครงการอย่างครอบคลุมและเยี่ยมชมที่เก็บของพวกเขา

การทดสอบ A/B เพื่อแยกแยะผลกระทบของเวอร์ชัน Landing Page ต่อผู้ใช้

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Conversion`	ขายปลีก	`AB Testing` , `Z test`	`pandas` , `statsmodel`	https://github.com/erdiolmezogullari/ml-ab-testing

ในโครงการนี้การทดสอบ A/B ดำเนินการในชุดข้อมูลหลักสูตรของ Udacity ประกอบด้วย 5 คอลัมน์, <user_id, timestamp, group, landing_page, converted> ในการทดสอบ A/B เราใช้คอลัมน์ 3 คอลัมน์ของพวกเขา group, landing_page, and converted

ครั้งหนึ่งเราเคยจำลองการทดลองบางครั้งเกี่ยวกับอัตราการแปลง ( control, treatment ) ที่ได้รับผ่านชุดข้อมูลแล้ว หลังจากได้รับแนวคิดเพิ่มเติมเกี่ยวกับชุดข้อมูลด้วยการจำลองนี้เราควรสมมติฐานว่างและวิทยานิพนธ์ทางเลือก เพื่อเรียกร้องความจริงของเราเกี่ยวกับสมมติฐานทางเลือกเราคำนวณคะแนนวิกฤต Z โดยใช้วิธี Z test เกี่ยวกับอัลฟ่า (0.05) จากนั้นเราตรวจสอบเบต้าและพลังงานด้วยขนาดผลของการทดลอง

โปรดทราบว่าคุณสามารถตรวจสอบ ab_test.md เพื่อรับข้อมูลเพิ่มเติมเกี่ยวกับการทดสอบสมมติฐานและการทดสอบ A/B ด้วยภาพถ่ายที่สำคัญบางอย่าง

นักเขียนแฟชั่นด้วย tensorboard และ mlflow

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Prediction`	นักเขียนแฟชั่น	`CNN` `Deep Learning`	`Keras` , `MLflow` , `Pandas` , `Sklearn`	https://github.com/erdiolmezogullari/ml-fmnist-mlflow-tensorboard

ในโครงการนี้เราใช้เทคโนโลยีคอนเทนเนอร์ Docker เพื่อสร้างแพลตฟอร์ม ML ตั้งแต่เริ่มต้น ประกอบด้วยคอนเทนเนอร์ Docker ที่แตกต่างกันสี่แบบ (MLFlow, Notebook, Postgres, Tensorboard) ที่สร้างขึ้นแล้วใน docker-compose.yml

รายละเอียดของคอนเทนเนอร์สามารถพบได้ภายใต้ไดเรกทอรี ./platform platform บริการคอนเทนเนอร์แต่ละแห่งมี dockerfile เฉพาะที่สอดคล้องกับไดเรกทอรี (MLFlow, Notebook, Postgres, Tensorboard) ภายใต้ไดเรกทอรีแพลตฟอร์ม

Dockerize แอปพลิเคชัน Apache Flink

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Implementation`	คลิกชุดข้อมูลสตรีม	`Apache Flink Table & SQL`	`Apache Flink Table & SQL` , `Docker` , `Docker-Compose`	https://github.com/erdiolmezogullari/de-flink-sql-as-a-docker

ในโครงการนี้เราใช้เทคโนโลยีคอนเทนเนอร์ Docker เพื่อเปิดตัวกลุ่ม Flink และแอพ Flink แยกต่างหากตั้งแต่เริ่มต้น Flink Cluster (แพลตฟอร์ม) ประกอบด้วยคอนเทนเนอร์ Docker สองตัวที่แตกต่างกัน (JobManager, TaskManager) ที่สร้างขึ้นแล้วใน Docker-compose.flink.yml แอปพลิเคชัน Flink ประกอบด้วยคอนเทนเนอร์ Docker หนึ่งตัวที่ใช้ DockerFile (./App-flink-base/dockerfile) และเชลล์สคริปต์ (./App-flink-base/run.sh) เพื่อส่งไฟล์ JAR ไปยังคลัสเตอร์ใน Docker-compose-app-flink.yml

ตัวรวบรวมข้อมูลเป็นบริการ

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Implementation`	N/A	การค้นหา ( `BFS` , `DFS` )	`GO` , `Neo4j` , `Redis` , `Docker` , `Docker-Compose`	https://github.com/erdiolmezogullari/de-crawler-as-a-service

ในโครงการนี้มีการใช้บริการตัวรวบรวมข้อมูลอย่างง่ายตั้งแต่เริ่มต้นและรวมเข้ากับระบบ Redis และ Neo4j NOSQL โดยใช้ Docker และ Docker-compose บริการตัวรวบรวมข้อมูลกำลังรวบรวมข้อมูล URL เป้าหมายแรกจากนั้นไปที่ส่วนที่เหลือของ URL ในเอกสาร HTML ที่ดึงมาตามลำดับและซ้ำ ในขณะที่คลานเอกสาร HTML ที่สอดคล้องกับ URL มันสามารถอ้างถึงอัลกอริทึมการค้นหา 1 จาก 2 อัลกอริทึมที่แตกต่างกัน ( BFS, DFS ) อัลกอริทึมการค้นหาเหล่านั้นได้รับการสนับสนุนโดย go routines ใน GO เพื่อเพิ่มความเร็วให้บริการคลาน

ในระหว่างการคลานมีความเป็นไปได้ที่พวงของกิจวัตร GO ที่จะถูกสร้างขึ้นอาจนำมาใช้และประมวลผลเอกสาร HTML เดียวกันในเวลาเดียวกัน ในกรณีนี้ตัวรวบรวมข้อมูลอาจสร้างข้อมูลที่ไม่สอดคล้องกัน ดังนั้นระบบ Redis Key-Value NOSQL จึงเป็นที่ต้องการโดยใช้ในโครงการนี้เพื่อแก้ปัญหานั้นและสร้างระบบที่แข็งแกร่งและสม่ำเสมอ

URL แต่ละอันอาจหมายถึง URL อื่น ๆ ที่แตกต่างกันหรือตัวเองในเอกสาร HTML ความสัมพันธ์ระหว่างสอง URL สามารถเรียกได้ว่าเป็นลิงค์ มีวิธีง่ายๆที่ง่ายในการแสดงลิงก์และ URL ที่รวบรวมข้อมูลเหล่านั้นโดยใช้โครงสร้างข้อมูลเฉพาะซึ่งเป็นกราฟ ดังนั้นกราฟ Neo4j NOSQL จึงถูกนำมาใช้เพื่อแสดงและแสดงภาพกราฟที่ประกอบด้วย URL และลิงก์ ในระหว่างการรวบรวมข้อมูลบริการคลานกำลังสร้างโหนดใหม่สำหรับแต่ละ URL และลิงค์ใหม่สำหรับแต่ละคู่ URL หรืออัปเดตโหนดและลิงก์ที่มีอยู่ใน Neo4j โดยใช้ Cypher Query เช่นกัน

การทำนายข้ามการกระทำ

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Prediction`	ชุดข้อมูลเพลง	`LightGBM` , `Linear Reg` , `Logistic Reg.`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-prediction-skip-action

ในโครงการนี้เราต้องทำนายความน่าจะเป็นของการข้ามการกระทำที่ทำโดยผู้ฟังซึ่งกำลังฟังเพลง เนื่องจากเราไม่มีชั้นเรียนใด ๆ ที่มีอยู่แล้วโดยใคร ในสถานการณ์เช่นนี้เราต้องสร้างป้ายกำกับเป้าหมายที่สามารถแก้ปัญหาได้ ดังนั้นควรเลือกตัวแปรเป้าหมายต่อเนื่องใด ๆ เป็นคุณสมบัติเป้าหมาย ตามคุณสมบัติที่เราสร้างขึ้น per_listen (percentage of listen) จะเหมาะสำหรับปัญหานั้นมากขึ้นเนื่องจากเห็นได้ชัดว่ามันให้แนวคิดเกี่ยวกับการข้ามการกระทำ หากเราเลือกมันเป็นคุณสมบัติเป้าหมายปัญหานี้จะกลายเป็นปัญหาการให้คะแนน/ความน่าจะเป็นเนื่องจากมีอัตราส่วนเวลาการฟังซึ่งมีแนวโน้มระหว่าง 0 ถึง 1

หากเราต้องการแปลงปัญหานั้นเป็นปัญหาคลาสสิกเราสามารถกำหนด treshold สำหรับการข้าม aciton เป็นกฎของ thump per_listen หมายถึงเปอร์เซ็นต์ของแทร็กที่ฟังโดยผู้ฟัง ดังนั้นเกณฑ์ของเราอาจเป็น 25%, 50% แม้ 51% และอื่น ๆ อย่างไรก็ตามก่อนที่จะตัดสินใจเราสามารถตรวจสอบฟังก์ชั่นการแจกแจงสะสมแบบเสริม (CCDF) ของ per_listen มันจะให้ความคิดเกี่ยวกับเกณฑ์เหตุผลของเรา ตามพล็อตต่อไปนี้เรามี 65% ของอินสแตนซ์ซึ่งมีค่า per_listen มากกว่า 0.5 ดังนั้น 0.5 มีความสมเหตุสมผลอย่างไรก็ตามเมื่อเราคิดเกี่ยวกับความเป็นจริงมากขึ้นน้อยกว่า 0.5 ประมาณ 0.25 จะเหมาะสมกว่ากำหนดการข้ามการกระทำใด ๆ

การจำแนกทรงผม

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Classification`	ชุดข้อมูลทรงผม	`LightGBM` , `TF-IDF`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-hairstyle-classification

ในโครงการนี้ชุดข้อมูลมีตัวอย่าง 10,000 ภาพที่ขุดจาก Instagram และคลัสเตอร์ตามทรงผมที่พวกเขาแสดง

cluster ตัวแปรแสดงถึงคลัสเตอร์ทรงผมที่ภาพได้รับการกำหนดโดยอัลกอริทึมการจดจำภาพ

แต่ละแถวมี url ตัวแปรซึ่งเป็นลิงค์ไปยังรูปภาพและจำนวนไลค์พร้อมกับ comments ต่อภาพ user_id เป็น ID ที่ไม่ซ้ำกันของบัญชี Instagram ที่โพสต์มาและ id ตัวแปรเป็นตัวระบุเฉพาะที่เกี่ยวข้องกับโพสต์เอง

แต่ละโพสต์มีวันที่ ( date_unix ) ในรูปแบบ UNIX เมื่อรูปภาพถูกโพสต์บน Instagram และนอกจากนี้วันที่ได้รับการแปลงเป็นรูปแบบที่แตกต่างกัน ( date_week -> หมายเลขที่ไม่ใช่ ISO ของสัปดาห์, วัน date_month -> เดือน, date_formated -> วันที่เต็ม DD/mm/yy) ส่วนหนึ่งสำหรับการวิเคราะห์ก่อน อย่าลังเลที่จะแปลงตัวแปรนั้นในลักษณะที่เหมาะสมกับการวิเคราะห์ของคุณ

นอกจากนี้ยังมีการเพิ่มตัวจําแนก influencer_flag ลงในแต่ละภาพที่มีมากกว่า 500 ไลค์ตั้งค่าสถานะเป็นโพสต์ที่มีอิทธิพล

การวิเคราะห์อนุกรมเวลาโดย Sarimax

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Time Series Analysis`	สถิติการทำงาน	`ARIMA` , `SARIMAX`	`statsmodels` , `pandas` , `sklearn` , `seaborn`	https://github.com/erdiolmezogullari/ml-time-series-analysis-sarimax

ในโครงการนี้เราใช้เทคนิคการวิเคราะห์อนุกรมเวลาเพื่อย่อยสลายข้อมูลของเราเป็น 3 องค์ประกอบเช่นด้านล่าง:

 1-Trend (T)
2-Seasonility (S)
3-Residual (R)

เมื่อเราจำเป็นต้องได้รับชุดข้อมูล statinory ก่อนที่จะทำการวิเคราะห์อนุกรมเวลา (TSA) Beacuse อย่างไม่มีที่ติมันจะง่ายในการทำสัญญาผ่านชุดข้อมูลที่อยู่นิ่งเนื่องจากมันจะตอบสนองก่อนการแจกแจงปกติในแง่ของค่าเฉลี่ยและความแปรปรวน ดังนั้นเราจำเป็นต้องเจาะลึกลงไปในชุดข้อมูล RAW โดยใช้เทคนิค EDA บางอย่างเพื่อเปิดเผยข้อมูลเชิงลึกที่มีคุณค่าของข้อมูลที่เกี่ยวข้องกับแนวโน้มและฤดูกาลหากเป็นไปได้ที่จะสังเกตใน EDA หลังจากที่เราเสร็จสิ้นขั้นตอนการวิเคราะห์ข้อมูลเราต้องเลือกเทคนิคที่ดีที่สุด (เช่น Arima, Sarimax) เพื่อดำเนินการในชุดข้อมูลตามความรู้ของเราที่เราจะได้รับใน EDA

ใน EDA Stage เราจะใช้เทคนิคมากมายเช่นการวางกล่อง, การกลิ้งสถิติ (ค่าเฉลี่ย, std) ตามคุณสมบัติตามเวลา (ปี, เดือน, วัน, วัน, วันธรรมดาและไตรมาส) เพื่อค้นหา 2 องค์ประกอบ (เทรนด์, ฤดูกาล) จากชุดชุดเวลา 3 ชุด แปลงเหล่านั้นจะให้ข้อเสนอแนะที่สมเหตุสมผลสำหรับ TSA ก่อนเริ่มต้น

ในเวที TSA เราจะสร้างโมเดลที่แตกต่างกันสำหรับการพิจารณาที่ไม่ใช่ฤดูกาลและตามฤดูกาลโดยใช้ Arima และ Sarimax ในแพ็คเกจ Statsmodels ตามลำดับ

เนื่องจากส่วนที่ท้าทายที่สุดของ TSA คือการค้นหาพารามิเตอร์ที่เหมาะสมที่สุด (P, D, Q) และ (P, D, Q, S) ของเทคนิคเหล่านั้นเราจะอ้างถึง Autocorrelation (ACF) และฟังก์ชั่น Autocorrelation (MA)

ปัญหาการจำแนกประเภทหลายภาษาและหลายฉลากบนชุดข้อมูลแฟชั่น

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Classification`	ชุดข้อมูลแฟชั่น	`LightGBM` , `TF-IDF`	`Sklearn` , `LightGBM` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/multi-label-classification

ในโครงการนี้ชุดข้อมูลถูกรวบรวมผ่านเว็บไซต์แฟชั่นที่แตกต่างกัน ประกอบด้วย 7 ฟิลด์เช่นด้านล่าง

id : ตัวระบุผลิตภัณฑ์ที่ไม่ซ้ำกัน
name : ชื่อเรื่องของผลิตภัณฑ์ดังที่แสดงในเว็บไซต์ของเรา
description : คำอธิบายของผลิตภัณฑ์
price : ราคาของผลิตภัณฑ์
shop : ร้านค้าที่คุณสามารถซื้อผลิตภัณฑ์นี้ได้
brand : แบรนด์ผลิตภัณฑ์
labels : ป้ายกำกับหมวดหมู่ที่ใช้กับผลิตภัณฑ์นี้

คุณสมบัติข้อความ (ชื่อ, คำอธิบาย) อยู่ในภาษาที่แตกต่างกันเช่นภาษาอังกฤษเยอรมันและรัสเซีย รูปแบบของคุณสมบัติเป้าหมายคือ multilabels (60 หมวดหมู่) ที่ติดแท็กตามหมวดหมู่ในเว็บไซต์แฟชั่นแตกต่างกัน

อันไหนที่จับ SMS ทั้งหมด* สแปม?

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`NLP`	ข้อความ	`Naive Bayesian` , `SVM` , `Random Forest Classifier` , `Deep Learning - LSTM` , `Word2Vec`	`Sklearn` , `Keras` , `Gensim` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-spam-sms-classification

ในโครงการนี้เราใช้อัลกอริธึมการเรียนรู้ (การจำแนกประเภท) และการเรียนรู้เชิงลึก (LSTM)

เราใช้ชุดข้อมูลสแปม SMS สาธารณะซึ่งไม่ใช่ชุดข้อมูลที่สะอาดหมดจด ข้อมูลประกอบด้วยสองคอลัมน์ที่แตกต่างกัน (คุณสมบัติ) เช่นบริบทและคลาส บริบทคอลัมน์หมายถึง SMS คลาสคอลัมน์อาจใช้ค่าที่อาจเป็น spam หรือ ham ที่สอดคล้องกับบริบท SMS ที่เกี่ยวข้อง

ก่อนที่จะใช้วิธีการเรียนรู้แบบภายใต้การดูแลใด ๆ เราได้ใช้การดำเนินการทำความสะอาดข้อมูลจำนวนมากเพื่อกำจัดข้อมูลที่ยุ่งเหยิงและสกปรกเนื่องจากมีบริบทที่ขาดและยุ่งเหยิง

หลังจากได้รับชุดข้อมูลที่ทำความสะอาดเราได้สร้างโทเค็นและบทละครของคลังข้อมูล SMS แยกกันโดยใช้ Spacy จากนั้นเราก็สร้าง Bag-of-word และ TF-IDF ของ SMS Corpus ตามลำดับ นอกเหนือจากการแปลงข้อมูลเหล่านี้แล้วเรายังดำเนินการ SVD, SVC, PCA เพื่อลดขนาดของชุดข้อมูล

เพื่อจัดการการแปลงข้อมูลในการฝึกอบรมและการทดสอบอย่างมีประสิทธิภาพและหลีกเลี่ยงการรั่วไหลของข้อมูลเราใช้คลาสไปป์ไลน์ของ Sklearn ดังนั้นเราจึงเพิ่มขั้นตอนการแปลงข้อมูลแต่ละขั้นตอน (เช่น bag-of-word , TF-IDF , SVC ) และตัวจําแนก (เช่น Naive Bayesian SVM , Random Forest Classifier ) เป็นอินสแตนซ์ของ Pipeline คลาส

หลังจากใช้วิธีการเรียนรู้ที่มีการดูแลผู้ดูแลแล้วเราก็ทำการเรียนรู้อย่างลึกซึ้ง สถาปัตยกรรมการเรียนรู้ลึกของเราที่เราใช้ขึ้นอยู่กับ LSTM ในการดำเนินการ LSTM โดยอนุมัติใน Keras (TensorFlow) เราจำเป็นต้องสร้างเมทริกซ์การฝังของคลังข้อมูลของเรา ดังนั้นเราจึงใช้วิธีการ Word2VEC ของ Gensim เพื่อรับเมทริกซ์การฝังมากกว่า TF-IDF

ในตอนท้ายของการประมวลผลแต่ละครั้งโดยตัวจําแนกที่แตกต่างกันเราได้วางแผนเมทริกซ์ความสับสนเพื่อเปรียบเทียบตัวจําแนกที่ดีที่สุดสำหรับการกรอง SMS สแปม

ฉันเป็นของนวนิยายเรื่องไหน?

ภาพ

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`NLP`	ข้อความ	`Deep Learning - LSTM` , `Word2Vec`	`Sklearn` , `Keras` , `Gensim` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-deep-learning-keras-novel

โครงการนี้เกี่ยวข้องกับปัญหาการจำแนกประเภทข้อความที่เราจัดการกับโมเดล Deeplearing (LSTM) ซึ่งจำแนกได้ตามย่อหน้าที่ได้รับการรวบรวมมากกว่า 12 นวนิยายที่แตกต่างกันแบบสุ่มด้านบน:

 1. alice_in_wonderland
2. dracula
3. dubliners
4. great_expectations
5. hard_times
6. huckleberry_finn
7. les_miserable
8. moby_dick
9. oliver_twist
10. peter_pan
11. talw_of_two_cities
12. tom_sawyer

กล่าวอีกนัยหนึ่งคุณสามารถคิดเกี่ยวกับนวนิยายเหล่านั้นเป็นคลาสเป้าหมายของเราในชุดข้อมูลของเรา เพื่อแยกความแตกต่างของวรรคจริงแฝงความหมายระหว่างย่อหน้าจะมีบทบาทสำคัญ ดังนั้นเราจึงใช้ Deeplearing (LSTM) ที่ด้านบนของ Keras (Tensorflow) หลังจากสร้างเมทริกซ์การฝังโดย Gensim's word2vec

หากมีความหมายแฝงความหมายใด ๆ ในประโยคในย่อหน้าที่สอดคล้องกันเราคิดเกี่ยวกับย่อหน้าที่คล้ายกันถูกรวบรวมจากทรัพยากรเดียวกัน (นวนิยาย) ส่วนใหญ่น่าจะเป็น

ทำไมลูกค้าถึงเลือกและจองยานพาหนะเฉพาะ

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Imbalanced Data`	การจองรถยนต์	`Random Forest Classifier`	`Sklearn` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-imbalanced-car-booking-data

ในโครงการนี้เราได้สร้างรูปแบบการเรียนรู้ของเครื่องที่ตอบคำถาม - สิ่งที่ลูกค้าต้องการในชุดข้อมูลการจองรถยนต์

เราสำรวจชุดข้อมูลโดยใช้ Seaborn และเปลี่ยนคุณสมบัติใหม่ที่จำเป็น

นอกจากนี้รูปร่างของชุดข้อมูลนั้น imbalanced หมายความว่าการกระจายตัวของตัวแปรเป้าหมายนั้นเบ้ เพื่อเอาชนะความท้าทายนั้นได้มีการกำหนดเทคนิคที่แตกต่างกันสองสามอย่าง (เช่น over/under re-sampling techniques ) และวิธีการที่ใช้งานง่าย เราพยายามที่จะแก้ปัญหานั้นโดยใช้เทคนิคการสุ่มตัวอย่างอีกครั้งเช่นกัน

การพยากรณ์ผลกระทบของโปรโมชั่น (โปรโมชั่น 1, โปรโมชั่น 2) ต่อยอดขายในเยอรมนีออสเตรียและฝรั่งเศส

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Forecasting - Timeseries`	ฝ่ายขาย	`Random Forest Regressor`	`statsmodels` , `pandas` , `sklearn` , `seaborn`	https://github.com/erdiolmezogullari/ml-time-series-analysis-on-sales-data

ในโครงการนี้เราจำเป็นต้องทำการวิเคราะห์อนุกรมเวลาเพื่อรับข้อมูลเชิงลึกใหม่เกี่ยวกับโปรโมชั่น มีร้านค้าที่ให้โปรโมชั่นสองประเภทเช่นวิทยุทีวีที่สอดคล้องกับโปรโมชั่น 1 และโปรโมชั่น 2 เพื่อให้พวกเขาต้องการเพิ่มยอดขายทั่วประเทศเยอรมนีออสเตรียและฝรั่งเศส อย่างไรก็ตามพวกเขาไม่มีความคิดใด ๆ เกี่ยวกับโปรโมชั่นที่เพียงพอที่จะทำ ดังนั้นผลกระทบของโปรโมชั่นที่มีต่อการขายของพวกเขาจึงมีบทบาทสำคัญต่อความชอบของพวกเขา

ในการกำหนดกลยุทธ์การส่งเสริมการขายที่กำหนดไว้อย่างดีเราจำเป็นต้องวิเคราะห์ข้อมูลในแง่ของผลกระทบของโปรโมชั่น ในกรณีนั้นเนื่องจากข้อมูลขึ้นอยู่กับอนุกรมเวลาเราเคยเรียกใช้ time series decomposition หลังจากที่เราย่อยสลายข้อมูล observed เป็นส่วนประกอบ trend seasonal และส่วนประกอบ residual เราได้เปิดเผยผลกระทบของโปรโมชั่นอย่างชัดเจนเพื่อทำการตัดสินใจว่าโปรโมชั่นนั้นดีกว่าในแต่ละประเทศ

นอกจากนี้เราใช้ Random Forest Regression ในปัญหาการพยากรณ์นี้เพื่อเพิ่มการตัดสินใจของเรา

การปรับใช้รูปแบบการเรียนรู้ของเครื่องเป็นบริการในคอนเทนเนอร์ Docker: MLASS

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`ML Service`	สร้างแบบสุ่ม	`Random Forest Classifier`	`Flask` , `Docker` , `Redis` , `Sklearn`	https://github.com/erdiolmezogullari/ml-dockerized-microservice

ในโครงการนี้ ML based micro-service ได้รับการพัฒนาที่ด้านบนของ REST และ Docker หลังจากสร้างรูปแบบการเรียนรู้ของเครื่องโดยการ Random Forest

เราใช้ docker-compose เพื่อเปิดใช้บริการไมโครด้านล่าง

 1.Jupyter Notebook,
2.Restful Comm. (Flask),
3.Redis

หลังจากที่เราสร้างภาชนะที่แตกต่างกันสามคอนเทนเนอร์ MLASS ของเราจะพร้อม

การจำแนกป่าแบบสุ่ม (PYSPARK)

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`PySpark`	สร้างแบบสุ่ม	`Random Forest Classifier`	`Spark (PySpark)` , `Sklearn` , `Pandas` , `Seaborn`	https://github.com/erdiolmezogullari/ml-random-forest-pyspark

ในโครงการนี้คุณสามารถค้นหาโค้ดตัวอย่างที่เกี่ยวข้องกับวิธีที่คุณสามารถใช้ mllib ของ Pyspark Spark (ตัวจําแนกป่าสุ่ม) และไปป์ไลน์ผ่าน Pyspark

การเพิ่มประสิทธิภาพข้อมูลเชิงพื้นที่: เข้าร่วมชุดข้อมูลตำแหน่งทางภูมิศาสตร์สองชุดโดยใช้ kdtree

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Data Enrichment`	เชิงพื้นที่	`Kd-tree`	`cKDTree`	https://github.com/erdiolmezogullari/ml-join-spatial-data

ในโครงการนี้เพื่อสร้างสคริปต์ที่มีประสิทธิภาพซึ่งพบสนามบินที่ใกล้เคียงที่สุดกับผู้ใช้ที่กำหนดตามตำแหน่งทางภูมิศาสตร์และตำแหน่งทางภูมิศาสตร์ของสนามบิน

เพื่อให้การเพิ่มประสิทธิภาพข้อมูลนั้นเราใช้อัลกอริทึม Kd-tree

การใช้อัลกอริทึม K-means ตั้งแต่เริ่มต้นใน Java

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Implementation`	สถิติของประเทศ	`K-Means`	`Java SDK`	https://github.com/erdiolmezogullari/ml-k-means

ในโครงการนี้อัลกอริทึมการจัดกลุ่ม k-mean ถูกนำไปใช้ใน Java ตั้งแต่เริ่มต้น ชุดข้อมูล: https://en.wikibooks.org/wiki/data_mining_algorithms_in_r/clustering/k-means#input_data

การคาดการณ์ราคาสปอต AWS โดยใช้ adaboosting บน rapidminer

ปัญหา	ข้อมูล	วิธีการ	Libs	การเชื่อมโยง
`Forecasting, Timeseries Analysis`	ราคาสปอต AWS EC2	`Adaboost Classifier` `Decision Tree`	`Rapidminer`	https://github.com/erdiolmezogullari/ml-forecasting-aws-spot-price

ในโครงการนี้เราจะใช้ข้อมูลสาธารณะซึ่งรวบรวมโดยบุคคลที่สามและเผยแพร่ผ่านเว็บไซต์เฉพาะบางแห่ง เนื่องจากข้อมูลของเราจะเกี่ยวข้องกับการคำนวณแบบยืดหยุ่น (AWS) (EC2) ของ Amazon Web Services (EC2) ส่วนใหญ่จะประกอบด้วยฟิลด์ที่แตกต่างกัน EC2 เป็นเครื่องเสมือนจริงในคลาวด์ของ AWS เครื่องเสมือนสามารถสร้างได้ทันเวลาไม่ว่าจะเป็นคลาวด์ส่วนตัวหรือสาธารณะเหนือ AWS เมื่อใดก็ตามที่คุณต้องการ เครื่องเสมือนใหม่สามารถเลือกได้เกี่ยวกับรายละเอียดและการกำหนดค่าที่แตกต่างกันในแง่ของ CPU, RAM, ที่เก็บข้อมูลและวงดนตรีเครือข่ายก่อนที่จะสร้างครั้งเดียวตั้งแต่เริ่มต้น เครื่องจักร EC2 ยังถูกแยกออกจากกันและจัดการโดย AWS ในภูมิภาคทางภูมิศาสตร์ที่แตกต่างกัน (US East, US West, EU, Asia Pacific, อเมริกาใต้) และโซนเพื่อเพิ่มความพร้อมของเครื่องเสมือนจริงทั่วโลก AWS มีการแบ่งส่วนที่แตกต่างกันซึ่งถูกจัดประเภทตามข้อกำหนดของระบบโดย AWS ตามเป้าหมายที่แตกต่างกัน (อินสแตนซ์มาโครวัตถุประสงค์ทั่วไปการคำนวณที่ดีที่สุดการจัดเก็บที่ดีที่สุดอินสแตนซ์ GPU อินสแตนซ์หน่วยความจำที่ปรับให้เหมาะสม) ตัวเลือกการชำระเงินจะทุ่มเท, ondemand และสปอตอินสแตนซ์ เนื่องจากพวกเขามีค่าใช้จ่ายที่แตกต่างกันในการดำเนินงานของลูกค้าลูกค้าอาจต้องการเครื่องเสมือนประเภทต่าง ๆ ตามเป้าหมายและงบประมาณของพวกเขา โดยทั่วไปอินสแตนซ์สปอตนั้นถูกกว่าตัวเลือกที่เหลือ อย่างไรก็ตามอินสแตนซ์ของสปอตอาจถูกขัดจังหวะหากราคาตลาดเกินกว่าการเสนอราคาสูงสุดของเรา ในการวิจัยของเราเราจะมุ่งเน้นไปที่การชำระเงินสปอตอินสแตนซ์ เป้าหมายของเราในโครงการนี้คือการเลือกอินสแตนซ์ AWS ที่ถูกต้องจากตลาดอินสแตนซ์สปอตตามความต้องการของลูกค้า เราวางแผนที่จะดำเนินการตามแผนการตัดสินใจเกี่ยวกับการสตรีมข้อมูลเพื่อทำการตัดสินใจทันที มันอาจจะถูกนำไปใช้เป็นต้นไม้ตัดสินใจรุ่นที่เพิ่มขึ้นเนื่องจากข้อมูลมีการเปลี่ยนแปลงอย่างต่อเนื่อง

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-04-17
ขนาด 9.37KB
มาจาก Github

แอปที่เกี่ยวข้อง

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
เกมมือถือกีฬาทำมือเวอร์ชั่นจีน (โครงการ DIY)

2024-06-13
เกมปริศนาศิลปะโครงการ DIY

2024-03-30

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด