이 열정적 인 자체 경쟁 컬렉션 저장소에서 지금까지 내가 다루고있는 많은 머신 러닝, 데이터 마이닝 및 데이터 엔지니어링 과제를 찾을 수 있습니다. 이 가이드 라인 전체에서 프로젝트 및 리포지토리의 세부 사항을 살펴 보겠습니다.
아래 표에서 ML, 데이터 마이닝 및 데이터 엔지니어링과 관련된 저장소를 확인하면서 즐기기를 바랍니다.
프로젝트에 대한 추가 정보를 얻으려면 저에게 연락 할 수 있습니다.
| 문제 | 행동 양식 | 리브스 | 레포 |
|---|---|---|---|
| 방문 페이지의 변환 | AB Testing , Z test | pandas , statsmodel | 딸깍 하는 소리 |
| Fashion MNIST (CNN) 모델의 통합 텐서 보드 및 MLFlow에 통합 | CNN , Deep Learning | Keras , MLflow , Pandas , Sklearn | 딸깍 하는 소리 |
| Docker를 통해 Apache Flink 응용 프로그램을 Dockerize하십시오 | Apache Flink Table & SQL | Apache Flink Table & SQL , Docker , Docker-Compose | 딸깍 하는 소리 |
| 서비스로 크롤러 | 검색 ( DFS , BFS ) | GO , Neo4j , Redis , Docker , Docker-Compose | 딸깍 하는 소리 |
| 예측 음악 데이터 세트에서 작업을 건너 뜁니다 | LightGBM , Linear Reg , Logistic Reg. | Sklearn , LightGBM , Pandas , Seaborn | 딸깍 하는 소리 |
| 헤어 스타일 분류 | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | 딸깍 하는 소리 |
| Sarimax의 시계열 분석 | ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | 딸깍 하는 소리 |
| 패션 데이터 세트에서 다중 언어 및 다중 라벨 분류 문제 | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | 딸깍 하는 소리 |
| 어느 것이 전체* 스팸 SMS를 잡습니까? | Naive Bayesian , SVM , Random Forest Classifier , Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | 딸깍 하는 소리 |
| 내가 어떤 소설에 속해 있습니까? | Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | 딸깍 하는 소리 |
| 고객이 특정 차량을 선택하고 예약하는 이유는 무엇입니까? | Random Forest Classifier | Sklearn , Pandas , Seaborn | 딸깍 하는 소리 |
| 독일, 오스트리아 및 프랑스 판매에 대한 프로모션 (PROMO1, PROMO2)의 영향 예측 | Random Forest Regressor , ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | 딸깍 하는 소리 |
| Pyspark의 임의의 산림 분류 자습서 | Random Forest Classifier | Spark (PySpark) , Sklearn , Pandas , Seaborn | 딸깍 하는 소리 |
| 공간 데이터 강화 : Kdtree를 사용하여 두 개의 지리적 위치 데이터 세트에 가입 | Kd-tree | cKDTree | 딸깍 하는 소리 |
| Java에서 처음부터 K-Means 알고리즘 구현 | K-Means | Java SDK | 딸깍 하는 소리 |
| RapidMiner에서 Adaboosting을 사용하여 AWS 스팟 가격을 예측합니다 | Adaboost Classifier , Decision Tree | Rapidminer | 딸깍 하는 소리 |
프로젝트의 세부 사항을 포괄적으로 확인하고 저장소를 방문하려면 아래로 스크롤하십시오.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Conversion | 소매 | AB Testing , Z test | pandas , statsmodel | https://github.com/erdiolmezogullari/ml-ab-testing |
이 프로젝트에서 A/B 테스트는 Udacity의 코스 데이터 세트에서 수행되었습니다. 5 개의 열, <user_id, timestamp, group, landing_page, converted> 로 구성됩니다. A/B 테스트에서 우리는 3 개의 열을 group, landing_page, and converted .
우리는 이미 데이터 세트를 통해 얻은 전환율 ( control, treatment )과 관련하여 일부 실험을 N 번 시뮬레이션했습니다. 이 시뮬레이션으로 데이터 세트에 대한 추가 아이디어를 얻은 후, 우리는 귀무 가설과 대안 논문을 생각했습니다. 대체 가설의 진실성을 주장하기 위해, 우리는 알파 (0.05)와 관련하여 Z test 방법을 사용하여 z 임계 점수를 계산 한 다음, 실험의 효과 크기와 관련하여 베타와 전력을 확인했습니다.
ab_test.md 확인하여 가설 테스트 및 A/B 테스트에 대한 추가 정보를 얻으려면 몇 가지 중요한 사진을 확인할 수 있습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Prediction | 패션 mnist | CNN , Deep Learning | Keras , MLflow , Pandas , Sklearn | https://github.com/erdiolmezogullari/ml-fmnist-mlflow-tensorboard |
이 프로젝트에서는 Docker Container Technologies를 사용하여 ML 플랫폼을 처음부터 만들었습니다. 이미 docker-compose.yml 로 제작 된 4 개의 다른 Docker 컨테이너 (Mlflow, 노트북, Postgres, Tensorboard)로 구성됩니다.
컨테이너의 세부 사항은 ./platform 디렉토리에서 찾을 수 있습니다. 각 컨테이너 서비스에는 플랫폼 디렉토리의 디렉토리 (MLFLOW, 노트북, 우편둥이, 텐서 보드)에 해당하는 특정 DockerFile이 있습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Implementation | 스트림 데이터 세트를 클릭합니다 | Apache Flink Table & SQL | Apache Flink Table & SQL , Docker , Docker-Compose | https://github.com/erdiolmezogullari/de-flink-sql-as-a-docker |
이 프로젝트에서는 Docker Container Technologies를 사용하여 Flink Cluster 및 Flink App을 처음부터 개별적으로 시작했습니다. Flink Cluster (플랫폼)는 이미 docker-compose.flink.yml로 구축 된 두 개의 다른 Docker 컨테이너 (Jobmanager, Taskmanager)로 구성됩니다. Flink 응용 프로그램은 이미 dockerfile (./app-flink-base/dockerfile)과 쉘 스크립트 (./app-flink-base/run.sh)를 사용하는 하나의 Docker 컨테이너로 구성되어있어 Docker-compose-app-flink.yml에서 jar 파일을 클러스터에 제출합니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Implementation | N/A | 검색 ( BFS , DFS ) | GO , Neo4j , Redis , Docker , Docker-Compose | https://github.com/erdiolmezogullari/de-crawler-as-a-service |
이 프로젝트에서는 간단한 크롤러 서비스가 처음부터 구현되었으며 Docker 및 Docker-compose 사용하여 Redis 및 Neo4j NOSQL 시스템에 통합되었습니다. 크롤러 서비스는 첫 번째 대상 URL을 크롤링 한 다음 각각 페치 된 HTML 문서에서 나머지 URL을 방문하고 재귀 적으로 방문합니다. URL에 해당하는 HTML 문서를 크롤링하는 동안 2 개의 다른 검색 알고리즘 ( BFS, DFS ) 중 1 개를 참조 할 수 있습니다. 크롤링 서비스 속도를 높이기 위해 GO go routines 에 의해 검색 알고리즘이 향상되었습니다.
크롤링 중에는 많은 GO 루틴이 동일한 HTML 문서를 동시에 가져오고 처리 할 수 있습니다. 이 경우 크롤러는 일치하지 않는 데이터를 생성 할 수 있습니다. 따라서, Redis Key-Value NOSQL 시스템은이 프로젝트에서 해당 문제를 해결하고 강력하고 일관된 시스템을 구축하기 위해 선호되었습니다.
각 URL은 HTML 문서에서 다른 다른 URL 또는 자체를 참조 할 수 있습니다. 두 URL 간의 관계는 링크로 호출 할 수 있습니다. 그래프 인 특정 데이터 구조를 사용하여 크롤링 된 링크와 URL을 나타내는 간단한 쉬운 방법이 있습니다. 따라서 Neo4j 그래프 NOSQL을 사용하여 URL 및 링크로 구성된 그래프를 표현하고 시각화했습니다. 크롤링 중에 크롤링 서비스는 각 URL에 대한 새 노드와 각 URL 쌍에 대한 새 링크를 생성하거나 Cypher 쿼리를 사용하여 Neo4j 에서 기존 노드 및 링크를 업데이트합니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Prediction | 음악 데이터 세트 | LightGBM , Linear Reg , Logistic Reg. | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-prediction-skip-action |
이 프로젝트에서는 음악을 듣고있는 청취자가 스킵 동작의 확률을 예측해야합니다. 우리는 이미 다른 사람이 레이블이 지정된 수업이 없기 때문에. 이 상황에서는 문제를 해결할 수있는 대상 레이블을 만들어야합니다. 따라서 모든 연속 대상 변수는 대상 기능으로 선택해야합니다. 우리가 만든 기능에 따르면, per_listen (percentage of listen) 액션 건너 뛰기에 대한 아이디어를 제공하기 때문에 해당 문제에 더 적합합니다. 우리가 목표 기능으로 선택하면,이 문제는 청취 시간의 비율이 0에서 1 사이 인 경향이 있기 때문에 점수/확률 문제가 발생합니다.
해당 문제를 클래스 플레잉 문제로 변환하려면 쿵쿵 거리는 규칙으로 Aciton을 건너 뛰는 요소를 결정할 수 있습니다. per_listen 청취자가 들었던 트랙의 비율의 양을 나타냅니다. 따라서 우리의 임계 값은 25%, 50% 51% 등이 될 수 있습니다. 그러나 결정을 내리기 전에 per_listen 의 보완 적 누적 분포 함수 (CCDF)를 확인할 수 있습니다. 그것은 우리의 이성 임계 값에 대한 아이디어를 줄 것입니다. 다음 플롯에 따르면, 우리는 인스턴스의 65%를 차지하며, PER_Listen 값은 0.5보다 큽니다. 따라서 0.5는 합리적이지만, 우리가 그것에 대해 더 현실적으로 생각할 때, 0.5 미만의 0.5 미만은 건너 뛰는 동작을 결정합니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Classification | 헤어 스타일 데이터 세트 | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-heairstyle-classification |
이 프로젝트에서 데이터 세트에는 Instagram에서 채굴 된 샘플 10000 이미지가 포함되어 있으며 쇼케이스가 표시된 헤어 스타일을 기반으로 클러스터링됩니다.
변수 cluster 시각적 인식 알고리즘에 의해 이미지가 할당 된 헤어 스타일 클러스터를 나타냅니다.
각 행에는 이미지에 대한 링크 인 변수 url 과 이미지 당 comments 과 함께 좋아하는 수가 포함되어 있습니다. user_id 게시물이 오는 Instagram 계정의 고유 ID이며 변수 id 게시물 자체와 관련된 고유 식별자입니다.
각 게시물에는 이미지가 Instagram에 게시되었을 때 날짜 ( date_unix )가 Unix 형식으로 포함되어 있고 추가로 날짜가 다른 형식 ( date_week > noniSo nough the the the the the the the week, date_month > Month, date_formated > 전체 날짜/mm/yy)으로 전환되었습니다. 분석에 적합한 방식으로 해당 변수를 자유롭게 변환하십시오.
또한 500 개 이상의 좋아요가있는 각 이미지에 분류기 influencer_flag 추가되어 인플 루 언서 게시물로 표시되었습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Time Series Analysis | 작업 통계 | ARIMA , SARIMAX | statsmodels , pandas , sklearn , seaborn | https://github.com/erdiolmezogullari/ml-time-series-analysis-sarimax |
이 프로젝트에서는 시계열 분석 기술을 사용하여 데이터를 다음과 같은 3 가지 구성 요소로 분해합니다.
1-Trend (T)
2-Seasonility (S)
3-Residual (R)
시계열 분석 (TSA)을 수행하기 전에 Statinory 데이터 세트를 가져와야하면 완벽하게 비방을 수행해야합니다. 평균 및 분산 측면에서 정규 분포의 사전 수술을 만족시키기 때문에 고정 데이터 세트에 대한 예측이 쉽습니다. 따라서 우리는 트렌드와 관련된 데이터에 대한 귀중한 통찰력과 EDA에서 관찰 할 수있는 경우 계절성을 노출시키기 위해 일부 EDA 기술을 적용하여 원시 데이터 세트를 탐구해야합니다. 데이터 분석 단계를 완료 한 후에는 EDA에서 얻는 지식에 따라 데이터 세트에서 수행 할 수있는 최상의 기술 (예 : Arima, Sarimax)을 선택해야합니다.
EDA 단계에서는 시간 기반 기능 (연도, 월, 일, 주중 및 분기)에 의해 BoxPloting, Rolling Statictics (평균, STD)와 같은 다양한 기술을 적용하여 특정 플롯을 통해 3 개의 시계열 구성 요소 중 2 개의 구성 요소 (트렌드, 계절성)를 찾을 것입니다. 이 음모는 TSA를 시작하기 전에 합리적인 피드백을 제공합니다.
TSA 단계에서는 각각 Statsmodels 패키지에서 Arima와 Sarimax를 사용하여 비 계절 및 계절적 애호가에 대한 다른 모델을 구축 할 것입니다.
TSA의 가장 어려운 부분은 해당 기술의 최적 매개 변수 (P, D, Q) 및 (P, Q) 및 (P, D, Q, S)를 찾는 것이기 때문에 자동 상관 (ACF) 및 부분 자기 상관 (PACF) 기능을 참조하여 AutoreGression (AR) 및 MA), SAR), SAR)의 수행 측면에서 중요한 시간 상관 관계를 찾을 수 있습니다. (SAM).
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Classification | 패션 데이터 세트 | LightGBM , TF-IDF | Sklearn , LightGBM , Pandas , Seaborn | https://github.com/erdiolmezogullari/multi-label-classification |
이 프로젝트에서는 데이터 세트가 다른 패션 웹 사이트를 통해 수집되었습니다. 아래와 같은 7 개의 필드로 구성됩니다.
id : 고유 한 제품 식별자name : 우리 웹 사이트에 표시된대로 제품 제목description : 제품에 대한 설명price : 제품의 가격shop :이 제품을 구입할 수있는 상점brand : 제품 브랜드labels :이 제품에 적용되는 범주 레이블텍스트 기능 (이름, 설명)은 영어, 독일어 및 러시아어와 같은 다른 언어로되어 있습니다. 대상 기능의 형식은 패션 웹 사이트의 범주에 해당하는 태그가 다르게 태그 된 멀티 라벨 (60 범주)입니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
NLP | 텍스트 | Naive Bayesian , SVM , Random Forest Classifier , Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-spam-smsclassification |
이 프로젝트에서는 감독 학습 (분류) 알고리즘 및 딥 러닝 (LSTM)을 적용했습니다.
우리는 순수하게 깨끗한 데이터 세트가 아닌 공개 SMS 스팸 데이터 세트를 사용했습니다. 데이터는 컨텍스트 및 클래스와 같은 두 가지 다른 열 (기능)으로 구성됩니다. 열 컨텍스트는 SMS를 참조합니다. 열 클래스는 관련 SMS 컨텍스트에 해당하는 spam 또는 ham 될 수있는 값을 취할 수 있습니다.
감독 된 학습 방법을 적용하기 전에, 우리는 수많은 데이터 정리 작업을 적용하여 지저분하고 더러운 데이터가 깨지고 지저분한 맥락을 가지고 있기 때문에 제거했습니다.
청소 된 데이터 세트를 얻은 후, 우리는 SPACY를 사용하여 SMS 코퍼스의 토큰과 레마를 만들어 낸 다음 각각 SMS 코퍼스의 bag-of-word 및 TF-IDF를 생성했습니다. 이러한 데이터 변환 외에도 데이터 세트의 차원을 줄이기 위해 SVD, SVC, PCA를 수행했습니다.
교육 및 테스트 단계에서 데이터 변환을 효과적으로 관리하고 데이터 유출을 피하기 위해 Sklearn의 파이프 라인 클래스를 사용했습니다. 따라서 각 데이터 변환 단계 (예 : bag-of-word , TF-IDF , SVC ) 및 분류기 (예 : Naive Bayesian , SVM , Random Forest Classifier )를 클래스 Pipeline 인스턴스에 추가했습니다.
감독 된 학습 방법을 적용한 후, 우리는 또한 딥 러닝을 성취했습니다. 우리가 사용한 딥 러닝 아키텍처는 LSTM을 기반으로합니다. Keras (Tensorflow)에서 LSTM approching을 수행하려면 코퍼스의 임베딩 매트릭스를 만들어야했습니다. 그래서 우리는 TF-IDF가 아닌 내장 행렬을 얻기 위해 Gensim의 Word2Vec 접근법을 사용했습니다.
다른 분류기에 의한 각 처리의 끝에서, 우리는 혼동 매트릭스를 플로팅하여 스팸 SMS를 필터링하기에 가장 적합한 분류기를 비교했습니다.

| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
NLP | 텍스트 | Deep Learning - LSTM , Word2Vec | Sklearn , Keras , Gensim , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-deep-learning-keras-novel |
이 프로젝트는 우리가 Deeplearing (LSTM) 모델로 다루는 텍스트 분류 문제와 관련이 있으며, 이는 위에서 12 개의 다른 소설에 대해 무작위로 수집 된 임의의 단락을 분류합니다.
1. alice_in_wonderland
2. dracula
3. dubliners
4. great_expectations
5. hard_times
6. huckleberry_finn
7. les_miserable
8. moby_dick
9. oliver_twist
10. peter_pan
11. talw_of_two_cities
12. tom_sawyer
다시 말해, 그 소설에 대해 생각할 수 있습니다.이 소설은 데이터 세트의 대상 클래스라고 생각할 수 있습니다. 실제 단락 클래스를 구별하기 위해, 단락들 사이의 시맨틱 잠재력은 중요한 역할을 할 것입니다. 따라서, 우리는 Gensim's word2vec 에 의해 임베딩 매트릭스를 만든 후 Keras (Tensorflow) 위에 Deeplearing (LSTM) 사용했습니다.
해당 단락에서 문장들 사이에 의미 론적 잠재가 있다면, 우리는 비슷한 단락에 대해 동일한 자원 (소설)에서 수집되었을 가능성이 가장 높다고 생각합니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Imbalanced Data | 자동차 예약 | Random Forest Classifier | Sklearn , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-imbalanced-car-booking-data |
이 프로젝트에서는 자동차 예약 데이터 세트에서 질문에 답하는 머신 러닝 모델을 구축했습니다.
우리는 Seaborn 과 변환 된 새로운 기능을 사용하여 데이터 세트를 탐색했습니다.
또한 데이터 세트 모양이 imbalanced . 이는 대상 변수의 분포가 왜곡되었음을 의미합니다. 이러한 도전을 극복하기 위해 이미 몇 가지 다른 기술 (예 : over/under re-sampling techniques )과 직관적 인 접근법이 이미 정의되어 있습니다. 우리는 리 샘플링 기술을 사용하여 그 문제를 해결하려고 노력합니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Forecasting - Timeseries | 매상 | Random Forest Regressor | statsmodels , pandas , sklearn , seaborn | https://github.com/erdiolmezogullari/ml-time-series-analysis-on-sales-data |
이 프로젝트에서는 프로모션에 대한 새로운 통찰력을 얻으려면 시계열 분석을 수행해야합니다. 라디오, Promo1 및 Promo2에 해당하는 TV와 같은 두 가지 유형의 프로모션을 제공하는 상점이있어 독일, 오스트리아 및 프랑스 전역에서 판매를 늘리기를 원합니다. 그러나 그들은 어떤 프로모션이 그것을하기에 충분한 지에 대해 전혀 모른다. 따라서 프로모션이 판매에 미치는 영향은 선호도에 중요한 역할입니다.
잘 정의 된 프로모션 전략을 정의하려면 프로모션의 영향 측면에서 데이터를 분석해야합니다. 이 경우 데이터는 시계열을 기반으로하기 때문에 time series decomposition 한 번 사용하는 것을 언급했습니다. observed 데이터를 trend , seasonal 및 residual 구성 요소로 분해 한 후, 우리는 프로모션의 영향을 명확하게 노출하여 각 국가에서 어떤 프로모션이 더 나은지 결정을 내 렸습니다.
또한이 예측 문제에서 Random Forest Regression 사용하여 결정을 늘리 셨습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
ML Service | 무작위로 생성되었습니다 | Random Forest Classifier | Flask , Docker , Redis , Sklearn | https://github.com/erdiolmezogullari/ml-dockerized-microservice |
이 프로젝트에서는 ML based micro-service 가 REST and Docker 위에 개발되었습니다 Random Forest
우리는 docker-compose 사용하여 아래의 마이크로 서비스를 시작했습니다.
1.Jupyter Notebook,
2.Restful Comm. (Flask),
3.Redis
우리가 세 가지 다른 컨테이너를 만든 후 MLASS가 준비 될 것입니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
PySpark | 무작위로 생성되었습니다 | Random Forest Classifier | Spark (PySpark) , Sklearn , Pandas , Seaborn | https://github.com/erdiolmezogullari/ml-random-forest-pyspark |
이 프로젝트에서는 PySpark Spark의 Mllib (랜덤 포레스트 분류기) 및 Pyspark를 통해 파이프 라인을 사용하는 방법과 관련된 샘플 코드를 찾을 수 있습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Data Enrichment | 공간 | Kd-tree | cKDTree | https://github.com/erdiolmezogullari/ml-join-spatial-data |
이 프로젝트에서는 지리적 위치와 공항의 지리 위치를 기반으로 주어진 사용자에게 가장 가까운 공항을 찾는 효율적인 스크립트를 구축합니다.
해당 데이터를 풍부하게하기 위해 Kd-tree 알고리즘을 사용했습니다.
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Implementation | 국가 통계 | K-Means | Java SDK | https://github.com/erdiolmezogullari/ml-k-means |
이 프로젝트에서 K- 평균 클러스터링 알고리즘은 처음부터 Java로 구현되었습니다. 데이터 세트 : https://en.wikibooks.org/wiki/data_mining_algorithms_in_r/clustering/k-means#input_data
| 문제 | 데이터 | 행동 양식 | 리브스 | 링크 |
|---|---|---|---|---|
Forecasting, Timeseries Analysis | AWS EC2 스팟 가격 | Adaboost Classifier , Decision Tree | Rapidminer | https://github.com/erdiolmezogullari/ml-forecasting-aws-spot-price |
이 프로젝트에서는 제 3자가 수집하여 특정 웹 사이트를 통해 공개 된 공개 데이터를 사용합니다. 우리의 데이터는 주로 Amazon Web Services '(AWS) 탄성 컴퓨팅 (EC2)과 관련이 있으므로 일부 다른 필드로 구성됩니다. EC2는 AWS 클라우드의 일종의 가상 머신입니다. 가상 머신은 필요할 때마다 AWS를 통해 개인 또는 퍼블릭 클라우드에서 제 시간에 만들 수 있습니다. CPU, RAM, 스토리지 및 네트워크 대역 제한 측면에서 다양한 사양 및 구성과 관련하여 새로운 가상 머신을 선택할 수 있습니다. EC2 기계는 또한 다양한 지역 (미국 동부, 미국 서부, EU, 아시아 태평양, 남아메리카) 및 영역에서 AWS에 의해 분리되고 관리됩니다. AWS는 서로 다른 목표 (매크로 인스턴스, 범용, 컴퓨팅 최적화, 스토리지 최적화, GPU 인스턴스, 메모리 최적화)를 기반으로 AWS의 시스템 사양과 관련하여 분류 된 다른 세그먼테이션을 가지고 있습니다. 결제 옵션은 전용, 온 디맨드 및 스팟 인스턴스입니다. 고객의 운영에 다른 비용을 지불하기 때문에 고객은 목표와 예산에 따라 다양한 종류의 가상 머신을 선호 할 수 있습니다. 일반적으로 스팟 인스턴스는 나머지 옵션보다 저렴합니다. 그러나 시장 가격이 최대 입찰을 초과하면 스팟 인스턴스가 중단 될 수 있습니다. 우리의 연구에서 우리는 스팟 인스턴스 지불에 중점을 둘 것입니다. 이 프로젝트의 목표는 고객의 요구 사항에 따라 SPOT 인스턴스 시장에서 올바른 AWS 인스턴스를 선택하는 것입니다. 우리는 스트리밍 데이터에 대한 의사 결정 트리를 수행하여 즉시 결정을 내릴 계획입니다. 데이터가 지속적으로 변하기 때문에 의사 결정 트리의 증분 버전으로 구현 될 수 있습니다.