MyDataSciencePortFolioは、次のツールによって後援されています。見て、無料のトライアルにサインアップすることで私たちをサポートするのを手伝ってください??
導入
顧客解約研究
ミディアムブログポスト
映画の推奨システム
サンフランシスコ犯罪研究
概要クラスタリング
便利なNLPライブラリ
将来の潜在的なプロジェクト
付録
My Awesome Data Science Projectポートフォリオへようこそ。私のレポでは、統計的方法とArtの機械学習モデルに関する現実世界のビジネス上の問題のいくつかの素晴らしい実用的なソリューションを見つけることができます。私のプロジェクトのほとんどは、Jupyterノートブックでデモされます。 Jupyterノートブックは、私の作品を世界と共有する優れた方法です。マークダウンとインタラクティブなPython環境が付属しており、DatabricksやGoogle Colaboratoryなどの他のプラットフォームにも携帯用です。
私のプロジェクトコレクションは、自然言語処理、 Sparkを使用した大規模な機械学習、推奨システムなど、さまざまなトレンドの機械学習アプリケーションを対象としています。もっと来ることがあります。潜在的な将来のプロジェクトには、テキストの要約、株価予測、補強学習との取引戦略、およびコンピュータービジョンが含まれます。
チャーン率は、重要なビジネスメトリックの1つです。企業は、解約率と成長率を比較して、全体的な成長または損失があるかどうかを判断できます。チャーン率が成長率よりも高い場合、同社は顧客ベースの損失を経験しています。
なぜ顧客は会社のサービスの使用を停止して停止するのですか?次の四半期の推定チャーン額はいくらですか?上記の2つの質問に答えることができると、会社が現在どの方向に向かっているのか、そして職人が滞在するように会社が製品やサービスを改善する方法について、意味のある洞察を提供できます。
Mediumは、膨大な量のコンテンツとテキストデータを備えた人気のあるBlogPostパブリッシングプラットフォームです。人々は何を出版していますか?それらのブログ投稿の潜在的なトピックは何ですか? BlogPostを人気にしているのは何ですか?そして、今日のテクノロジーの傾向は何ですか?このプロジェクトは、視覚化、分析、自然言語プロセス、および機械学習技術を通じて質問に答えることを目的としています。
具体的には、探索的分析にはシーボーンとパンダを使用します。機械学習モデリングには、トピックモデリングのためにK-Means 、 TSVD 、およびLatentdirichletallocationを選択します。この研究は、 SklearnとSparkの2つの異なるMLフレームワークで実行します。
Sklearnは、データサイエンティスト向けの優れたPython Machine Learning Libraryです。
ただし、ビッグデータの時代には、ほとんどのデータ分析は分散コンピューティングに基づいています。 Sparkは、クラスターコンピューティングフレームワークの分散であり、暗黙のデータの並列性と断層トレランスを備えたクラスター全体をプログラミングするためのインターフェイスを提供します。
今日使用しているほとんどの製品は、推奨エンジンを搭載しています。 YouTube、Netflix、Amazon、Pinterest、およびその他のデータ製品の長いリストはすべて、何百万ものコンテンツをフィルタリングし、ユーザーにパーソナライズされた推奨事項を作成するために推奨エンジンに依存しています。
自分で推奨システムを構築するのはとてもクールです。家族と時間を過ごしているときに映画を見るのが大好きです。そこで、私は自分のために映画の推薦者を作ることにしました。一般的に、推奨システムは、コンテンツベースのシステム、共同フィルタリングシステム、およびハイブリッドシステム(他の2つの組み合わせを使用)の3つのカテゴリに大まかに分割できます。
私のプロジェクトは、共同フィルタリングシステムに焦点を当てています。共同フィルタリングベースのシステムは、ユーザーのアクションを使用して、他のアイテムを推奨します。一般に、それらはユーザーベースまたはアイテムベースのいずれかです。通常、アイテムベースのアプローチは、ユーザーベースのアプローチよりも好まれます。ユーザーベースのアプローチは、ユーザーの動的な性質のためにスケーリングが難しくなることがよくありますが、アイテムは通常あまり変化しないため、アイテムベースのアプローチをオフラインで計算できることがよくあります。
ただし、アイテムベースとユーザーベースのコラボレーションフィルタリングは、課題に続いてまだ直面しています。
上記の課題を克服するために、マトリックスの因数分解を使用して、ユーザーとアイテム間の潜在的な特徴と相互作用を学習します
サンフランシスコは、居住する最も高価な都市として生まれてきました。ますます多くの新興企業や企業が都市に移動し、ますます多くの才能を都市に引き付けます。しかし、犯罪事件は、住民の平均収入としても上昇しているようです。サンフランシスコでは、車の侵入が「流行」レベルに達しました。
この研究では、 Sparkを使用して、SFPDから15年間の報告されたインシデントデータセットを分析し、機械学習方法を使用してSFの犯罪パターンと分布を理解します。最後に、犯罪率を予測するための時系列予測モデルを構築します
今日、私たちはこれまで以上に、より多くの非構造化データを収集することができます。構造化されたデータとは異なり、非構造化データは、事前に定義されたデータモデルまたはスキーマを介して構造化されていませんが、内部構造があります。構造化されていないデータの1つの例は、プロットの要約、映画の概要などのテキストデータです。
このプロジェクトでは、古典的なNLPテクニックを使用します:単語トークン化、単語ステミング、ストップワード削除、 TF-IDFなどを使用して、生のテキストデータをクリーニングし、生のテキストから機能を抽出します。次に、 K-MeansやLatentdirichletallocationなどの監視されていない学習モデルを使用して、非標識ドキュメントをさまざまなグループにクラスター化し、結果を視覚化し、潜在的なトピック/構造を特定します。
非構造化データにクラスタリング手法が適用されると、データ内の内部構造を発見し、ドキュメント間の類似性を特定し始めることができます。ドキュメント間の類似性スコアを使用すると、ドキュメントストアからドキュメントをクエリして分析する機能が開始されます。
Natural Language Processing(NLP)は、大量の自然言語データを処理および分析し、そこから意味のある情報を抽出するための機械をプログラムする方法に関するトレンド領域です。
NLPの問題を解決するために設計された多くのツールとライブラリがあります。最も一般的に使用されるライブラリは、Natrual Language Toolkit(NLTK) 、 Spacy 、 Sklearn NLP Toolkit 、 Gensim 、 Pattern 、 PolyGlotなどです。私のノートブックでは、各NLPライブラリの基本的な使用法、長所、および短所を紹介します。