
現実世界の問題の解決に向けて学習し、適用するためのオープンソースのデータサイエンスリポジトリ。
これは、データサイエンスの研究を開始するためのショートカットパスです。 「データサイエンスとは何であり、データサイエンスを学ぶために何を勉強すべきか」という質問に答えるための手順に従ってください。
| スポンサー | ピッチ |
|---|---|
| --- | 最初にスポンサーになりましょう! [email protected] |
^ back to top ^
データサイエンスは、現在、コンピューターとインターネットの農地で最もホットなトピックの1つです。人々は今日までアプリケーションとシステムからデータを収集しており、今ではそれらを分析する時です。次のステップは、データから提案を作成し、将来についての予測を作成することです。ここでは、データサイエンスの最大の質問と専門家からの数百の回答を見つけることができます。
| リンク | プレビュー |
|---|---|
| データサイエンス @ o'Reillyとは何ですか | データサイエンティストは、起業家精神と忍耐、データ製品を段階的に構築する意欲、探索する能力、ソリューションを反復する能力を組み合わせています。彼らは本質的に学際的です。彼らは、最初のデータ収集やデータ条件付けから結論の導出まで、問題のすべての側面に取り組むことができます。彼らは、問題を表示する新しい方法を考え出すために、または非常に広く定義された問題で作業するために箱の外側を考えることができます。 |
| データサイエンス @ Quoraとは何ですか | データサイエンスは、テクノロジー、アルゴリズムの開発、データを研究し、分析し、困難な問題に対する革新的なソリューションを見つけるためのデータ干渉など、データの多くの側面の組み合わせです。基本的に、データサイエンスは、創造的な方法を見つけることにより、データを分析し、ビジネスの成長を促進するための推進に関するものです。 |
| 21世紀の最もセクシーな仕事 | 今日のデータサイエンティストは、1980年代と1990年代のウォールストリートの「クォンツ」に似ています。当時、物理学や数学の背景を持つ人々は、投資銀行やヘッジファンドにストリーミングされ、まったく新しいアルゴリズムとデータ戦略を考案できました。その後、さまざまな大学が金融エンジニアリングの修士課程プログラムを開発し、主流企業にとってよりアクセスしやすい第2世代の才能を発揮しました。このパターンは、1990年代の後半に検索エンジニアで繰り返されました。 |
| ウィキペディア | データサイエンスは、科学的方法、プロセス、アルゴリズム、システムを使用して、多くの構造的および非構造化データから知識と洞察を抽出する学際的な分野です。データサイエンスは、データマイニング、機械学習、ビッグデータに関連しています。 |
| データサイエンティストになる方法 | データサイエンティストは、ビッグデータラングラーであり、構造化されたデータと非構造化されていないデータを集めて分析します。データサイエンティストの役割は、コンピューターサイエンス、統計、数学を組み合わせています。データを分析、処理、およびモデル化し、結果を解釈して、企業や他の組織の実用的な計画を作成します。 |
| #DataScienceの非常に短い歴史 | データサイエンティストがセクシーになった方法の物語は、主に統計の成熟した規律と非常に若いもの、コンピューター科学の結合の物語です。 「データサイエンス」という用語は、ビッグデータの膨大な店舗を理解することが期待される新しい職業を具体的に指定するために最近登場しました。しかし、データを理解することには長い歴史があり、科学者、統計学者、図書館員、コンピューター科学者などによって議論されてきました。次のタイムラインでは、「データサイエンス」という用語の進化とその使用、それを定義する試み、および関連用語を追跡します。 |
| データサイエンティスト向けのソフトウェア開発リソース | データサイエンティストは、探索的分析、統計、モデルを通じてデータを理解することに集中しています。ソフトウェア開発者は、異なるツールを使用して個別の知識セットを適用します。彼らの焦点は無関係に思えるかもしれませんが、データサイエンスチームはソフトウェア開発のベストプラクティスを採用することから利益を得ることができます。バージョン制御、自動テスト、およびその他の開発スキルは、再現可能な生産対応のコードとツールの作成に役立ちます。 |
| データサイエンティストロードマップ | データサイエンスは、毎日約328.77百万テラバイトのデータが生成されている今日のデータ駆動型の世界で優れたキャリア選択です。そして、この数は日々増加しているため、このデータを利用してビジネスの成長を促進できる熟練したデータ科学者の需要が増加します。 |
| データサイエンティストになるためのパスをナビゲートします | _Data Scienceは、今日の最も需要の高いキャリアの1つです。企業が意思決定のためにデータにますます依存しているため、熟練したデータサイエンティストの必要性は急速に増加しています。テクノロジー企業、ヘルスケア組織、または政府機関でさえ、データ科学者は、生データを貴重な洞察に変える上で重要な役割を果たしています。しかし、特に始めたばかりの場合は、どのようにしてデータサイエンティストになりますか? _ |
^ back to top ^
厳密には必要ありませんが、プログラミング言語を持つことは、データサイエンティストとして効果的であるための重要なスキルです。現在、最も人気のある言語はPythonです。その後、 rが続きます。 Pythonは、さまざまな分野でアプリケーションを見る汎用スクリプト言語です。 Rは、統計のドメイン固有の言語であり、箱から出して多くの一般的な統計ツールが含まれています。
Pythonは、科学で最も人気のある言語であり、使用できる容易さと、ユーザー生成パッケージの活気に満ちたエコシステムの一部です。パッケージをインストールするには、2つの主な方法があります。PIP( pip installとして呼び出される)、Pythonがバンドルされたパッケージマネージャー、Anaconda( conda installとして呼び出される)、Python、R、およびGitのような実行可能ファイルをダウンロードできるパッケージをインストールできる強力なパッケージマネージャーです。
Rとは異なり、Pythonはデータサイエンスを念頭に置いてゼロから構築されていませんでしたが、これを補うためのサードパーティの図書館がたくさんあります。パッケージのより徹底的なリストはこのドキュメントの後半で見つけることができますが、これらの4つのパッケージは、データサイエンスの旅を始めるための良い選択肢です。Scikit-Learnは、最も人気のあるアルゴリズムを実装する汎用データサイエンスパッケージです。豊富なドキュメント、チュートリアル、およびモデルの実装の例も含まれています。独自の実装を作成したい場合でも、Scikit-Learnは、見つける一般的なアルゴリズムの多くの背後にあるナッツとボルトへの貴重な参照です。 Pandasを使用すると、データを収集して分析して、テーブル形式に分析できます。 Numpyは、ベクトルとマトリックスに焦点を当てた数学操作に非常に高速なツールを提供します。 Matplotlibパッケージに基づいたSeabornは、データの美しい視覚化を簡単に生成するための簡単な方法であり、多くの優れたデフォルトを箱から出して利用できます。また、データの多くの一般的な視覚化を生成する方法を示すギャラリーです。
データサイエンティストになるための旅に着手するとき、言語の選択は特に重要ではなく、PythonとRの両方が長所と短所を持っています。好きな言語を選んで、以下にリストした無料コースの1つをご覧ください!
^ back to top ^
データサイエンスは、複雑なデータから洞察とパターンを抽出することにより、実際の問題を解決するためにさまざまな分野で利用される強力なツールです。
^ back to top ^
^ back to top ^
データサイエンスをどのように学びますか?もちろん、データサイエンスを行うことによって!わかりました、大丈夫です - それはあなたが最初に始めたときに特に役に立たないかもしれません。このセクションでは、いくつかの学習リソースを、少なくとも最小のコミットメントから最大のコミットメントまで、大まかな順序でリストしました - チュートリアル、大規模なオープンオンラインコース(MOOC)、集中的なプログラム、および大学。
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
このセクションは、データサイエンスの世界におけるパッケージ、ツール、アルゴリズム、その他の便利なアイテムのコレクションです。
^ back to top ^
これらは、いくつかの機械学習とデータマイニングアルゴリズムとモデルであり、データを理解し、それから意味を導き出すのに役立ちます。
^ back to top ^
^ back to top ^
^ back to top ^
| リンク | 説明 |
|---|---|
| データサイエンスライフサイクルプロセス | データサイエンスライフサイクルプロセスは、データサイエンスチームをアイデアから繰り返し、持続可能に価値に導くためのプロセスです。このプロセスは、このレポで文書化されています |
| データサイエンスライフサイクルテンプレートレポ | データサイエンスライフサイクルプロジェクトのテンプレートリポジトリ |
| rexmex | 公正な評価のための汎用推奨メトリックライブラリ。 |
| ChemicalX | ドラッグペアスコアリング用のPytorchベースのディープラーニングライブラリ。 |
| Pytorch幾何学的時間 | 動的グラフでの表現学習。 |
| 毛皮の小さなボール | APIのようなScikit-Learnを使用したNetworkX用のグラフサンプリングライブラリ。 |
| 空手クラブ | APIのようなScikit-Learnを備えたNetworkX用の監視されていない機械学習拡張ライブラリ。 |
| MLワークスペース | 機械学習とデータサイエンスのためのオールインワンのWebベースのIDE。ワークスペースはDockerコンテナとして展開されており、さまざまな人気のあるデータサイエンスライブラリ(Tensorflow、Pytorchなど)および開発ツール(Jupyter、vsコードなど)がプリロードされています。 |
| Neptune.ai | 機械学習モデルの作成と共有において、データサイエンティストをサポートするコミュニティに優しいプラットフォーム。 Neptuneは、チームワーク、インフラストラクチャ管理、モデルの比較と再現性を促進します。 |
| ステッピー | 高速で再現可能な機械学習実験用の軽量のPythonライブラリ。クリーンな機械学習パイプライン設計を可能にする非常にシンプルなインターフェイスを紹介します。 |
| Steppy-Toolkit | 機械学習をより速く、より効果的にするニューラルネットワーク、変圧器、モデルのキュレーションコレクション。 |
| GoogleのDatalab | PythonやSQLなどの馴染みのある言語を使用して、データをインタラクティブに簡単に調査、視覚化、分析、および変換します。 |
| HortonWorksサンドボックス | インタラクティブなHadoopチュートリアルが多い個人的なポータブルHadoop環境です。 |
| r | 統計的コンピューティングとグラフィックス用のフリーソフトウェア環境です。 |
| 整頓 | データサイエンス向けに設計されたRパッケージの意見のコレクションです。すべてのパッケージは、基礎となる設計哲学、文法、およびデータ構造を共有しています。 |
| rstudio | IDE - Rの強力なユーザーインターフェイスは、無料でオープンソースで、Windows、Mac、およびLinuxで動作します。 |
| Python -Pandas -Anaconda | 大規模なデータ処理、予測分析、科学的コンピューティングのための完全に無料のエンタープライズ対応のPythonディストリビューション |
| Pandas Gui | Pandas Gui |
| Scikit-Learn | Pythonでの機械学習 |
| numpy | Numpyは、Pythonを使用した科学的コンピューティングの基本です。大規模で多次元のアレイとマトリックスをサポートし、これらの配列で動作するための高レベルの数学機能の品揃えを含みます。 |
| ヴァックス | Vaexは、大規模なデータセットを視覚化し、高速で統計を計算できるPythonライブラリです。 |
| scipy | ScipyはNumpyアレイを使用して動作し、数値統合と最適化のための効率的なルーチンを提供します。 |
| データサイエンスツールボックス | Courseraコース |
| データサイエンスツールボックス | ブログ |
| Wolfram Data Science Platform | 数値、テキスト、画像、GISまたはその他のデータを取得し、Wolfram Treatmentを提供し、データサイエンス分析と視覚化の全範囲を実行し、革新的な知識ベースのWolfram言語を搭載したリッチなインタラクティブレポートを自動的に生成します。 |
| datadog | 高級データサイエンスのソリューション、コード、およびDevOps。 |
| 分散 | JavaScriptを書くことなくWebの強力なデータの視覚化を構築する |
| カイト開発キット | Kite Software Development Kit(Apacheライセンス、バージョン2.0)、または略してKiteは、Hadoopエコシステムの上にシステムの構築を容易にすることに焦点を当てたライブラリ、ツール、例、およびドキュメントのセットです。 |
| Domino Data Labs | インフラストラクチャやセットアップなしで、モデルを実行、スケーリング、共有、展開します。 |
| アパッチフリンク | 効率的で分散型の汎用データ処理のためのプラットフォーム。 |
| アパッチ・ハマ | Apache HamaはApacheのトップレベルのオープンソースプロジェクトであり、MapReduceを超えて高度な分析を行うことができます。 |
| ウェカ | Wekaは、データマイニングタスクの機械学習アルゴリズムのコレクションです。 |
| オクターブ | GNUオクターブは、主に数値計算を目的とした高レベルの解釈言語です。 |
| アパッチスパーク | 稲妻クラスターコンピューティング |
| ヒドスロスフェアミスト | Apache Spark Analyticsジョブと機械学習モデルをリアルタイム、バッチ、またはリアクティブWebサービスとして公開するためのサービス。 |
| データメカニクス | Apacheをより開発者に優しく、費用対効果の高いデータサイエンスおよびエンジニアリングプラットフォーム。 |
| カフェ | ディープラーニングフレームワーク |
| トーチ | Luajitの科学的コンピューティングフレームワーク |
| NervanaのPythonベースのディープラーニングフレームワーク | Intel®Nervana™リファレンスディープラーニングフレームワークは、すべてのハードウェアで最高のパフォーマンスに取り組んでいます。 |
| スカレ | nodejsの高性能分散データ処理 |
| Aerosolve | 人間のために構築された機械学習パッケージ。 |
| Intelフレームワーク | Intel®ディープラーニングフレームワーク |
| Datawrapper | オープンソースのデータ視覚化プラットフォームは、誰もがシンプルで正しい、埋め込み可能なチャートを作成するのに役立ちます。 github.comでも |
| テンソルフロー | Tensorflowは、マシンインテリジェンス用のオープンソースソフトウェアライブラリです |
| 自然言語ツールキット | 自然言語処理と分類のための紹介的でありながら強力なツールキット |
| 注釈ラボ | テキスト注釈とDLモデルのトレーニング/チューニングのための無料のエンドツーエンドノーコードプラットフォーム。名前付きエンティティ認識、分類、関係抽出、アサーションステータススパークNLPモデルのためのすぐに使用できるサポート。ユーザー、チーム、プロジェクト、ドキュメントに対する無制限のサポート。 |
| node.js for nlp-toolkit | このモジュールは、いくつかの基本的なNLPの原則と実装をカバーしています。主な焦点はパフォーマンスです。 NLPのサンプルまたはトレーニングデータを処理すると、すぐにメモリが不足しています。したがって、このモジュールのすべての実装は、現在どの段階でも処理されているメモリにそのデータのみを保持するストリームとして記述されます。 |
| ジュリア | 技術コンピューティングのための高レベルの高性能ダイナミックプログラミング言語 |
| イジュリア | Jupyter Interactive環境と組み合わせたジュリア言語のバックエンド |
| アパッチ・ツェッペリン | SQL、Scalaなどとのデータ駆動型のインタラクティブなデータ分析と共同ドキュメントを可能にするWebベースのノートブック |
| featuretools | Pythonで書かれた自動機能エンジニアリングのためのオープンソースフレームワーク |
| オプティマス | クレンジング、前処理、機能エンジニアリング、探索的データ分析、およびPySparkバックエンドを使用したEasy ML。 |
| アルビュメント | 高速でフレームワーク、多様な増強技術を実装する不可知論の画像増強ライブラリ。箱からの分類、セグメンテーション、および検出をサポートします。 Kaggle、Topcoder、およびCVPRワークショップの一部であった多くのディープラーニングコンテストに勝つために使用されました。 |
| DVC | オープンソースデータサイエンスバージョン制御システム。データサイエンスプロジェクトの追跡、整理、および再現性のあるものにするのに役立ちます。その非常に基本的なシナリオでは、バージョンの制御と大規模なデータとモデルファイルの共有に役立ちます。 |
| ラムド | 1つの分析パイプライン(i)機能エンジニアリングと機械学習(ii)モデルトレーニングと予測(iii)テーブルの母集団と列評価を組み合わせて、データ分析を大幅に簡素化するワークフローエンジンです。 |
| ごちそう | 機械学習機能の管理、発見、アクセスのための機能ストア。 Feastは、モデルトレーニングとモデルサービングの両方の機能データの一貫したビューを提供します。 |
| ポリキソン | 再現可能でスケーラブルな機械学習と深い学習のためのプラットフォーム。 |
| ライトタグ | チーム向けのテキスト注釈ツール |
| ubiai | 最も包括的な自動解音機能を備えたチーム向けの使いやすいテキスト注釈ツール。 NER、関係、ドキュメント分類、および請求書ラベルのOCRアノテーションをサポートします |
| 電車 | AIのバージョンコントロール&DevOps、自動マジカル実験マネージャー |
| Hopsworks | 機能ストアを備えたオープンソースのデータ集中機械学習プラットフォーム。オンライン(MySQLクラスター)とオフライン(Apache Hive)の両方の機能を摂取および管理し、大規模なモデルをトレーニングし、サービスを提供します。 |
| MindSDB | MindSDBは、開発者向けの説明可能なAutomlフレームワークです。 MindSDBを使用すると、1つのコードと同じくらい簡単な最先端のMLモデルを構築、トレーニング、および使用できます。 |
| ライトウッド | 機械学習の問題をより小さなブロックに分解するPytorchベースのフレームワークは、1つのコードで予測モデルを構築するための目的でシームレスに接着できます。 |
| AWSデータラングラー | Pandas LibraryのパワーをデータフレームとAWSデータ関連サービス(Amazon Redshift、AWS Glue、Amazon Athena、Amazon EMRなど)に接続するAWSに拡張するオープンソースPythonパッケージ。 |
| Amazon Rekognition | AWS Rekognitionは、Amazon Webサービスを扱う開発者がアプリケーションに画像分析を追加できるサービスです。カタログ資産、ワークフローの自動化、メディアやアプリケーションから意味を抽出します。 |
| Amazon Textract | 任意のドキュメントから印刷されたテキスト、手書き、およびデータを自動的に抽出します。 |
| Amazonの視覚を探しています | コンピュータービジョンを使用して製品の欠陥を見つけて、品質検査を自動化します。欠落している製品コンポーネント、車両と構造の損傷、および包括的な品質管理のための不規則性を特定します。 |
| Amazon CodeGuru | コードレビューを自動化し、ML駆動の推奨事項でアプリケーションのパフォーマンスを最適化します。 |
| CML | データサイエンスプロジェクトに継続的な統合を使用するためのオープンソースツールキット。 GitHubアクションとGitLab CIを使用して、生産様環境でモデルを自動的にトレーニングおよびテストし、プル/マージリクエストに関する視覚レポートを自動誘導します。 |
| ダスク | オープンソースのPythonライブラリが分析コードを分散コンピューティングシステム(ビッグデータ)に痛みを伴わずに移行する |
| statsmodels | Pythonベースの推論統計、仮説テスト、回帰フレームワーク |
| 原因 | 自然言語テキストのトピックモデリングのためのオープンソースライブラリ |
| スペイシー | パフォーマンスの自然言語処理ツールキット |
| グリッドスタジオ | Grid Studioは、Pythonプログラミング言語を完全に統合したWebベースのスプレッドシートアプリケーションです。 |
| Python Data Scienceハンドブック | Python Data Scienceハンドブック:Jupyterノートブックの全文 |
| シャプリー | 機械学習アンサンブルの分類子の値を定量化するためのデータ駆動型フレームワーク。 |
| Dagshub | データ、モデル、パイプライン管理のためのオープンソースツールに基づいたプラットフォーム。 |
| ディープノート | 新しい種類のデータサイエンスノートブック。 Jupyter互換、リアルタイムのコラボレーションとクラウドでの実行。 |
| ヴァロハイ | マシンのオーケストレーション、自動再現性、展開を処理するMLOPSプラットフォーム。 |
| pymc3 | 確率的プログラミングのためのPythonライブラリ(ベイジアン推論と機械学習) |
| ピスタン | スタンへのPythonインターフェース(ベイジアン推論とモデリング) |
| うーん | 非監視されていない学習と隠されたマルコフモデルの推論 |
| Chaos Genius | 外れ値/異常検出および根本原因分析のためのMLパワー分析エンジン |
| NimbleBox | 世界中のデータサイエンティストと機械学習実務家がWebブラウザーからマルチクラウドアプリを発見、作成、起動するのに役立つように設計されたフルスタックMLOPSプラットフォーム。 |
| Towhee | 構造化されていないデータを埋め込みにエンコードするのに役立つPythonライブラリ。 |
| リンピー | 長くて乱雑なJupyterノートブックを掃除することにイライラしたことがありますか?オープンソースのPythonライブラリであるLineapyを使用すると、厄介な開発コードを生産パイプラインに変換するために、わずか2行のコードが必要です。 |
| envd | ?€データサイエンスおよびAI/MLエンジニアリングチームの機械学習開発環境 |
| データサイエンスライブラリを探索します | 検索エンジン?人気のあるライブラリと新しいライブラリ、トップ著者、トレンドプロジェクトキット、ディスカッション、チュートリアル、学習リソースのキュレーションリストを発見して検索するツール |
| mlem | ? GitOpsの原則に従って、MLモデルをバージョンと展開します |
| mlflow | 完全なライフサイクルでMLモデルを管理するためのMLOPSフレームワーク |
| CleanLab | データ中心のAI用のPythonライブラリとMLデータセットのさまざまな問題を自動的に検出する |
| オートグルオン | Automl画像、テキスト、表面、時系列、マルチモーダルデータの正確な予測を簡単に作成する |
| Arize AI | ARIZE AIコミュニティティア観測可能性データの品質やパフォーマンスドリフトなどの生産およびルートコーティングの問題における機械学習モデルを監視するためのツール。 |
| aureo.io | Aureo.ioは、人工知能の構築に焦点を当てた低コードプラットフォームです。ユーザーにパイプライン、自動化を作成し、それらを人工知能モデルと統合する機能を提供します。 |
| ERDラボ | 開発者向けに作成された無料のクラウドベースのエンティティ関係図(ERD)ツール。 |
| Arize-Phoenix | ノートブックのMLOPS-洞察、表面の問題を明らかにし、モニターを監視し、モデルを微調整します。 |
| 彗星 | 実験追跡、モデル生産管理、モデルレジストリ、および完全なデータ系統を備えたMLOPSプラットフォーム。MLワークフローを直接トレーニングから生産までサポートします。 |
| オピック | 開発者と生産ライフサイクル全体でLLMアプリケーションを評価、テスト、および出荷します。 |
| 合成 | 研究のためのAI駆動の共同環境。関連する論文を見つけ、書誌を管理するコレクションを作成し、コンテンツを要約する - すべて1か所で |
| Teeplot | データの視覚化出力を自動的に整理するためのワークフローツール |
| 流線 | 機械学習およびデータサイエンスプロジェクトのためのアプリフレームワーク |
| グラデーション | 機械学習モデルを中心にカスタマイズ可能なUIコンポーネントを作成します |
| ウェイトとバイアス | 実験追跡、データセットバージョン化、およびモデル管理 |
| DVC | 機械学習プロジェクト向けのオープンソースバージョン制御システム |
| オプトナ | 自動ハイパーパラメーター最適化ソフトウェアフレームワーク |
| レイチューン | スケーラブルなハイパーパラメーターチューニングライブラリ |
| アパッチエアフロー | ワークフローをプログラム的に著者、スケジュール、監視するためのプラットフォーム |
| 長官 | 最新のデータスタック用のワークフロー管理システム |
| ケドロ | 再現可能で保守可能なデータサイエンスコードを作成するためのオープンソースPythonフレームワーク |
| ハミルトン | 信頼できるデータ変換を作成および管理するための軽量ライブラリ |
| シャップ | 機械学習モデルの出力を説明するためのゲーム理論的アプローチ |
| ライム | 機械学習分類器の予測を説明する |
| flyte | 機械学習用のワークフローオートメーションプラットフォーム |
| DBT | データビルドツール |
| シャップ | 機械学習モデルの出力を説明するためのゲーム理論的アプローチ |
| ライム | 機械学習分類器の予測を説明する |
^ back to top ^
このセクションには、いくつかの追加の読書資料、視聴するチャンネル、聴くための話が含まれます。
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| ツイッター | 説明 |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | Data Scientist |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist.ハッカー。 Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| 避けられない | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
トップ
Some data mining competition platforms
^ back to top ^
| プレビュー | 説明 |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| Data Science | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^