
실제 문제 해결을 위해 배우고 적용하는 오픈 소스 데이터 과학 저장소.
이것은 데이터 과학을 공부하기위한 바로 가기 경로입니다. "데이터 과학이란 무엇이며 데이터 과학을 배우기 위해 무엇을 공부해야합니까?"
| 스폰서 | 정점 |
|---|---|
| --- | 첫 번째 후원자가 되십시오! [email protected] |
^ back to top ^
데이터 과학은 요즘 컴퓨터와 인터넷 농지에서 가장 인기있는 주제 중 하나입니다. 사람들은 오늘날까지 응용 프로그램 및 시스템에서 데이터를 수집했으며 지금은 데이터를 분석 할 때입니다. 다음 단계는 데이터로부터 제안을 제작하고 미래에 대한 예측을 만드는 것입니다. 여기에서 데이터 과학 에 대한 가장 큰 질문과 전문가의 수백 가지 답변을 찾을 수 있습니다.
| 링크 | 시사 |
|---|---|
| 데이터 과학이란 무엇입니까 @ O'Reilly | 데이터 과학자들은 기업가 정신과 인내심, 데이터 제품을 점차적으로 구축하려는 의지, 탐색 능력 및 솔루션을 반복 할 수있는 능력을 결합합니다. 그들은 본질적으로 학제 적입니다. 초기 데이터 수집 및 데이터 조건에서 결론에 이르기까지 문제의 모든 측면을 해결할 수 있습니다. 그들은 상자 밖에서 문제를 보는 새로운 방법을 생각해 내거나 매우 광범위하게 정의 된 문제로 작업 할 것이라고 생각할 수 있습니다.“여기에 많은 데이터가 있습니다. 무엇을 만들 수 있습니까?” |
| 데이터 과학 @ Quora 란 무엇입니까? | 데이터 과학은 기술, 알고리즘 개발 및 데이터 간섭과 같은 데이터의 여러 측면을 조합하여 데이터를 연구하고 분석하며 어려운 문제에 대한 혁신적인 솔루션을 찾습니다. 기본적으로 데이터 과학은 창의적인 방법을 찾아 데이터를 분석하고 비즈니스 성장을 추구하는 것입니다. |
| 21 세기의 가장 섹시한 직업 | 오늘날 데이터 과학자들은 1980 년대와 1990 년대의 월스트리트“Quants”와 유사합니다. 당시 물리학 및 수학 배경을 가진 사람들은 투자 은행 및 헤지 펀드로 스트리밍하여 완전히 새로운 알고리즘과 데이터 전략을 고안 할 수 있습니다. 그런 다음 다양한 대학들이 금융 공학 분야의 마스터 프로그램을 개발하여 주류 회사에 더 접근 할 수있는 2 세대의 인재를 휘젓습니다. 이 패턴은 1990 년대 후반에 검색 엔지니어들과 함께 반복되었으며, 그의 희귀 기술은 곧 컴퓨터 과학 프로그램에서 가르쳤습니다. |
| 위키 백과 | 데이터 과학은 과학적 방법, 프로세스, 알고리즘 및 시스템을 사용하여 많은 구조적 및 비 구조적 데이터에서 지식과 통찰력을 추출하는 학제 간 분야입니다. 데이터 과학은 데이터 마이닝, 머신 러닝 및 빅 데이터와 관련이 있습니다. |
| 데이터 과학자가되는 방법 | 데이터 과학자들은 빅 데이터 랭글러이며, 구조화되지 않은 구조화되지 않은 데이터를 수집하고 분석합니다. 데이터 과학자의 역할은 컴퓨터 과학, 통계 및 수학을 결합합니다. 그들은 데이터를 분석, 프로세스 및 모델링 한 다음 결과를 해석하여 회사 및 기타 조직에 대한 실행 가능한 계획을 작성합니다. |
| #Datascience의 매우 짧은 역사 | 데이터 과학자들이 어떻게 섹시하게되었는지에 대한 이야기는 대부분 젊은 컴퓨터 과학과의 성숙한 통계 분야의 결합에 대한 이야기입니다. “데이터 과학”이라는 용어는 최근에 빅 데이터의 광대 한 상점을 이해할 것으로 예상되는 새로운 직업을 구체적으로 지정하기 위해 등장했습니다. 그러나 데이터를 이해하는 것은 오랜 역사를 가지고 있으며 과학자, 통계 학자, 사서, 컴퓨터 과학자 및 기타 수년간 논의되었습니다. 다음 타임 라인은“데이터 과학”이라는 용어의 진화와 그 사용, 그것을 정의하려는 시도 및 관련 용어를 추적합니다. |
| 데이터 과학자를위한 소프트웨어 개발 리소스 | 데이터 과학자들은 탐색 적 분석, 통계 및 모델을 통해 데이터를 이해하는 데 집중합니다. 소프트웨어 개발자는 다양한 도구로 별도의 지식을 적용합니다. 그들의 초점은 관련이없는 것처럼 보이지만 데이터 과학 팀은 소프트웨어 개발 모범 사례를 채택하면 혜택을 볼 수 있습니다. 버전 제어, 자동 테스트 및 기타 개발 기술은 재현 가능한 프로덕션 준비 코드 및 도구를 만드는 데 도움이됩니다. |
| 데이터 과학자 로드맵 | 데이터 과학은 오늘날의 데이터 중심 세계에서 약 3 억 3,77 만 대의 데이터가 매일 생성되는 우수한 경력 선택입니다. 그리고이 숫자는 매일 증가하고 있으며,이 데이터를 활용하여 비즈니스 성장을 주도 할 수있는 숙련 된 데이터 과학자에 대한 수요가 증가합니다. |
| 데이터 과학자가되는 길을 탐색합니다 | _Data Science는 오늘날 가장 수요가 많은 경력 중 하나입니다. 비즈니스가 점점 더 많은 데이터에 의존하여 결정을 내리면서 숙련 된 데이터 과학자들의 필요성이 빠르게 성장했습니다. 기술 회사, 의료 기관 또는 정부 기관이든 데이터 과학자는 원시 데이터를 귀중한 통찰력으로 전환하는 데 중요한 역할을합니다. 그러나 특히 데이터 과학자가되는 방법, 특히 방금 시작한 경우 어떻게합니까? _ |
^ back to top ^
엄격하게 필요하지는 않지만 프로그래밍 언어를 갖는 것은 데이터 과학자로서 효과적인 기술입니다. 현재 가장 인기있는 언어는 파이썬 이며 r이 뒤 따릅니다. Python은 다양한 분야에서 응용 프로그램을 보는 일반 목적 스크립팅 언어입니다. R은 통계에 대한 도메인 별 언어로, 많은 공통 통계 도구가 포함되어 있습니다.
Python은 과학에서 가장 인기있는 언어이며, 사용 가능한 용이성과 사용자 생성 패키지의 생생한 생태계에 따라 작은 부분이 아닙니다. 패키지를 설치하려면 PIP ( pip install 로 호출), Python과 함께 제공되는 패키지 관리자 및 Python, R 용 패키지를 설치할 수 있고 GIT와 같은 실행 파일을 다운로드 할 수있는 강력한 패키지 관리자 인 Anaconda ( conda install 로 호출)의 두 가지 주요 방법이 있습니다.
R과 달리 Python은 데이터 과학을 염두에두고 처음부터 구축되지 않았지만이를 보충 할 제 3 자 라이브러리가 많이 있습니다. 이 문서의 뒷부분에서 훨씬 더 철저한 패키지 목록을 찾을 수 있지만,이 네 가지 패키지는 다음과 같이 데이터 과학 여행을 시작하기에 좋은 선택입니다. Scikit-Learn은 가장 인기있는 알고리즘을 구현하는 일반적인 목적 데이터 과학 패키지입니다. 여기에는 풍부한 문서, 자습서 및 모델의 모델의 예제가 포함되어 있습니다. 자신의 구현을 작성하는 것을 선호하더라도 Scikit-Learn은 찾은 많은 일반적인 알고리즘 뒤에있는 너트와 볼트에 대한 귀중한 참조입니다. 팬더를 사용하면 데이터를 편리한 테이블 형식으로 수집하고 분석 할 수 있습니다. Numpy는 벡터 및 매트릭스에 중점을 둔 수학 작업을위한 매우 빠른 도구를 제공합니다. Matplotlib 패키지를 기반으로 한 Seaborn 자체는 데이터의 아름다운 기본값을 사용하여 데이터의 아름다운 시각화를 생성하는 빠른 방법과 데이터의 많은 일반적인 시각화를 생성하는 방법을 보여주는 갤러리를 생성하는 빠른 방법입니다.
데이터 과학자가되기위한 여정을 시작할 때 언어 선택은 특히 중요하지 않으며 Python과 R은 모두 장단점을 가지고 있습니다. 좋아하는 언어를 선택하고 아래에 나열된 무료 코스 중 하나를 확인하십시오!
^ back to top ^
데이터 과학은 복잡한 데이터에서 통찰력과 패턴을 추출하여 실제 문제를 해결하기 위해 다양한 분야에서 활용되는 강력한 도구입니다.
^ back to top ^
^ back to top ^
데이터 과학을 어떻게 배우나요? 물론 데이터 과학을 수행함으로써! 좋아요, 좋아요 - 처음 시작할 때 특히 도움이되지 않을 수도 있습니다. 이 섹션에서는 튜토리얼, 튜토리얼, MOOC (Online Online Courses), 집중적 인 프로그램 및 대학을 최소한으로 최소한으로 최대한의 헌신으로 대략적으로 학습 리소스를 나열했습니다.
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
이 섹션은 데이터 과학 세계의 패키지, 도구, 알고리즘 및 기타 유용한 항목 모음입니다.
^ back to top ^
이들은 기계 학습 및 데이터 마이닝 알고리즘 및 모델로 데이터를 이해하고 의미를 도출하는 데 도움이됩니다.
^ back to top ^
^ back to top ^
^ back to top ^
| 링크 | 설명 |
|---|---|
| 데이터 과학 수명주기 프로세스 | 데이터 과학 수명주기 프로세스는 데이터 과학 팀을 아이디어에서 반복적으로 그리고 지속적으로 가치로 끌어들이는 프로세스입니다. 프로세스는이 리포지토리에 문서화되어 있습니다 |
| 데이터 과학 수명주기 템플릿 repo | 데이터 과학 라이프 사이클 프로젝트를위한 템플릿 저장소 |
| 렉스 덱스 | 공정한 평가를위한 범용 추천자 메트릭 도서관. |
| 화학 물질 | 약물 쌍 스코어링을위한 Pytorch 기반 딥 러닝 라이브러리. |
| Pytorch 기하학적 시간 | 동적 그래프에 대한 표현 학습. |
| 작은 모피 공 | API와 같은 Scikit-Learn이있는 NetworkX 용 그래프 샘플링 라이브러리. |
| 가라테 클럽 | API와 같은 Scikit-Learn이있는 NetworkX 용 감독되지 않은 머신 러닝 확장 라이브러리. |
| ML 작업 공간 | 기계 학습 및 데이터 과학을위한 올인원 웹 기반 IDE. 작업 공간은 Docker 컨테이너로 배포되며 다양한 인기있는 데이터 과학 라이브러리 (예 : Tensorflow, Pytorch) 및 DEV 도구 (예 : Jupyter, vs Code)로 전달됩니다. |
| Neptune.ai | 머신 러닝 모델을 만들고 공유하는 데이터 과학자를 지원하는 커뮤니티 친화적 인 플랫폼. 해왕성은 팀워크, 인프라 관리, 모델 비교 및 재현성을 촉진합니다. |
| 계산서 | 빠르고 재현 가능한 기계 학습 실험을위한 가벼운 파이썬 라이브러리. 깨끗한 머신 러닝 파이프 라인 설계를 가능하게하는 매우 간단한 인터페이스를 소개합니다. |
| steppy-toolkit | 기계 학습이 더 빠르고 효과적으로 작동하도록하는 신경망, 변압기 및 모델의 선별 된 수집. |
| Google의 데이터 ab | Python 및 SQL과 같은 친숙한 언어를 사용하여 대화식으로 쉽게 탐색, 시각화, 분석 및 변환하십시오. |
| Hortonworks 샌드 박스 | 수십 개의 대화식 Hadoop 튜토리얼과 함께 제공되는 개인적이고 휴대용 Hadoop 환경입니다. |
| 아르 자형 | 통계 컴퓨팅 및 그래픽을위한 무료 소프트웨어 환경입니다. |
| Tidyverse | 데이터 과학을 위해 설계된 R 패키지의 의견이 많은 컬렉션입니다. 모든 패키지는 기본 디자인 철학, 문법 및 데이터 구조를 공유합니다. |
| rstudio | IDE - R의 강력한 사용자 인터페이스는 무료 및 오픈 소스이며 Windows, Mac 및 Linux에서 작동합니다. |
| 파이썬 - 팬더 - 아나콘다 | 대규모 데이터 처리, 예측 분석 및 과학 컴퓨팅을위한 완전 무료 Enterprise-Ready Python Distribution |
| 팬더스 gui | 팬더스 gui |
| Scikit-Learn | 파이썬의 기계 학습 |
| Numpy | Numpy는 Python을 사용한 과학 컴퓨팅의 기본입니다. 대형 다차원 배열 및 행렬을 지원하며 이러한 배열에서 작동하기 위해 다양한 수준의 수준의 수학적 기능을 포함합니다. |
| vaex | VAEX는 큰 데이터 세트를 시각화하고 고속으로 통계를 계산할 수있는 파이썬 라이브러리입니다. |
| Scipy | Scipy는 Numpy Array와 함께 작동하며 수치 통합 및 최적화를위한 효율적인 루틴을 제공합니다. |
| 데이터 과학 도구 상자 | Coursera 코스 |
| 데이터 과학 도구 상자 | 블로그 |
| Wolfram 데이터 과학 플랫폼 | 수치, 텍스트, 이미지, GIS 또는 기타 데이터를 가져 와서 Wolfram 처리를 제공하여 전체 스펙트럼의 데이터 과학 분석 및 시각화를 수행하고 풍부한 대화 형 보고서를 자동으로 생성합니다. |
| Datadog | 고급 데이터 과학을위한 솔루션, 코드 및 DevOps. |
| 변화 | JavaScript를 작성하지 않고 웹에 대한 강력한 데이터 시각화 구축 |
| 카이트 개발 키트 | Kite Software Development Kit (Apache License, Version 2.0) 또는 Kite for Short는 Hadoop 생태계 위에 시스템을보다 쉽게 구축 할 수 있도록하는 일련의 라이브러리, 도구, 예제 및 문서 세트입니다. |
| 도미노 데이터 실험실 | 인프라 나 설정없이 모델을 실행, 스케일, 공유 및 배포하십시오. |
| 아파치 플링크 | 효율적이고 분산 된 일반 목적 데이터 처리를위한 플랫폼. |
| 아파치 하마 | Apache Hama는 Apache Top Level Open Source 프로젝트로 MapReduce를 넘어서 고급 분석을 수행 할 수 있습니다. |
| Weka | Weka는 데이터 마이닝 작업을위한 기계 학습 알고리즘 모음입니다. |
| 옥타브 | GNU 옥타브는 주로 수치 계산을위한 고급 해석 언어입니다. (무료 MATLAB) |
| 아파치 스파크 | 번개 빠른 클러스터 컴퓨팅 |
| 수학권 안개 | Apache Spark Analytics 작업 및 기계 학습 모델을 실시간, 배치 또는 반응성 웹 서비스로 노출시키는 서비스. |
| 데이터 메커니즘 | Apache Spark를보다 개발자에게 친숙하고 비용 효율적으로 만드는 데이터 과학 및 엔지니어링 플랫폼. |
| 카페 | 딥 러닝 프레임 워크 |
| 토치 | Luajit의 과학 컴퓨팅 프레임 워크 |
| Nervana의 파이썬 기반 딥 러닝 프레임 워크 | Intel® Nervana ™ 참조 딥 러닝 프레임 워크 모든 하드웨어에서 최상의 성능을 발휘합니다. |
| 스케일 | NodeJS에서 고성능 분산 데이터 처리 |
| Aerosolve | 인간을 위해 제작 된 기계 학습 패키지. |
| 인텔 프레임 워크 | Intel® 딥 러닝 프레임 워크 |
| Datawrapper | 오픈 소스 데이터 시각화 플랫폼은 모든 사람이 간단하고 정확하며 임베드 가능한 차트를 만들 수 있도록 도와줍니다. 또한 github.com에서 |
| 텐서 흐름 | Tensorflow는 기계 인텔리전스를위한 오픈 소스 소프트웨어 라이브러리입니다. |
| 자연어 툴킷 | 자연어 처리 및 분류를위한 소개하면서도 강력한 툴킷 |
| 주석 실험실 | 텍스트 주석 및 DL 모델 교육/튜닝을위한 무료 엔드 투 엔드 노 코드 플랫폼. 명명 된 엔티티 인식, 분류, 관계 추출 및 어설 션 상태에 대한 상자 외 지원 Spark NLP 모델. 사용자, 팀, 프로젝트, 문서에 대한 무제한 지원. |
| node.js 용 nlp-toolkit | 이 모듈은 몇 가지 기본 NLP 원칙 및 구현을 다룹니다. 주요 초점은 성능입니다. NLP의 샘플 또는 훈련 데이터를 처리하면 메모리가 빠르게 떨어집니다. 따라서이 모듈의 모든 구현은 현재 어떤 단계에서나 처리중인 메모리에 해당 데이터 만 보유하기 위해 스트림으로 작성됩니다. |
| 줄리아 | 기술 컴퓨팅을위한 고급 고성능 동적 프로그래밍 언어 |
| Ijulia | Julia-Language 백엔드는 Jupyter 대화식 환경과 결합되어 있습니다 |
| 아파치 제프 펠린 | SQL, Scala 등과의 데이터 중심의 대화식 데이터 분석 및 협업 문서를 활성화하는 웹 기반 노트북 |
| FeatureTools | 파이썬으로 작성된 자동 기능 엔지니어링을위한 오픈 소스 프레임 워크 |
| 옵티머스 | 클렌징, 사전 처리, 기능 엔지니어링, 탐색 적 데이터 분석 및 Pyspark 백엔드가있는 쉬운 ML. |
| 탈출 | 다양한 증강 기술 세트를 구현하는 빠르고 프레임 워크 불가지론 이미지 확대 라이브러리. 상자 밖으로 분류, 세분화 및 감지를 지원합니다. Kaggle, Topcoder 및 CVPR 워크샵의 일부인 대회에서 수많은 딥 러닝 대회에서 우승하는 데 사용되었습니다. |
| DVC | 오픈 소스 데이터 과학 버전 제어 시스템. 데이터 과학 프로젝트를 추적, 구성 및 재현 할 수 있도록 도와줍니다. 매우 기본적인 시나리오에서는 버전이 큰 데이터 및 모델 파일을 제어하고 공유하는 데 도움이됩니다. |
| Lambdo | 하나의 분석 파이프 라인 (i) 기능 엔지니어링 및 머신 러닝 (ii) 모델 교육 및 예측 (iii) 테이블 모집단 및 열 평가를 결합하여 데이터 분석을 크게 단순화하는 워크 플로 엔진입니다. |
| 잔치 | 기계 학습 기능의 관리, 발견 및 액세스를위한 기능 저장소. Feast는 모델 교육 및 모델 서빙 모두에 대한 기능 데이터에 대한 일관된 견해를 제공합니다. |
| 폴리 바슨 | 재현 가능하고 확장 가능한 기계 학습 및 딥 러닝을위한 플랫폼. |
| 라이트 타그 | 팀을위한 텍스트 주석 도구 |
| 우비아이 | 대부분의 포괄적 인 자동 공개 기능이있는 팀을위한 사용하기 쉬운 텍스트 주석 도구. 송장 라벨링에 대한 NER, 관계 및 문서 분류 및 OCR 주석을 지원합니다. |
| 기차 | AUTO-MAGALIC 실험 관리자, 버전 제어 및 AI 용 DevOps |
| 홉스 워크 | 기능 저장소가 장착 된 오픈 소스 데이터 집약적 인 기계 학습 플랫폼. 온라인 (MySQL 클러스터) 및 오프라인 (Apache Hive) 액세스에 대한 기능을 수집하고 관리합니다. |
| MindSDB | MindSDB는 개발자를위한 설명 가능한 자동 프레임 워크입니다. MindSDB를 사용하면 한 줄의 코드만큼 간단하게 Art ML 모델을 구축, 훈련 및 사용할 수 있습니다. |
| 라이트 우드 | 머신 러닝 문제를 작은 블록으로 나누는 Pytorch 기반 프레임 워크는 한 줄의 코드로 예측 모델을 구축하기위한 목표와 함께 완벽하게 붙일 수있는 작은 블록으로 분류합니다. |
| AWS 데이터 Wrangler | Pandas 라이브러리의 전력을 AWS 연결 데이터 프레임 및 AWS 데이터 관련 서비스 (Amazon Redshift, AWS Glue, Amazon Athena, Amazon EMR 등)로 확장하는 오픈 소스 파이썬 패키지. |
| 아마존 재 인식 | AWS Rekognition은 Amazon Web Services에서 작업하는 개발자가 응용 프로그램에 이미지 분석을 추가 할 수있는 서비스입니다. 미디어 및 애플리케이션에서 자산을 카탈로그, 워크 플로우를 자동화하며 의미를 추출하십시오. |
| Amazon Textract | 인쇄 된 텍스트, 필기 및 모든 문서에서 데이터를 자동으로 추출합니다. |
| Amazon Lookout Vision | 컴퓨터 비전을 사용하여 제품 결함을 발견하여 품질 검사를 자동화합니다. 누락 된 제품 구성 요소, 차량 및 구조 손상 및 포괄적 인 품질 관리를위한 불규칙성을 식별하십시오. |
| 아마존 코드 구루 | 코드 검토를 자동화하고 ML 기반 권장 사항으로 응용 프로그램 성능을 최적화하십시오. |
| CML | 데이터 과학 프로젝트에서 지속적인 통합을 사용하기위한 오픈 소스 툴킷. GitHub Actions & Gitlab CI를 사용하여 생산과 같은 환경에서 모델을 자동으로 교육 및 테스트하고 Pull/Merge 요청에 대한 자율적 인 시각적 보고서. |
| 다스크 | 분석 코드를 분산 컴퓨팅 시스템으로 전환하기위한 오픈 소스 파이썬 라이브러리 (빅 데이터) |
| 통계 모들 | 파이썬 기반 추론 통계, 가설 테스트 및 회귀 프레임 워크 |
| 세대 | 자연어 텍스트의 주제 모델링을위한 오픈 소스 라이브러리 |
| 스파이 | 성능 자연 언어 처리 툴킷 |
| 그리드 스튜디오 | 그리드 스튜디오는 파이썬 프로그래밍 언어를 완전히 통합 한 웹 기반 스프레드 시트 응용 프로그램입니다. |
| 파이썬 데이터 과학 핸드북 | Python Data Science Handbook : Jupyter 노트북의 전체 텍스트 |
| Shapley | 기계 학습 앙상블에서 분류기의 값을 정량화하기위한 데이터 중심의 프레임 워크. |
| Dagshub | 데이터, 모델 및 파이프 라인 관리를위한 오픈 소스 도구를 기반으로 한 플랫폼. |
| 심해 | 새로운 종류의 데이터 과학 노트. 실시간 협업 및 클라우드에서 실행되는 Jupyter 호환. |
| 발로 하이 | 기계 오케스트레이션, 자동 재현성 및 배포를 처리하는 MLOPS 플랫폼. |
| pymc3 | Probabalistic 프로그래밍을위한 파이썬 라이브러리 (베이지안 추론 및 기계 학습) |
| 파이 스탄 | 스탠에 대한 파이썬 인터페이스 (베이지안 추론 및 모델링) |
| 흠 | 숨겨진 Markov 모델의 감독되지 않은 학습 및 추론 |
| 혼돈 천재 | 이상/이상 탐지 및 근본 원인 분석을위한 ML 전원 분석 엔진 |
| Nimblebox | 전 세계의 데이터 과학자와 기계 학습 실무자들이 웹 브라우저에서 멀티 클라우드 앱을 발견, 생성 및 출시 할 수 있도록 설계된 풀 스택 MLOPS 플랫폼. |
| TOWHEE | 구조화되지 않은 데이터를 임베딩으로 인코딩하는 데 도움이되는 파이썬 라이브러리. |
| 라니 나피 | 길고 지저분한 목이 노트북을 청소하는 데 좌절 한 적이 있습니까? 오픈 소스 파이썬 라이브러리 인 Lineapy를 사용하면 지저분한 개발 코드를 프로덕션 파이프 라인으로 변환하는 데 두 줄의 코드가 필요합니다. |
| Envd | 데이터 과학 및 AI/ML 엔지니어링 팀을위한 기계 학습 개발 환경 |
| 데이터 과학 라이브러리를 탐색하십시오 | 검색 엔진? 인기 및 신규 라이브러리, 최고 작가, 트렌드 프로젝트 키트, 토론, 튜토리얼 및 학습 리소스의 선별 된 목록을 발견하고 찾는 도구 |
| mlem | ? Gitops 원칙에 따라 ML 모델을 버전하고 배포하십시오 |
| mlflow | 전체 라이프 사이클에서 ML 모델을 관리하기위한 MLOPS 프레임 워크 |
| 청정 | 데이터 중심 AI 용 Python Library 및 ML 데이터 세트의 다양한 문제를 자동으로 감지 |
| autogluon | Automl은 이미지, 텍스트, 표, 시계열 및 다중 모달 데이터에 대한 정확한 예측을 쉽게 생성합니다. |
| Arize ai | ARIZE AI Community Tier Observability Observability Tool Tool Tool은 프로덕션에서 기계 학습 모델을 모니터링하고 데이터 품질 및 성능 드리프트와 같은 루트 제기 문제를 모니터링하십시오. |
| aureo.io | aureo.io는 인공 지능 구축에 중점을 둔로드 코드 플랫폼입니다. 파이프 라인, 자동화 및 인공 지능 모델과 통합 할 수있는 기능을 사용자에게 제공합니다. |
| ERD 실험실 | 개발자를위한 무료 클라우드 기반 엔티티 관계 다이어그램 (ERD) 도구. |
| 아르 크리 니 닉스 | 노트북의 Mlops- 통찰력, 표면 문제, 모니터링 및 모델을 미세 조정합니다. |
| 혜성 | 실험 추적, 모델 제작 관리, 모델 레지스트리 및 전체 데이터 계보가있는 MLOPS 플랫폼. |
| 오피 | 개발자 및 생산 라이프 사이클에서 LLM 애플리케이션을 평가, 테스트 및 배송합니다. |
| 합성 | 연구를위한 AI 기반 협업 환경. 관련 논문을 찾고, 참고 문헌을 관리하기 위해 컬렉션을 만들고, 컨텐츠를 한곳에서 요약하십시오. |
| 티 플롯 | 데이터 시각화 출력을 자동으로 구성하는 워크 플로 도구 |
| 간소 | 기계 학습 및 데이터 과학 프로젝트를위한 앱 프레임 워크 |
| Gradio | 머신 러닝 모델 주변에서 사용자 정의 가능한 UI 구성 요소를 만듭니다 |
| 가중치 및 편견 | 실험 추적, 데이터 세트 버전 작성 및 모델 관리 |
| DVC | 기계 학습 프로젝트를위한 오픈 소스 버전 제어 시스템 |
| Optuna | 자동 하이퍼 파라미터 최적화 소프트웨어 프레임 워크 |
| 레이 튜닝 | 확장 가능한 하이퍼 파라미터 튜닝 라이브러리 |
| 아파치 공기 흐름 | 프로그래밍 방식으로 저자, 일정 및 모니터링 워크 플로우를위한 플랫폼 |
| 지사 | 최신 데이터 스택을위한 워크 플로 관리 시스템 |
| 케드로 | 재현 가능하고 관리 가능한 데이터 과학 코드 생성을위한 오픈 소스 파이썬 프레임 워크 |
| 해밀턴 | 신뢰할 수있는 데이터 변환을 작성하고 관리하기위한 경량 라이브러리 |
| 모양 | 기계 학습 모델의 출력을 설명하기위한 게임 이론 접근 |
| 라임 | 기계 학습 분류기의 예측을 설명합니다 |
| 플라이 트 | 머신 러닝을위한 워크 플로 자동화 플랫폼 |
| DBT | 데이터 구축 도구 |
| 모양 | 기계 학습 모델의 출력을 설명하기위한 게임 이론 접근 |
| 라임 | 기계 학습 분류기의 예측을 설명합니다 |
^ back to top ^
이 섹션에는 몇 가지 추가 독서 자료, 시청 채널 및 듣기 대화가 포함됩니다.
^ back to top ^
eBook sale - Save up to 45% on eBooks!
Causal Machine Learning
Managing ML Projects
Causal Inference for Data Science
Data for All
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
^ back to top ^
Below are some Social Media links. Connect with other data scientists!
^ back to top ^
^ back to top ^
| 지저귀다 | 설명 |
|---|---|
| Big Data Combine | Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies |
| Big Data Mania | Data Viz Wiz, Data Journalist, Growth Hacker, Author of Data Science for Dummies (2015) |
| Big Data Science | Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research. |
| Charlie Greenbacker | Director of Data Science at @ExploreAltamira |
| Chris Said | Data scientist at Twitter |
| Clare Corthell | Dev, Design, Data Science @mattermark #hackerei |
| DADI Charles-Abner | #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast |
| Data Science Central | Data Science Central is the industry's single resource for Big Data practitioners. |
| Data Science London | Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data |
| Data Science Renee | Documenting my path from SQL Data Analyst pursuing an Engineering Master's Degree to Data Scientist |
| Data Science Report | Mission is to help guide & advance careers in Data Science & Analytics |
| Data Science Tips | Tips and Tricks for Data Scientists around the world! #datascience #bigdata |
| Data Vizzard | DataViz, Security, Military |
| DataScienceX | |
| deeplearning4j | |
| DJ Patil | White House Data Chief, VP @ RelateIQ. |
| Domino Data Lab | |
| Drew Conway | Data nerd, hacker, student of conflict. |
| Emilio Ferrara | #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv |
| Erin Bartolo | Running with #BigData--enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr. |
| Greg Reda | Working @ GrubHub about data and pandas |
| Gregory Piatetsky | KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher. |
| Hadley Wickham | Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. |
| Hakan Kardas | 데이터 과학자 |
| Hilary Mason | Data Scientist in Residence at @accel. |
| Jeff Hammerbacher | ReTweeting about data science |
| John Myles White | Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only. |
| Juan Miguel Lavista | Principal Data Scientist @ Microsoft Data Science Team |
| Julia Evans | Hacker - Pandas - Data Analyze |
| Kenneth Cukier | The Economist's Data Editor and co-author of Big Data (http://www.big-data-book.com/). |
| Kevin Davenport | Organizer of https://www.meetup.com/San-Diego-Data-Science-R-Users-Group/ |
| Kevin Markham | Data science instructor, and founder of Data School |
| Kim Rees | Interactive data visualization and tools. Data flaneur. |
| Kirk Borne | DataScientist, PhD Astrophysicist, Top #BigData Influencer. |
| Linda Regber | Data storyteller, visualizations. |
| Luis Rei | PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science. |
| Mark Stevenson | Data Analytics Recruitment Specialist at Salt (@SaltJobs) Analytics - Insight - Big Data - Data science |
| Matt Harrison | Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, organic gardening. |
| Matthew Russell | Mining the Social Web. |
| Mert Nuhoğlu | Data Scientist at BizQualify, Developer |
| Monica Rogati | Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer. |
| Noah Iliinsky | Visualization & interaction designer. Practical cyclist. Author of vis books: https://www.oreilly.com/pub/au/4419 |
| Paul Miller | Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst. |
| Peter Skomoroch | Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex-Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks |
| Prash Chan | Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud. |
| Quora Data Science | Quora's data science topic |
| R-Bloggers | Tweet blog posts from the R blogosphere, data science conferences, and (!) open jobs for data scientists. |
| Rand Hindi | |
| Randy Olson | Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate. |
| Recep Erol | Data Science geek @ UALR |
| Ryan Orban | Data scientist, genetic origamist, hardware aficionado |
| Sean J. Taylor | Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics. |
| Silvia K. Spiva | #DataScience at Cisco |
| Harsh B. Gupta | Data Scientist at BBVA Compass |
| Spencer Nelson | Data nerd |
| Talha Oz | Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile Kaggler/data scientist |
| Tasos Skarlatidis | Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source. |
| Terry Timko | InfoGov; Bigdata; Data as a Service; 데이터 과학; Open, Social & Business Data Convergence |
| Tony Baer | IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in. |
| Tony Ojeda | Data Scientist , Author , Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC |
| Vamshi Ambati | Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com ) |
| Wes McKinney | Pandas (Python Data Analysis library). |
| WileyEd | Senior Manager - @Seagate Big Data Analytics @McKinsey Alum #BigData + #Analytics Evangelist #Hadoop, #Cloud, #Digital, & #R Enthusiast |
| WNYC Data News Team | The data news crew at @WNYC. Practicing data-driven journalism, making it visual, and showing our work. |
| Alexey Grigorev | Data science author |
| İlker Arslan | Data science author. Shares mostly about Julia programming |
| 불가피한 | AI & Data Science Start-up Company based in England, UK |
^ back to top ^
맨 위
Some data mining competition platforms
^ back to top ^
| 시사 | 설명 |
|---|---|
| Key differences of a data scientist vs. data engineer | |
| A visual guide to Becoming a Data Scientist in 8 Steps by DataCamp (img) | |
| Mindmap on required skills (img) | |
| Swami Chandrasekaran made a Curriculum via Metro map. | |
| by @kzawadz via twitter | |
| By Data Science Central | |
| Data Science Wars: R vs Python | |
| How to select statistical or machine learning techniques | |
| Choosing the Right Estimator | |
| The Data Science Industry: Who Does What | |
| 데이터 과학 | |
| Different Data Science Skills and Roles from this article by Springboard | |
| A simple and friendly way of teaching your non-data scientist/non-statistician colleagues how to avoid mistakes with data. From Geckoboard's Data Literacy Lessons. |
^ back to top ^
^ back to top ^