데이터 과학 해킹은 데이터 과학 커뮤니티를 위해 분석 Vidhya에 의해 만들어지고 유지됩니다.
데이터 과학, 기계 학습과 관련된 다양한 팁, 트릭 및 해킹이 포함되어 있습니다.
이 해킹은 모든 데이터 과학자들을위한 것입니다. 당신이 초보자 또는 고급 전문가인지는 중요하지 않습니다. 이러한 해킹은 확실히 효율적으로 만들 것입니다!
여기에서 자신의 데이터 과학 해킹에 자유롭게 기여하십시오. 해킹이 기여 가이드 라인을 따르도록하십시오
이 저장소는 Analytics Vidhya의 무료 코스의 일부입니다. 이러한 멋진 해킹에 대한 자세한 내용은 데이터 과학 해킹, 팁 및 요령을 방문하십시오.
한 번의 클릭으로 Chrome에서 직접 이미지 데이터를 어떻게 추출 할 수 있습니까? 자신의 머신 러닝 프로젝트를 만들고 싶지만 데이터가 충분하지 않다고 상상해보십시오. 데이터를 직접 다운로드하기 위해 Resources Baver 확장을 사용하여 데이터를 직접 다운로드 할 수는 없을 걱정이되지 않습니다! 어떻게 보자!
단계 :
Pandas Apply는 데이터를 사용하고 새로운 변수를 만드는 데 가장 일반적으로 사용되는 기능 중 하나입니다. 일부 기능으로 데이터 프레임의 각 행/열을 전달한 후 일부 값을 반환합니다. 함수는 기본값 또는 사용자 정의 일 수 있습니다.
데이터 프레임의 데이터 값을 기반으로 데이터의 하위 세트를 선택하는 데 도움이됩니다.
MS Excel 스타일 스프레드 시트를 만드는 데 사용됩니다. 피벗 테이블의 레벨은 결과 데이터 프레임의 인덱스 및 열에 다중 인덱스 객체 (계층 인덱스)에 저장됩니다.
pd.crosstab () 함수는 데이터의 초기 "느낌"(보기)을 얻는 데 사용됩니다.
Pandas Dataframe 열에서 벡터화 된 문자열 함수를 적용하는 데 사용됩니다. 데이터 프레임 열에서 이름을 이름과 성으로 분할한다고 가정 해 봅시다. pandas.series.str와 함께 split ()를 사용 하여이 작업을 수행 할 수 있습니다.
다음은 일반 표현식을 사용하여 Python에서 2 줄의 코드를 사용하여 긴 텍스트로 존재하는 이메일 ID를 추출하는 흥미로운 해킹입니다. 소셜 미디어 게시물과 웹 사이트에서 정보를 추출하는 것은 데이터 분석에서 일반적인 관행이되었지만 때로는 올바른 기술을 사용하여 쉽게 해결할 수있는 것들을 달성하기 위해 복잡한 방법을 시도하게됩니다.
선형 및 로지스틱 회귀 분석에서 가장 중요한 가정 중 하나는 우리의 데이터가 정규 분포를 따라야한다는 것입니다. 그러나 우리 모두는 일반적으로 실생활에서는 그렇지 않다는 것을 알고 있습니다. 우리는 종종 데이터를 정상/ 가우스 분포로 변환해야합니다.
전처리는 모델의 성능을 향상시키기위한 주요 단계 중 하나입니다. 텍스트 전처리의 주된 이유 중 하나는 구두점, 이모티콘, 링크 등과 같은 텍스트에서 원치 않는 문자를 제거하는 것입니다.
k-nearest 이웃에서 k의 값을 식별하는 데 팔꿈치 방법이 사용됩니다. K의 다른 값에서 오류의 플롯이며 최소 오류가있는 k 값을 선택합니다!
데이터 분석의 중요한 부분은 전처리하는 것입니다. K-NN의 경우 모델을 구축하기 전에 항상 데이터를 확장 해야하는 경우와 같은 기능을 여러 번 확장해야합니다. 그렇지 않으면 가짜 결과가 제공됩니다.
오늘날 수집 된 대부분의 데이터는 날짜 및 시간 변수를 보유합니다. 이러한 기능에서 추출 할 수있는 많은 정보가 있으며 분석에 활용할 수 있습니다!
DeePlearning 모델에는 일반적으로 교육을 위해 많은 #Data가 필요합니다. 그러나 엄청난 양의 데이터를 얻는 데는 자체 문제가 있습니다. 수동으로 데이터를 수집하는 대신 이미지 확대 기술을 사용할 수 있습니다. 새로운 이미지를 생성하는 과정입니다. 이 새로운 이미지는 기존 교육 이미지를 사용하여 생성되므로 수동으로 수집 할 필요가 없습니다.
토큰 화는 어휘를 구축하는 동안 주요 작업입니다. Huggingface는 최근 성능과 다양성에 중점을 둔 오늘날 가장 많이 사용되는 토큰 화제의 구현을 제공하는 토큰 화를위한 도서관을 만들었습니다. 주요 기능 : 초고속 : 표준 서버의 CPU에서 ~ 20SEC에서 1GB 텍스트를 인코딩 할 수 있습니다.
1 줄의 코드로 분류 된 데이터 프레임으로 범주 및 숫자 기능을 추출 할 수 있습니다! select_dtypes 함수를 사용하여 수행 할 수 있습니다.
데이터 프레임에서 빠른 데이터 분석을 수행하고 싶습니까? 팬더 프로파일 링을 사용하여 1 줄의 코드로 데이터 세트의 프로필 보고서를 생성 할 수 있습니다!
넓은 형태의 데이터 프레임을 단 1 줄의 코드로 긴 형태의 데이터 프레임으로 변환하십시오! pd.melt ()에서는 하나의 열이 식별자로 사용됩니다. "Unmelt the Data", pivot () 함수를 사용하십시오
Jupyter 노트북 내부에서 모든 명령의 역사를 얻을 수있는 방법을 알고 있습니까? Jupyter Notebook의 내장 마술 기능 인 %기록을 사용하십시오! 참고 - 노트북에서 셀을 자르더라도 %이력은 해당 명령을 인쇄합니다!
Seaborn을 사용하여 Pandas Dataframe에서 Heatmap을 만듭니다! 그것은 당신이 엿볼 때의 전체 값 범위를 이해하는 데 도움이됩니다.
Scikit-Learn은 새로운 기능과 버그 수정으로 안정적인 0.22.1 버전을 출시했습니다. 새로운 기능 중 하나는 분류기에 대해 매우 직관적이고 사용자 정의 가능한 혼란 매트릭스를 생성하는 Plot_Confusion_Matrix 기능입니다. 보너스 팁 : values_format 매개 변수를 사용하여 상자에 나타나는 숫자의 형식을 지정할 수 있습니다 (전체 숫자의 경우 'n', '.2f'for for for for for)
Jupyter 노트의 단일 셀에서 다음 명령을 실행하면 출력은 무엇입니까? df.shape df.head ()의 경우 데이터 프레임의 첫 5 줄이 될 것입니다. 같은 셀에서 두 명령 실행의 출력을 얻을 수 있습니까? interactiveShell을 사용하여 수행 할 수 있습니다.
대부분의 사람들은 도서관 TQDM에 대해 들었고 루프를 위해 Forever Running의 진행 상황을 추적 할 수 있습니다. 대부분의 시간은 루프에 중첩 된 복잡한 기능을 작성합니다. #TQDM은이를 추적 할 수 있습니다. 파이썬에서 TDQM을 사용하여 중첩 루프를 추적하는 방법은 다음과 같습니다.
Deeplearning 모델에는 일반적으로 교육을위한 많은 데이터가 필요합니다. 그러나 엄청난 양의 데이터를 얻는 데는 자체 문제가 있습니다. 수동으로 데이터를 수집하는 대신 이미지 확대 기술을 사용할 수 있습니다. 새로운 이미지를 생성하는 과정입니다. 이 새로운 이미지는 기존 교육 이미지를 사용하여 생성되므로 수동으로 수집 할 필요가 없습니다.
Jupyter-Themes는 Jupyter 노트북에서 테마, 글꼴 등을 쉽게 변경하는 방법을 제공합니다.
단계 -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
이를 위해 우리는 Jupyter-Themes를 사용하여 Jupyter 노트북에서 테마, 글꼴 등을 쉽게 변경할 수있는 쉬운 방법을 제공합니다.
단계 -
Jupyter -Themes 설치 -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
테마, 셀 폭, 셀 높이를 변경하십시오
jt -t chesterish -cellw 100% lineh 170
열의 데이터 유형을 열 시간으로 변경해야 할 때 어떻게합니까? parse_dates 인수를 사용하여 데이터를 읽는 시점에 직접이를 수행 할 수 있습니다.
Jupyter 노트북을 비 프로그래머와 매우 쉽게 공유 할 수 있으며 가장 좋은 방법은 Jupyter NBViewer를 사용하는 것입니다. Pro Tip- 바인더를 사용하여 컴퓨터의 NBViewer에서 코드를 실행할 수 있습니다!
단 한 줄의 코드로 의사 결정 트리를 플로팅하는 방법을 알고 있습니까? Sklearn 은이 작업을 수행하기 위해 간단한 기능 Plot_tree ()를 제공합니다. 요구 사항에 따라 하이퍼 파라미터를 조정할 수 있습니다.
파이썬에서 사전을 반전 할 수있는 방법을 알고 있습니까? Dictionary는 정렬되지 않고 변경 가능하며 색인화 된 컬렉션입니다. 매일 매일 프로그래밍 및 기계 학습 작업에 널리 사용됩니다.
커프 단추는 Pandas 데이터 프레임에 직접 플롯을 바인딩합니다! 따라서 번거 로움이나 긴 코드없이 대화식 차트를 만들 수 있습니다.
이 해킹은 Magic Command %% 쓰기 파일을 사용하여 셀의 내용을 .py 파일에 저장 한 다음 Magic Command %run을 사용하여 다른 Jupyter 노트북에서 파일을 실행하는 것입니다.
일부 데이터 구조를 인쇄하는 동안 혼란스러워지고 있습니까? 걱정하지 마십시오. 매우 일반적입니다. Pretty Print 모듈은 시각적으로 즐거운 방식으로 데이터 구조를 인쇄하는 쉬운 방법을 제공합니다!
이 코드를 사용하면 모든 형식의 날짜를 지정된 형식으로 변환 할 수 있습니다. 여러 번, 우리는 데이터에서 다양한 형식의 날짜를받습니다. 이 핵은 모든 형식을 지정된 형식으로 변환하는 데 도움이됩니다.
기능 선택을 수행하는 방법 중 하나는 기본 추정기의 feaction_importance_ 속성을 사용하는 것입니다. SelectFromomel 함수를 사용하면 feature_importance_의 추정기 및 임계 값을 지정할 수 있으므로이 해킹은 '평균'을 임계 값으로 사용합니다. 임계 값을 조정하여 최적의 결과를 얻을 수 있습니다. 자세한 내용은 문서를 방문하십시오
문자열을 문자로 변환하는 가장 쉬운 방법은 무엇입니까? 다음은 텍스트 데이터로 작업하는 동안 편리한 간단한 해킹입니다.
딥 러닝을 사용하여 이미지 분류 모델을 구축하는 동안 모든 이미지의 크기가 동일해야합니다. 그러나 데이터가 다른 소스에서 나오기 때문에 이미지는 다른 모양을 가질 수 있습니다. 따라서 동일한 모양으로 변환하기 위해 Open CV에서 크기 조정 기능을 사용할 수 있습니다. 이 해킹은 모든 모양의 이미지를 지정된 모양으로 변환하는 데 도움이됩니다.
Pandas Dataframe에서 작업을 수행하는 데 시간이 걸리나요? PandarAllel은 사용 가능한 모든 CPU에서 Pandas 작업을 병렬화하는 간단하고 효율적인 도구입니다!
생성기는 한 번에 하나의 항목을 생성하고 수요가있을 때만 생성합니다. 생성기는 훨씬 더 메모리 효율적입니다. 이 해킹은 생성기 표현식과 목록 이해력을 비교합니다.
당신은 그들이 읽고 쓰기가 어렵 기 때문에 REGEX를 피하고 바로 잡기가 까다 롭습니까? 이 해킹은 REGEX를 올바르게 얻는 데 도움이됩니다. REGEX101은 온라인 Regex 테스터, PHP, PCRE, Python, Golang 및 JavaScript에 대한 강조 표시가있는 디버거입니다.
때로는 데이터가 중첩 된 목록의 형태 일 수 있습니다. 예를 들어, 데이터는 특정 제품의 날짜 별 트랜잭션 레코드 일 수 있습니다. 그러나 단일 차원에서만 필요할 수 있습니다. 이 핵은 목록 목록을 단일 목록으로 평평하게하는 데 도움이됩니다.
우리는 종종 디버깅 목적으로 인쇄문을 사용합니다. 이 해킹을 사용하면 코드의 특정 섹션에서 인쇄문을 끄면 디버깅이 더 쉬워집니다.
이 핵은 단일 PDF 문서를 여러 페이지로 나누는 데 도움이됩니다.
이 해킹은 여러 PDF 문서를 단일 문서로 결합하는 데 도움이됩니다. 이 핵은 해킹 #42 분할 pdf 문서 페이지에서 역의 역수입니다.
때로는 Keras의 Imagedatagenerator에서 직접 제공되지 않는 기능이 필요합니다. 귀하의 요구에 맞게 래퍼를 쉽게 만들 수 있습니다.

(즉, 여러 데이터 소스에서 입력 하고이 데이터에 대한 결합 된 교육을 수행하는 신경망을 사용하는 신경망을 사용하고 데이터 생성기가 즉시 데이터 준비를 처리 할 수 있으려면 ImagedAtagenerator 클래스 주변의 래퍼를 만들어 필요한 출력을 제공 할 수 있습니다.