數據科學黑客是由分析Vidhya為數據科學界創建和維護的。
它包括與數據科學,機器學習有關的各種技巧,技巧和黑客
這些駭客是針對所有數據科學家的。無論您是初學者還是高級專業人士都沒關係,這些黑客肯定會使您效率高!
隨時在這裡貢獻自己的數據科學黑客。確保您的黑客遵循貢獻指南
該存儲庫是Analytics Vidhya的自由課程的一部分。要了解更多如此出色的黑客訪問數據科學黑客,提示和技巧
如何一次點擊直接從Chrome中提取圖像數據?想像一下,您想制定自己的機器學習項目,但是您沒有足夠的數據,這成為一項艱鉅的任務擔心,不是您可以使用ResourceAver擴展名直接下載數據!讓我們看看如何!
步驟:
PANDAS APPRAPT是播放數據和創建新變量的最常用功能之一。它在傳遞數據框的每一行/列後,它返回一些功能。該函數可以是默認或用戶定義的。
它有助於根據數據框中的數據值選擇數據子集
它用於創建MS Excel樣式電子表格。樞軸表中的級別將存儲在結果dataFrame的索引和列上的多索引對象(層次索引)中。
pd.crosstab()函數用於獲得數據的初始“感覺”(視圖)。
它用於在PANDAS DataFrame列上應用矢量化的字符串函數。假設您想將數據框列中的名稱拆分為名稱和姓氏。 pandas.series.str和split()可用於執行此任務。
這是一個有趣的黑客,可以通過使用正則表達式在Python中使用2行代碼來提取長片文本中存在的電子郵件ID。從社交媒體帖子和網站中提取信息已成為數據分析中的一種常見實踐,但有時我們最終嘗試使用複雜的方法來實現可以通過使用正確的技術輕鬆解決的事物。
線性和邏輯回歸中最重要的假設之一是我們的數據必須遵循正態分佈,但我們都知道在現實生活中通常並非如此。我們通常需要將數據轉換為正常/高斯分佈。
預處理是改善模型性能的關鍵步驟之一。文本預處理的主要原因之一是從標點符號,表情符號,鏈接等文本中刪除不需要的字符,而我們的問題陳述不需要。
肘方法用於識別k-北端鄰居中K的值。這是k個不同值的錯誤圖,我們選擇具有最小錯誤的k值!
數據分析的重要部分是預處理。很多時候,我們需要擴展我們的功能,例如在K-NN的情況下,我們總是需要在構建模型之前擴展數據,否則會帶來虛假的結果。
今天收集的大多數數據都保留日期和時間變量。您可以從這些功能中提取很多信息,您可以在分析中使用它!
深度學習模型通常需要大量#DATA進行培訓。但是,獲取大量數據帶有其自身的挑戰。您可以使用圖像增強技術,而不是手動收集數據。這是生成新圖像的過程。這些新圖像是使用現有培訓圖像生成的,因此我們不必手動收集它們。
構建詞彙時,令牌化是主要任務。 Huggingface最近創建了一個用於令牌化的庫,該圖書館提供了當今最常用的象徵器的實現,重點是性能和多功能性。關鍵特徵:超快速:它們可以在標準服務器的CPU上編碼〜20sec中的1GB文本
您可以在僅1行代碼中將分類和數字功能提取到單獨的數據范圍中!可以使用select_dtypes函數完成此操作。
您是否想對數據框進行快速數據分析?您可以使用PANDAS PROPILING在僅1行代碼中生成數據集的配置文件報告!
將寬形式的數據框架轉換為僅在1行代碼中的長表單數據框架!在pd. -melt()中,另外一列用作標識符。 “ unmelt the數據”,使用pivot()函數
您知道如何獲得Jupyter筆記本中所有命令的歷史記錄嗎?使用%歷史記錄,Jupyter Notebook的內置魔術功能!注意 - 即使您在筆記本中切了單元格,百分比歷史記錄也會打印這些命令!
使用Seaborn在Pandas DataFrame上創建熱圖!它可以幫助您了解一瞥的完整值範圍。
Scikit-Learn發布了其穩定的0.22.1版本,具有新功能和錯誤修復。一個新功能是plot_confusion_matrix函數,它為分類器生成了極其直觀且可自定義的混淆矩陣。獎勵提示:您可以使用values_format參數(整數'n',for for for float等)指定框中出現的數字格式
如果您在Jupyter筆記本的單個單元格中運行以下命令,輸出將是什麼? df.形狀df.head()當然它將是您數據框架的前五行。我們可以在同一單元格中獲得兩個命令的輸出嗎?您可以使用InteractiveShell進行。
你們中的大多數人都聽說過圖書館TQDM,您可能正在使用它跟踪永遠運行的進度進行循環。在大多數情況下,我們編寫具有嵌套的複雜函數。 #TQDM也允許跟踪。這是您可以在Python中使用TDQM跟踪嵌套環的方法。
深度學習模型通常需要大量的培訓數據。但是,獲取大量數據帶有其自身的挑戰。您可以使用圖像增強技術,而不是手動收集數據。這是生成新圖像的過程。這些新圖像是使用現有培訓圖像生成的,因此我們不必手動收集它們。
Jupyter-主題提供了一種簡單的方法來更改主題,字體等,並在Jupyter筆記本中提供更多內容。
步驟 -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
為此,我們使用jupyter-Themes,它提供了一種簡單的方法來更改主題,字體和更多內容。
步驟 -
安裝jupyter-主題 -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
更改主題,單元格寬度,單元高度
jt -t chesterish -cellw 100% lineh 170
當您需要將列的數據類型更改為DateTime時,該怎麼辦?我們可以在使用parse_dates參數讀取數據時直接執行此操作。
您可以非常輕鬆地與非程序員共享Jupyter筆記本,最好的方法是使用Jupyter Nbviewer。專業提示 - 您可以使用活頁夾在計算機上執行NBViewer的代碼!
您知道如何僅用1行代碼繪製決策樹嗎? Sklearn提供了一個簡單的函數plot_tree()來完成此任務。您可以根據要求調整超參數。
您知道如何在Python中倒詞字典嗎?字典是一個無序,可變和索引的集合。它在日常編程和機器學習任務中被廣泛使用。
CuffLinks直接綁定到Pandas DataFrames!因此,您可以製作交互式圖表,而無需任何麻煩或長期代碼。
此hack是關於使用魔術命令%% writefile將單元格的內容保存到.py文件,然後使用魔術命令%運行在另一個jupyter筆記本中運行該文件
打印一些數據結構時,您是否會感到困惑?不用擔心,這很常見。漂亮的印刷模塊提供了一種以視覺令人愉悅的方式打印數據結構的簡便方法!
此代碼允許您將任何格式的日期轉換為指定格式。很多時候,我們在數據中收到各種格式的日期。該黑客將幫助您將所有這些格式轉換為指定格式。
執行特徵選擇的方法之一是使用基本估計器的feature_importance_屬性。使用selectfrommodel函數,您可以指定估計器和feature_importance_的閾值,此hack使用“均值”作為閾值。您可以調整閾值以獲得最佳結果。要了解更多信息,請訪問文檔
將字符串轉換為字符的最簡單方法是什麼?這是一個簡單的黑客,在使用文本數據時派上用場
在使用深度學習構建圖像分類模型時,所有圖像都應具有相同的大小。但是,由於數據來自不同的來源,圖像可能具有不同的形狀。因此,為了將它們轉換為相同的形狀,我們可以使用開放式CV的調整大小函數。該黑客將幫助您將任何形狀的圖像轉換為指定形狀。
在PANDAS DataFrame上執行操作需要時間嗎? Pandarallel是一種簡單有效的工具,可以在所有可用的CPU上並行化Pandas操作!
發電機一次產生一個項目,僅在需求時生成它們。發電機的內存效率要高得多。該黑客將生成器表達式與列表綜合進行比較。
您是否避免正則是因為它們很難讀寫和寫作,並且棘手是正確的嗎?此駭客可幫助您正確的正則表達式。 Regex101是一家在線正則測試儀,調試器,PHP,PCRE,PYTHON,GOLANG和JAVASCRIPT的重點
有時,數據可以以嵌套列表的形式。例如,數據可以是特定產品的日期交易記錄。但是,您可能只需要一個維度。該黑客將幫助您將列表列表列入單個列表。
我們經常將打印語句用於調試目的。該黑客將幫助您關閉代碼特定部分中的打印語句,以使調試更加容易。
該黑客將幫助您將單個PDF文檔分為多頁。
該黑客將幫助您將多個PDF文檔組合到一個文檔中。此黑客是黑客#42拆分PDF文檔的倒數
有時,您將需要一個功能,而Keras Imagedatagenerator無法直接提供。您可以在其周圍輕鬆創建包裝器以適應您的需求。

(即一個神經網絡,從多個數據源中獲取輸入,並對此數據進行組合培訓),並且您希望數據生成器應該能夠即時處理數據準備,您可以在Imagedatagenerator類中創建包裝器,以提供所需的輸出以提供所需的輸出。此筆記本對此USECase說明了一個簡單的解決方案。