Peretasan Ilmu Data dibuat dan dikelola oleh Analytics Vidhya untuk komunitas ilmu data.
Ini mencakup berbagai tips, trik, dan peretasan yang terkait dengan ilmu data, pembelajaran mesin
Peretasan ini untuk semua ilmuwan data di luar sana. Tidak masalah jika Anda seorang pemula atau profesional tingkat lanjut, peretasan ini pasti akan membuat Anda efisien!
Jangan ragu untuk menyumbangkan peretasan ilmu data Anda sendiri di sini. Pastikan peretasan Anda mengikuti pedoman kontribusi
Repositori ini adalah bagian dari kursus gratis oleh Analytics Vidhya. Untuk mempelajari lebih lanjut tentang peretasan yang luar biasa, kunjungi peretasan, tip, dan trik ilmu data
Bagaimana Anda bisa mengekstrak data gambar langsung dari Chrome dalam satu klik? Bayangkan bahwa Anda ingin membuat proyek pembelajaran mesin Anda sendiri tetapi Anda tidak memiliki cukup data, itu menjadi tugas yang menakutkan khawatir tidak Anda dapat menggunakan ekstensi ResourcesAver untuk langsung mengunduh data! Mari kita lihat caranya!
Tangga:
Pandas Apply adalah salah satu fungsi yang paling umum digunakan untuk bermain dengan data dan membuat variabel baru. Ini mengembalikan beberapa nilai setelah melewati setiap baris/kolom bingkai data dengan beberapa fungsi. Fungsi ini dapat default atau ditentukan pengguna.
Ini membantu untuk memilih subset data berdasarkan nilai data di DataFrame
Ini digunakan untuk membuat spreadsheet gaya MS Excel. Level dalam tabel pivot akan disimpan dalam objek multiindeks (indeks hierarkis) pada indeks dan kolom dari hasil data hasil.
Fungsi PD.CrosStab () digunakan untuk mendapatkan "nuansa" (tampilan) awal dari data.
Ini digunakan untuk menerapkan fungsi string vektorisasi pada kolom Pandas DataFrame. Katakanlah Anda ingin membagi nama di kolom DataFrame menjadi nama depan dan nama belakang. pandas.series.str bersama dengan split () dapat digunakan untuk melakukan tugas ini.
Berikut adalah peretasan yang menarik untuk mengekstrak ID email yang ada dalam teks panjang dengan hanya menggunakan 2 baris kode dalam Python menggunakan ekspresi reguler. Mengekstraksi informasi dari posting media sosial dan situs web telah menjadi praktik umum dalam analisis data tetapi kadang -kadang kita akhirnya mencoba metode rumit untuk mencapai hal -hal yang dapat diselesaikan dengan mudah dengan menggunakan teknik yang tepat.
Salah satu asumsi terpenting dalam regresi linier dan logistik adalah bahwa data kami harus mengikuti distribusi normal tetapi kita semua tahu bahwa biasanya tidak terjadi dalam kehidupan nyata. Kita sering perlu mengubah data kita menjadi distribusi normal/ Gaussian.
Preprocessing adalah salah satu langkah kunci untuk meningkatkan kinerja model. Salah satu alasan utama preprocessing teks adalah untuk menghapus karakter yang tidak diinginkan dari teks seperti tanda baca, emoji, tautan dan sebagainya yang tidak diperlukan untuk pernyataan masalah kami.
Metode siku digunakan untuk mengidentifikasi nilai k di tetangga k-nearest. Ini adalah plot kesalahan pada nilai k yang berbeda dan kami memilih nilai k yang memiliki kesalahan terkecil!
Bagian penting dari analisis data adalah preprocessing. Sering kali kita perlu skala fitur kita seperti dalam kasus K-NN kita selalu perlu skala data sebelum membangun model atau itu akan memberikan hasil palsu.
Sebagian besar data yang dikumpulkan hari ini, tahan variabel tanggal dan waktu. Ada banyak informasi yang dapat Anda ekstrak dari fitur -fitur ini dan Anda dapat menggunakannya dalam analisis Anda!
Model deeplearning biasanya membutuhkan banyak #Data untuk pelatihan. Tetapi memperoleh sejumlah besar data hadir dengan tantangannya sendiri. Alih -alih menghabiskan hari mengumpulkan data secara manual, Anda dapat menggunakan teknik augmentasi gambar. Ini adalah proses menghasilkan gambar baru. Gambar -gambar baru ini dihasilkan menggunakan gambar pelatihan yang ada dan karenanya kami tidak perlu mengumpulkannya secara manual.
Tokenisasi adalah tugas utama saat membangun kosa kata. HuggingFace baru -baru ini membuat perpustakaan untuk tokenisasi yang menyediakan implementasi tokenizer yang paling banyak digunakan saat ini, dengan fokus pada kinerja dan keserbagunaan. Fitur Utama: Ultra-Fast: Mereka dapat mengkode 1GB teks dalam ~ 20SEC pada CPU server standar
Anda dapat mengekstrak fitur kategorikal dan numerik ke dalam data yang terpisah hanya dalam 1 baris kode! Ini dapat dilakukan dengan menggunakan fungsi select_dtypes.
Apakah Anda ingin melakukan analisis data cepat di dataframe Anda? Anda dapat menggunakan profil panda untuk menghasilkan laporan profil dataset Anda hanya dalam 1 baris kode!
Konversi Wide Form DataFrame menjadi Long Form DataFrame hanya dalam 1 baris kode! Dalam PD.Melt (), satu kolom lagi digunakan sebagai pengidentifikasi. "Buka Data", Gunakan Fungsi Pivot ()
Tahukah Anda bagaimana Anda bisa mendapatkan riwayat semua perintah yang berjalan di dalam buku catatan Jupyter Anda? Gunakan %riwayat, fungsi sulap bawaan Jupyter Notebook! Catatan - Bahkan jika Anda telah memotong sel di buku catatan Anda, %riwayat akan mencetak perintah itu juga!
Buat Panas Panas di DataFrame Pandas Menggunakan Seaborn! Ini membantu Anda memahami rentang nilai lengkap sekilas.
Scikit-Learn telah merilis versi stabil 0.22.1 dengan fitur baru dan perbaikan bug. Salah satu fungsi baru adalah fungsi plot_confusion_matrix yang menghasilkan matriks kebingungan yang sangat intuitif dan dapat disesuaikan untuk classifier Anda. Kiat bonus: Anda dapat menentukan format angka yang muncul di kotak menggunakan parameter values_format ('n' untuk seluruh angka, '.2f' untuk float, dll)
Apa yang akan menjadi output jika Anda menjalankan perintah berikut di sel tunggal notebook Jupyter Anda? df.shape df.head () Ofcourse Ini akan menjadi lima baris pertama dari DataFrame Anda. Bisakah kita mendapatkan output dari kedua perintah yang dijalankan di sel yang sama? Anda dapat melakukannya menggunakan InteractiveHell.
Sebagian besar dari Anda telah mendengar tentang perpustakaan TQDM dan Anda mungkin menggunakannya melacak kemajuan selamanya berjalan untuk loop. Sebagian besar waktu kami menulis fungsi kompleks yang bersarang untuk loop. #TQDM juga memungkinkan pelacakan itu. Inilah cara Anda dapat melacak loop bersarang menggunakan TDQM di Python.
Model deeplearning biasanya membutuhkan banyak data untuk pelatihan. Tetapi memperoleh sejumlah besar data hadir dengan tantangannya sendiri. Alih -alih menghabiskan hari mengumpulkan data secara manual, Anda dapat menggunakan teknik augmentasi gambar. Ini adalah proses menghasilkan gambar baru. Gambar -gambar baru ini dihasilkan menggunakan gambar pelatihan yang ada dan karenanya kami tidak perlu mengumpulkannya secara manual.
Jupyter-Themes menyediakan cara mudah untuk mengubah tema, font, dan banyak lagi di buku catatan Jupyter Anda.
Langkah -
conda install -c conda-forge jupyterthemes
pip install jupyterthemes
jt - l
jt -t chesterish
jt -r
Untuk melakukan ini, kami menggunakan Jupyter-Tema, ini memberikan cara mudah untuk mengubah tema, font, dan banyak lagi di buku catatan Jupyter Anda.
Langkah -
Instal Jupyter -Tema -
conda install -c conda-forge jupyterthemes
conda install -c pip install jupyterthemes
Ubah tema, lebar sel, tinggi sel
jt -t chesterish -cellw 100% lineh 170
Apa yang Anda lakukan ketika Anda perlu mengubah tipe data kolom menjadi datetime? Kita dapat melakukan ini secara langsung pada saat membaca data menggunakan argumen parse_dates.
Anda dapat berbagi buku catatan Jupyter Anda dengan non-pemrogram dengan sangat mudah dan cara terbaik untuk melakukannya adalah dengan menggunakan Jupyter NBViewer. Kiat Pro - Anda dapat menggunakan Binder untuk menjalankan kode dari NBViewer di mesin Anda!
Tahukah Anda cara merencanakan pohon keputusan hanya dalam 1 baris kode? SkLearn menyediakan fungsi sederhana plot_tree () untuk melakukan tugas ini. Anda dapat mengubah hiperparameter sesuai kebutuhan Anda.
Tahukah Anda bagaimana Anda dapat membalikkan kamus di Python? Kamus adalah koleksi yang tidak berurutan, dapat diubah dan diindeks. Ini banyak digunakan dalam pemrograman sehari -hari, dan tugas pembelajaran mesin.
Cufflinks mengikat secara plotly langsung ke pandaframes pandas! Oleh karena itu Anda dapat membuat grafik interaktif tanpa kerumitan atau kode panjang.
Peretasan ini adalah tentang menyimpan konten sel ke file .py menggunakan perintah ajaib %% writefile dan kemudian menjalankan file di notebook jupyter lain menggunakan perintah ajaib %run
Apakah Anda menjadi bingung saat mencetak beberapa struktur data? Jangan khawatir, ini sangat umum. Modul Pretty-Print menyediakan cara mudah untuk mencetak struktur data dengan cara yang menyenangkan secara visual!
Kode ini memungkinkan Anda untuk mengonversi tanggal format apa pun menjadi format yang ditentukan. Sering kali, kami menerima tanggal berbagai format dalam data kami. Peretasan ini akan membantu Anda untuk mengubah semua format tersebut menjadi format yang ditentukan.
Salah satu cara untuk melakukan pemilihan fitur adalah dengan menggunakan atribut fitur_importance_ dari estimator dasar. Menggunakan fungsi SelectFrommodel Anda dapat menentukan estimator dan ambang batas untuk fitur_importance_, peretasan ini menggunakan 'rata -rata' sebagai ambang batas. Anda dapat mengubah ambang batas untuk mendapatkan hasil yang optimal. Untuk mempelajari lebih lanjut, kunjungi dokumentasi
Apa cara termudah untuk mengonversi string ke karakter? Berikut ini adalah peretasan sederhana yang berguna saat bekerja dengan data teks
Saat membangun model klasifikasi gambar menggunakan pembelajaran mendalam, diperlukan bahwa semua gambar harus berukuran sama. Namun, karena data berasal dari sumber yang berbeda, gambar mungkin memiliki bentuk yang berbeda. Jadi, untuk mengonversinya ke bentuk yang sama, kita dapat menggunakan fungsi ukuran dari Open CV. Peretasan ini akan membantu Anda mengonversi gambar dari bentuk apa pun menjadi bentuk yang ditentukan.
Apakah butuh waktu untuk melakukan operasi di DataFrame PANDAS Anda? PandarAllel adalah alat yang sederhana dan efisien untuk mempekerjakan operasi panda di semua CPU yang tersedia!
Generator menghasilkan satu item pada satu waktu dan menghasilkannya hanya jika diminati. Generator jauh lebih efisien memori. Peretasan ini membandingkan ekspresi generator dengan pemahaman daftar.
Apakah Anda menghindari Regex karena sulit dibaca dan ditulis serta sulit untuk dilakukan dengan benar? Peretasan ini membantu Anda memperbaiki regex Anda. Regex101 adalah penguji regex online, debugger dengan menyorot untuk PHP, PCRE, Python, Golang dan JavaScript
Terkadang data dapat dalam bentuk daftar bersarang. Misalnya, data dapat menjadi catatan transaksi tanggal untuk produk tertentu. Namun, Anda mungkin hanya perlu dalam satu dimensi tunggal. Peretasan ini akan membantu Anda meratakan daftar daftar ke dalam satu daftar.
Kami sering menggunakan pernyataan cetak untuk tujuan debugging. Peretasan ini akan membantu Anda untuk mematikan pernyataan cetak di bagian tertentu dari kode sehingga akan membuat debug lebih mudah.
Peretasan ini akan membantu Anda untuk membagi satu dokumen PDF menjadi beberapa halaman.
Peretasan ini akan membantu Anda menggabungkan beberapa dokumen PDF menjadi satu dokumen. Hack ini adalah kebalikan dari Hack #42 Split PDF Document Page-Wise
Kadang -kadang Anda membutuhkan fungsionalitas yang tidak secara langsung disediakan oleh Imagedatagenerator Keras. Anda dapat dengan mudah membuat pembungkus di sekitarnya agar sesuai dengan kebutuhan Anda.

(yaitu jaringan saraf yang mengambil input dari beberapa sumber data, dan melakukan pelatihan gabungan pada data ini), dan Anda ingin bahwa generator data harus dapat menangani persiapan data dengan cepat, Anda dapat membuat pembungkus di sekitar kelas ImagedAtagenerator untuk memberikan output yang diperlukan. Notebook ini menjelaskan solusi sederhana untuk exeCase ini.