Proyek ini kami mencakup beberapa segmen pengumpulan data dari Instagram
Instal Python 3.6.0
Instal Paket PIP, ketik baris perintah:
python get-pip.py
Instal Permintaan PIP (ini akan menginstal Django dan Selenium Frames)
cd * PATH * / Project
pip install -r requirements.txt
Instal Firefox Client (Anda dapat mengunduh browser Mozilla Firefox yang terkenal)
Selesai
Jika Anda ingin menggunakan platform Web, Anda perlu menggunakan seluruh sistem Django dalam database. Kami melakukan ini dengan kode berikut:
cd * PATH * / Project / web. / manage.py makemigrations
Ini akan melakukan migrasi dari model. /Manage.py Migrasi Migrasi Konversi dari Model ke Basis
Akses pengguna/admin default:
Untuk membuat administrator super yang memiliki semua hak istimewa, ketik:
./manage.py createsuperuser
Masukkan bidang yang diperlukan.
Untuk menyalakan server, jalankan perintah berikut dan aktifkan aplikasi web Django di port 8000
./manage.py runserver 8000
Menggunakan skrip untuk mengumpulkan data terlalu sederhana, berikut adalah API lengkap yang dapat Anda layani.
Peringatan! Sebelum Anda mulai menggunakan segala jenis layanan dari crawler, Anda harus mengkonfigurasi pengguna Instagram otentikasi yang akan digunakan untuk merangkak data yang hanya terlihat untuk pengguna yang diautentikasi
Pergi ke proyek / skrip / pengaturan.py
Ubah info otentikasi
Default adalah: nama pengguna = "kiril_cvetkov" kata sandi = " * "
Masukkan nama pengguna dan kata sandi Anda yang melaluinya browser akan masuk.
Setelah kami mengkonfigurasi sniffer kami, di bawah ini adalah API lengkap serta contoh untuk memberikan gambaran lengkap tentang bagaimana skrip dapat digunakan
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
Pertama pergi ke direktori tempat skrip berada
cd * PATH * / Project / script
Untuk menjalankan skrip, dan merangkak data dari halaman Bill Gates :), silakan ketik:
python crawl.py -num = 30 -page = thisisbillgates -more -db
Anda dapat melihat semua halaman yang diindeks oleh pencari kami
Anda dapat memfilter gambar yang berisi kata kunci pada nama halaman atau Anda dapat mencari dengan kata kunci yang terkandung dalam deskripsi mereka
Anda dapat mengklik gambar tertentu dan mencantumkannya di galeri
Anda dapat memodifikasi data melalui panel administrasi untuk mengakses bagian admin, ketik URL berikut
Localhost: 8000/Admin

Penggunaan terbesar pada arsitektur yang terdefinisi dan diimplementasikan adalah bahwa pengambilan data dapat membawa kita kekuatan besar hari ini, terutama di bidang data besar , pembelajaran mendalam dan algoritma pembelajaran mesin lainnya. Jika kita mencari gambar dengan tagar tertentu, maka sistem memberi kita gambar yang secara logis mengandung tagar yang sama. Kita hanya dapat membayangkan bagaimana Instagram menggunakan tagar untuk melatih sistem untuk mengenali berbagai peristiwa, objek, acara, artikel, model secara real time. Tetapi dengan penggunaan skrip ini, semua informasi tersedia untuk kita jika kita tahu cara mengambilnya. Peramban web dan pengambilan web adalah kemampuan yang kuat yang perlu dimiliki setiap pengembang dan analis bisnis.