โครงการนี้เราครอบคลุมหลายส่วนของการรวบรวมข้อมูลจาก Instagram
ติดตั้ง Python 3.6.0
ติดตั้งแพ็คเกจ PIP พิมพ์ในบรรทัดคำสั่ง:
python get-pip.py
ติดตั้งคำขอ PIP (จะติดตั้งเฟรม Django และ Selenium)
cd * PATH * / Project
pip install -r requirements.txt
ติดตั้งไคลเอนต์ Firefox (คุณสามารถดาวน์โหลดเบราว์เซอร์ Mozilla Firefox ที่มีชื่อเสียง)
สมบูรณ์
หากคุณต้องการใช้แพลตฟอร์มเว็บคุณจะต้องปรับใช้ระบบ Django ทั้งหมดในฐานข้อมูล เราทำสิ่งนี้ด้วยรหัสต่อไปนี้:
cd * PATH * / Project / web. / manage.py makemigrations
สิ่งนี้จะดำเนินการอพยพจากโมเดล /manage.py โยกย้ายแปลงการย้ายถิ่นจากแบบจำลองเป็นฐาน
การเข้าถึงผู้ใช้/ผู้ดูแลระบบเริ่มต้น:
หากต้องการสร้างผู้ดูแลระบบชั้นยอดที่มีสิทธิ์ทั้งหมดพิมพ์:
./manage.py createsuperuser
ป้อนฟิลด์ที่จำเป็น
หากต้องการเปิดเซิร์ฟเวอร์ให้เรียกใช้คำสั่งต่อไปนี้และเปิดใช้งานแอปพลิเคชันเว็บ Django ที่พอร์ต 8000
./manage.py runserver 8000
การใช้สคริปต์เพื่อรวบรวมข้อมูลนั้นง่ายเกินไปนี่คือ API เต็มรูปแบบที่คุณสามารถให้บริการได้
คำเตือน! ก่อนที่คุณจะเริ่มใช้บริการทุกประเภทจากตัวรวบรวม
ไปที่ Project / script / settings.py
เปลี่ยนข้อมูลการรับรองความถูกต้อง
Default is : username = "kiril_cvetkov" password = " * "
ป้อนชื่อผู้ใช้และรหัสผ่านของคุณซึ่งเบราว์เซอร์จะเข้าสู่ระบบ
เมื่อเรากำหนดค่าดมกลิ่นของเราแล้วด้านล่างนี้เป็น API เต็มรูปแบบและตัวอย่างเพื่อให้ภาพที่สมบูรณ์ของวิธีการใช้สคริปต์
crawl.py [-db EXPORT_DB] [-DIR DIRECTORY] [-page PAGE_NAME] [-more MORE_DETAILS] [-num POST_NUMBER]
* [-db EXPORT_DB] Whether to save data in a database or only in a file system
* [-DIR DIRECTORY]: Directory where the data will be stored
* [-page PAGE_NAME]: Profile / crawling page
* [-more MORE_DETAILS]: Retrieve more details, such as a number of likes, description of pictures within a single photo
ก่อนอื่นไปที่ไดเรกทอรีที่สคริปต์ตั้งอยู่
cd * PATH * / Project / script
ในการเรียกใช้สคริปต์และรวบรวมข้อมูลจากหน้าของ Bill Gates :) โปรดพิมพ์:
python crawl.py -num = 30 -page = thisisbillgates -more -db
คุณสามารถดูหน้าทั้งหมดที่จัดทำดัชนีโดยผู้ค้นหาของเรา
คุณสามารถกรองรูปภาพที่มีคำหลักในชื่อหน้าหรือคุณสามารถค้นหาด้วยคำหลักที่มีอยู่ในคำอธิบายของพวกเขา
คุณสามารถคลิกภาพเฉพาะและแสดงรายการในแกลเลอรี่
คุณสามารถแก้ไขข้อมูลผ่านแผงการดูแลระบบเพื่อเข้าถึงส่วนผู้ดูแลระบบพิมพ์ URL ต่อไปนี้
localhost: 8000/admin

The biggest usage on such a defined and implemented architecture is that data retrieval can bring us enormous power today, especially in the field of Big Data , Deep Learning and other Machine Learning algorithms . หากเราค้นหาภาพที่มีแฮชแท็กบางอย่างระบบจะให้ภาพที่เรามีแฮชแท็กเดียวกัน เราสามารถจินตนาการได้ว่า Instagram ใช้แฮชแท็กเพื่อฝึกอบรมระบบเพื่อรับรู้เหตุการณ์ต่าง ๆ วัตถุเหตุการณ์บทความแบบจำลองแบบเรียลไทม์ แต่ด้วยการใช้สคริปต์นี้ข้อมูลทั้งหมดจะมีให้เราถ้าเรารู้วิธีการใช้ เว็บเบราว์เซอร์และการดึงเว็บเป็นความสามารถที่ทรงพลังที่นักพัฒนาและนักวิเคราะห์ธุรกิจทุกคนต้องมี