สถานะโครงการ: ยังอยู่ระหว่างการพัฒนาที่ใช้งานอยู่! อย่างไรก็ตามส่วนใหญ่ใช้งานได้แล้ว ยินดีต้อนรับผู้ทดสอบอัลฟ่า! สถิติเต็มรูปแบบเกี่ยวกับการทำงานประจำวันที่นี่
โปรดทราบ : นี่คือ repo อย่างเป็นทางการใหม่สำหรับโครงการตอนนี้ที่เก็บ C ++ และ Rust Old ถูกปิดและไม่สามารถใช้งานได้อีกต่อไป โปรดใช้อันนี้สำหรับการพัฒนาใหม่
The Crowler เป็นผู้รวบรวมเว็บโอเพ่นซอร์สที่อุดมไปด้วยคุณลักษณะที่ออกแบบมาพร้อมกับปรัชญาที่เป็นเอกลักษณ์ซึ่งเป็นแกนหลักของมัน: เพื่อให้อ่อนโยนและมีสัญญาณรบกวนต่ำที่สุดเท่าที่จะทำได้ กล่าวอีกนัยหนึ่ง Crowler พยายามที่จะโดดเด่นด้วยการสร้างผลกระทบน้อยที่สุดในเว็บไซต์ที่รวบรวมข้อมูลในขณะที่เพิ่มความสะดวกสบายให้กับผู้ใช้
นอกจากนี้ระบบยังติดตั้ง API ซึ่งให้อินเทอร์เฟซที่คล่องตัวสำหรับการสืบค้นข้อมูล คุณสมบัตินี้ช่วยให้มั่นใจได้ว่าการรวมและเข้าถึงข้อมูลที่จัดทำดัชนีสำหรับแอปพลิเคชันต่างๆ
Crowler ได้รับการออกแบบให้ใช้บริการขนาดเล็กดังนั้นจึงสามารถปรับใช้ได้อย่างง่ายดายในสภาพแวดล้อมที่บรรจุ
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับคุณสมบัติดูหน้าคุณสมบัติ
Crowler ได้รับการออกแบบมาเพื่อแก้ปัญหาเกี่ยวกับการรวบรวมข้อมูลเว็บการค้นพบเนื้อหาการตรวจจับเทคโนโลยีและการสกัดข้อมูล
ในขณะที่เป้าหมายหลักคือการเปิดใช้งานผู้ใช้ส่วนตัวมืออาชีพและองค์กรในการพัฒนาโซลูชันการค้นพบเนื้อหาของพวกเขาอย่างรวดเร็ว แต่ก็ออกแบบมาเพื่อให้สามารถรวบรวมข้อมูลเครือข่ายส่วนตัวและอินทราเน็ตเพื่อให้คุณสามารถใช้เพื่อสร้างเครื่องมือค้นหาของคุณเองหรือ บริษัท ของคุณ
ยิ่งไปกว่านั้นมันยังสามารถใช้เป็น "ฐาน" สำหรับเครื่องมือรักษาความปลอดภัยไซเบอร์ที่ซับซ้อนมากขึ้นเนื่องจากสามารถใช้รวบรวมข้อมูลเกี่ยวกับเว็บไซต์เครือข่ายเจ้าของช่องโหว่ของมัน
เนื่องจากยังสามารถแยกข้อมูลได้สามารถใช้เพื่อสร้างฐานความรู้โดยอ้างอิงกับแหล่งที่มาหรือเพื่อสร้างฐานข้อมูลข้อมูลเกี่ยวกับหัวข้อเฉพาะ
เห็นได้ชัดว่ามันยังสามารถใช้ในการวิเคราะห์คำหลักตรวจจับภาษา ฯลฯ แต่นี่เป็นสิ่งที่ทุกคนสามารถใช้งานได้ อย่างไรก็ตามคุณสมบัติ "คลาสสิก" ทั้งหมดจะถูกนำไปใช้/นำไปใช้
: ออกเสียง เป็น / ðə / เมื่อก่อนเสียงพยัญชนะมันฟังดูเหมือน "thuh"
อีกา : ออกเสียงเป็น /kroʊ /, คล้องจองด้วย "รู้" หรือ "หิมะ"
LER : ส่วนหลังออกเสียงเป็น /lər /คล้ายกับตอนจบของคำว่า "ตัวรวบรวมข้อมูล" หรือคำว่า "ler" ใน "Tumbler"
รวบรวมทั้งหมดเข้าด้วยกันดูเหมือน " Thuh Kroh-lər "
"Crowler ไม่ได้เป็นเพียงเครื่องมือ แต่เป็นความมุ่งมั่นในการคลานเว็บที่มีจริยธรรมมีประสิทธิภาพและมีประสิทธิภาพไม่ว่าคุณจะทำการวิจัยเชิงวิชาการการวิเคราะห์ตลาดหรือเพิ่มท่าทางความปลอดภัยทางไซเบอร์ของคุณ Crowler มอบความซื่อสัตย์และความแม่นยำ
เข้าร่วมกับเราในการกำหนดมาตรฐานการรวบรวมข้อมูลเว็บ สำรวจมากขึ้นและมีส่วนร่วมในการเดินทางของ Crowler ไปสู่การสำรวจดิจิทัลที่น่านับถือและลึกซึ้งยิ่งขึ้น "
- เห็นได้ชัดว่าอยู่เหนือจุดสูงสุด แต่มันสนุกและฉันตัดสินใจที่จะรวมไว้ที่นี่เพื่อความสนุกสนาน btw มันทำให้ฉันล้มเหมือนฉันต้องการเพิ่ม:
"... และมีอีกสิ่งหนึ่ง!" (ฉันสงสัยว่าทำไม?!?!)?
Crowler ได้รับการออกแบบให้เป็นบริการขนาดเล็กดังนั้นคุณจะต้องติดตั้งสิ่งต่อไปนี้:
สำหรับการติดตั้งที่อิงกับนักเทียบท่านั่นคือทั้งหมดที่คุณต้องการ หากคุณติดตั้ง Docker และ Docker Compose คุณสามารถข้ามส่วนถัดไปและตรงไปที่ส่วน การติดตั้ง
วิธีที่ง่ายที่สุด ในการติดตั้ง Crowler คือการใช้ไฟล์ Docker Compose ในการทำเช่นนั้นให้ทำตามคำแนะนำที่นี่
โปรดทราบ (1) : หากคุณมีคำถามเกี่ยวกับ config.yaml หรือ env vars หรือ ulrultset ฯลฯ คุณสามารถใช้ GPT chatbot เพื่อช่วยคุณได้ เพียงไปที่ลิงค์นี้ที่นี่ (ทุกคนพร้อมใช้งานได้อย่างอิสระ)
โปรดทราบ (2) : หากคุณใช้ Crowler บน Raspberry Pi คุณจะต้องสร้าง Crowler สำหรับแพลตฟอร์ม arm64 ในการทำเช่นนั้นวิธีที่ง่ายกว่าคือการสร้าง Crowler ด้วยสคริปต์ docker-build.sh โดยตรงบน Raspberry Pi
หากคุณวางแผนที่จะติดตั้ง Crowler ด้วยตนเองคุณจะต้องติดตั้งคอนเทนเนอร์ Docker ต่อไปนี้:
คอนเทนเนอร์ PostgreSQL
นอกจากนี้โปรดทราบ: Crowler จะต้องมีภาพ VDI ที่จะสร้างดังนั้นคุณจะต้องสร้างภาพ VDI เช่นกัน
หากคุณจะใช้ Docker Compose แล้วทุกอย่างจะสร้างโดยอัตโนมัติสิ่งที่คุณต้องทำคือทำตามคำแนะนำในส่วนการติดตั้ง
หากคุณต้องการสร้างเครื่องในเครื่องของคุณแทนจากนั้นทำตามคำแนะนำในส่วนนี้
ในการสร้าง Crowler จากแหล่งที่มาคุณจะต้องติดตั้งสิ่งต่อไปนี้:
จากนั้นคุณจะต้องโคลนพื้นที่เก็บข้อมูลและสร้างเป้าหมายที่คุณต้องการ
เพื่อสร้างทุกอย่างพร้อมกันเรียกใช้คำสั่งต่อไปนี้:
./autobuild.shเพื่อสร้างเป้าหมายส่วนบุคคล:
ก่อนอื่นให้ตรวจสอบว่าเป้าหมายใดที่สามารถสร้างและพร้อมใช้งานได้ให้เรียกใช้คำสั่งต่อไปนี้:
./autobuild name-of-the-target สิ่งนี้จะสร้างองค์ประกอบที่คุณร้องขอใน ./bin
./bin/removeSite
./bin/addSite
./bin/addCategory
./bin/api
./bin/thecrowler สร้างพวกเขาตามที่คุณต้องการหรือเรียกใช้ autobuild.sh (ไม่มีข้อโต้แย้ง) เพื่อสร้างพวกเขาทั้งหมด
ทางเลือกคุณสามารถสร้างอิมเมจนักเทียบท่าเพื่อดำเนินการเรียกใช้คำสั่งต่อไปนี้:
docker build -t < image name > .หมายเหตุ : หากคุณสร้างคอนเทนเนอร์ Docker Crowller Engine อย่าลืมเรียกใช้ด้วยคำสั่ง Docker ต่อไปนี้ (จำเป็นต้องใช้!)
docker run -it --rm --cap-add=NET_ADMIN --cap-add=NET_RAW crowler_engineหมายเหตุสำคัญ : หากคุณสร้างจากแหล่งที่มาคุณยังต้องสร้างภาพ Crowler VDI Docker ที่จำเป็นเพราะ Crowler ใช้เครื่องมือภายนอกจำนวนมากเพื่อทำงานและเครื่องมือเหล่านั้นทั้งหมดจะถูกจัดกลุ่มและสร้างขึ้นในภาพ VDI (ภาพเดสก์ท็อปเสมือนจริง)
สำหรับคำแนะนำเกี่ยวกับวิธีการใช้งานที่นี่
หากคุณต้องการใช้ Crowler ในการผลิตฉันขอแนะนำให้ใช้การติดตั้ง Docker Compose เป็นวิธีที่ง่ายที่สุดในการติดตั้งและเป็นวิธีที่ปลอดภัยที่สุด
เพื่อความปลอดภัยที่ดีขึ้นฉันขอแนะนำอย่างยิ่งให้ปรับใช้ API ในคอนเทนเนอร์แยกต่างหากกว่า Crowler หนึ่ง นอกจากนี้ไม่จำเป็นต้องเปิดเผยคอนเทนเนอร์ของ Crowler ไปยังโลกภายนอก แต่จะต้องใช้ความคิดในการเข้าถึงอินเทอร์เน็ต
การกำหนดค่าเริ่มต้นของ Crowler ใช้ PostgreSQL เป็นฐานข้อมูล ฐานข้อมูลจะถูกเก็บไว้ในปริมาณ Docker และถาวร
ฐานข้อมูลไม่จำเป็นต้องมีการบำรุงรักษา Crowler จะดูแลสิ่งนั้น เมื่อใดก็ตามที่ไม่มีกิจกรรมคลานและผ่านไป 1 ชั่วโมงจากกิจกรรมการบำรุงรักษาก่อนหน้านี้ Crowler จะทำความสะอาดฐานข้อมูลและเพิ่มประสิทธิภาพดัชนี
Crowler ได้รับใบอนุญาตภายใต้ใบอนุญาต Apache 2.0 สำหรับข้อมูลเพิ่มเติมดูไฟล์ใบอนุญาต
หากคุณต้องการมีส่วนร่วมในโครงการโปรดอ่านไฟล์ที่มีส่วนร่วม
Crowler ได้นำหลักจรรยาบรรณของผู้สนับสนุนมาใช้ สำหรับข้อมูลเพิ่มเติมดูไฟล์ code_of_conduct
Crowler สร้างขึ้นจากโครงการโอเพ่นซอร์สจำนวนมากและฉันต้องการขอบคุณนักพัฒนาทุกคนที่มีส่วนร่วมในโครงการเหล่านั้น หากไม่มีพวกเขา Crowler จะเป็นไปไม่ได้
นอกจากนี้ฉันต้องการขอบคุณผู้คนที่ช่วยเหลือฉันในโครงการไม่ว่าจะโดยการสนับสนุนรหัสโดยการทดสอบหรือโดยการให้ข้อเสนอแนะ ขอบคุณทุกคน!
Crowler เป็นเครื่องมือที่ออกแบบมาเพื่อช่วยให้คุณรวบรวมข้อมูลเว็บไซต์ด้วยความเคารพ อย่างไรก็ตามมันขึ้นอยู่กับคุณที่จะใช้มันด้วยวิธีที่เคารพ Crowler ไม่รับผิดชอบต่อการใช้เครื่องมือในทางที่ผิด