เกี่ยวกับสารสนเทศ
คำสำคัญ
ElasticSearch, MongoDB, Tornado Server, Restful API, Python, การดึงข้อมูล, การเรียนรู้ของเครื่อง, Web Crawler
ภาพหน้าจอ
- ค้นหาเว็บเพจ

- ผลการค้นหา Elasticsearch

- อินเทอร์เฟซค้นหา

- ผลการค้นหา

การแนะนำ
การบ้านของหลักสูตร "การดึงข้อมูล" โดย Python 3
- ผู้สอน: Virgil Pavlu
- มหาวิทยาลัย: Northeastern University
- หลักสูตร: CS6200
- ดัชนี Elasticsearch
- ดัชนีมากกว่า 80000 เอกสารใน Elasticsearch
- ความเร็วดัชนีที่ปรับให้เหมาะสมประมาณ 15 นาที
- ดัชนีเอกสาร
- สร้าง "Elasticsearch" ของฉันเอง
- ข้อมูลดัชนีในทั้งมิติเอกสารและมิติระยะ
- ดัชนีสองมิติเพิ่มประสิทธิภาพของดัชนี
- Web Crawler
- หัวข้อ: อุบัติเหตุทางทะเล
- ค้นหาความกว้างก่อนที่จะวนซ้ำทุกหน้าในคลื่นช่วงต้น
- แอปพลิเคชันโมดูลหัวข้อสำหรับการตรวจสอบความเกี่ยวข้องอย่างถูกต้องของหน้าเว็บ
- ทั้งหมด 36000 หน้ามากกว่า 50% เกี่ยวข้องกับหัวข้อ "อุบัติเหตุทางทะเล"
- แยกแยะหน้าต้องการตามประเภทเนื้อหาส่วนหัวก่อนดาวน์โหลด
- เซสชันเครือข่ายที่ใช้เพื่อกู้คืนคุกกี้เพื่อการเข้าถึงที่รวดเร็วและต่ำ
- เรียงลำดับโดเมนตามเวลาการเข้าถึงครั้งล่าสุดเพื่อให้หลายเธรดสามารถเข้าถึงโดเมนที่แตกต่างกันเพื่อเร่งการคลาน
- ทำให้ลิงก์ HREF เป็นปกติในวิธีที่ดีเพื่อลดอัตราการวางหน้าเว็บ
- การคำนวณกราฟเว็บ
- ใช้ PageRank และ Hit เพื่อประเมินหน้าในชุดทั้งหน้า
- คำนึงถึงลิงก์ในและออกของหน้าเว็บเป็นกราฟเครือข่ายกำกับ
- การคำนวณกราฟเว็บเป็นประเภทของการยอมรับความคิด“ ครีมขึ้นไปด้านบน”:
- หน้าอำนาจที่ดีสามารถอ้างอิงได้มากขึ้นเรื่อย ๆ
- หน้าฮับที่ดีขุดหน้าอำนาจที่ดีมากขึ้นเรื่อย ๆ
- การประเมินความเกี่ยวข้องของเว็บอินเตอร์เฟส
- ใช้เซิร์ฟเวอร์พายุทอร์นาโดเป็นเว็บเซิร์ฟเวอร์ซึ่งสามารถเข้าถึงได้จากระยะไกล
- เซิร์ฟเวอร์สื่อสารกับฐานข้อมูล Elasticsearch สำหรับการค้นหาและแยกข้อมูล
- MongoDB กู้คืนข้อมูลหน้าเพื่อเร่งเว็บเซิร์ฟเวอร์
- ทำเทมเพลต HTML ที่ใช้ Python เพื่อสร้างหน้าผลลัพธ์การค้นหาโดยอัตโนมัติและยืดหยุ่น
- ตั้งค่าการเข้าสู่ระบบใบอนุญาตให้กรองผู้ใช้
- ข้อมูลเลเยอร์แอปพลิเคชันที่ใช้เพื่อถ่ายโอนพารามิเตอร์ระหว่างหน้า
- หลังจากได้รับการประเมินด้วยตนเองให้ใช้การคำนวณแบบสอบถาม R-Pecision, ความแม่นยำเฉลี่ย, NDCG, ความแม่นยำและการเรียกคืนและ F1 เพื่อประเมินผลการค้นหาที่มาจากชุดหน้า
- DREW PRECISION & เรียกคืนกราฟิกสำหรับความร่วมมือที่มองเห็นได้ระหว่างการกระจายผลการค้นหาและค่าที่แท้จริงที่เกี่ยวข้อง
- การเรียนรู้ของเครื่องสำหรับ IR
- ด้วยความเข้าใจที่ดีขึ้นเกี่ยวกับ Elasticsearch ให้จัดดัชนีชุดข้อมูลอีกครั้งซึ่งตั้งค่าเครื่องวิเคราะห์ใหม่ด้วย tokenizer มาตรฐานตัวพิมพ์เล็กและ porter2 stemmer
- ตั้งค่าการทำแผนที่ซ้อนกันเพื่อกู้คืนรายละเอียดคุณสมบัติ
- แยกแยะเอกสารตามประเภท Elasticsearch ที่แตกต่างกัน
- สำหรับชุดข้อมูลที่มีข้อมูลที่มีป้ายกำกับอยู่ให้แบ่งออกเป็น 80% สำหรับการฝึกอบรม 20% สำหรับการทดสอบ
- ลองผสมผสานคุณสมบัติที่แตกต่างกันเพื่อเพิ่มประสิทธิภาพของโมดูลการเรียนรู้ของเครื่องจักร
- ใช้โมดูลการเรียนรู้ของเครื่องจักรที่แตกต่างกันรวมถึง: การถดถอยของซับ, โลจิสติกเรสต์, SVM, อันดับ SVM