ตามนิตยสาร World World ระบุว่าข้อมูลข้อความที่ไม่มีโครงสร้างคิดเป็นประมาณ 70% -80% ของข้อมูลทั้งหมดในองค์กร วิธีการที่พบบ่อยที่สุดในการใช้ประโยชน์จากทรัพยากรข้อความของ บริษัท คือการค้นหาได้โดยใช้เครื่องมือค้นหา ในขณะที่ในตัวมันเองเป็นก้าวที่ยิ่งใหญ่ไปข้างหน้ามีอีกมากมายที่สามารถทำได้เพื่อแยกข้อมูลเชิงลึกเพิ่มเติมจากข้อความ ในบทช่วยสอนนี้เราจะดูการแยกคำหลักและคุณสมบัติอื่น ๆ จากข้อความโดยใช้เทคนิคการเรียนรู้ของเครื่องทางสถิติและนอกชั้นวางที่รู้จักกันดีปรับปรุงทั้งการค้นหาเนื้อหาและการค้นพบในกระบวนการ ในที่สุดเราก็นำเธรดเหล่านี้มารวมกันเพื่อสร้างอภิปรัชญาและระบบแนะนำอย่างง่าย เราจะใช้ SOLR 7.x เป็นแพลตฟอร์มการจัดทำดัชนีของเราและชุดข้อมูล NIPS Papers ซึ่งเป็นชุดเอกสาร 7000+ เอกสารจากการประชุมระบบการประมวลผลข้อมูลประสาทตั้งแต่ปี 2530-2560 เป็นคลังข้อมูลของเรา การสอนค่อนข้างหนักและใช้ Python และในขณะที่ไม่จำเป็นต้องมีความรู้เกี่ยวกับ Python ความคุ้นเคยกับภาษาการเขียนโปรแกรมจะเป็นที่ต้องการมาก
โปรดดูที่ data/readme.md และ models/readme.md เพื่อดาวน์โหลดชุดข้อมูลและโมเดลบุคคลที่สาม
โปรดดูที่ข้อกำหนด.txtเพื่อค้นหาว่าคุณต้องการติดตั้งไลบรารีเพิ่มเติมสำหรับการติดตั้ง Python3 ของคุณหรือไม่ รหัสถูกสร้างขึ้นโดยใช้ Anaconda Python3 ซึ่งมีการติดตั้งไลบรารีเหล่านี้จำนวนมาก (ไม่ใช่ทั้งหมด) แล้ว สิ่งเดียวที่ฉันไม่สามารถทำงานได้คือห้องสมุด Dedupe ซึ่งฉันต้องติดตั้งในการติดตั้ง Anaconda Python 2 แยกต่างหาก
สุดท้ายโน้ตบุ๊กและเว็บแอปพลิเคชันทั้งคู่ใช้ SOLR 7.x เป็นแบ็กเอนด์การค้นหาดังนั้นคุณต้องติดตั้ง ในการเริ่มต้น Solr ให้ไปที่ไดเรกทอรี Solr Home และเรียกใช้คำสั่งต่อไปนี้ คอนโซล Solr สามารถเข้าถึงได้จากเบราว์เซอร์ของคุณที่ http: // localhost: 8983
cd <solr_home>
bin/solr start
Codebase ประกอบด้วยชุดโน้ตบุ๊กภายใต้โฟลเดอร์โน้ตบุ๊กและเว็บแอปพลิเคชันที่ใช้ขวดภายใต้โฟลเดอร์ Webtool ที่ให้ส่วนหน้าเพื่อแสดงแอปพลิเคชันของเอาต์พุตของเทคนิควิศวกรรมเนื้อหาต่างๆกับดัชนีการค้นหาที่มีเอกสาร NIPS
ในการเรียกใช้เซิร์ฟเวอร์โน้ตบุ๊กให้ไปที่ไดเรกทอรีย่อยโน้ตบุ๊กจากนั้นเรียกใช้คำสั่งต่อไปนี้ โดยค่าเริ่มต้น URL เริ่มต้นเพื่อนำทางไปยังเบราว์เซอร์ของคุณเพื่อเข้าถึงโน้ตบุ๊กคือ http: // localhost: 8888/ นอกจากนี้คุณยังสามารถค้นหา URL จากบันทึกเซิร์ฟเวอร์ที่เขียนไว้บนคอนโซล
cd <project_home>/notebooks
jupyter notebook
ในการเรียกใช้เว็บแอปพลิเคชันนำทางไปยังไดเรกทอรีย่อยของ Webtool จากนั้นเรียกใช้คำสั่งต่อไปนี้ เว็บแอปพลิเคชันจะเริ่มฟังที่พอร์ต 5000 เพื่อไปยังแอปพลิเคชันจากเบราว์เซอร์ของคุณนำทางไปที่ http: // localhost: 5000
cd <project_home>/webtool
python webtool.py