
เครื่องมือค้นหาเป็นระบบซอฟต์แวร์ที่ออกแบบมาเพื่อทำการค้นหาเว็บ พวกเขาค้นหาเวิลด์ไวด์เว็บอย่างเป็นระบบสำหรับข้อมูลเฉพาะที่ระบุไว้ในข้อความค้นหาเว็บที่เป็นข้อความ ผลการค้นหาโดยทั่วไปจะถูกนำเสนอในบรรทัดผลลัพธ์ซึ่งมักเรียกว่าหน้าผลลัพธ์ของเครื่องมือค้นหา (SERPS) ข้อมูลอาจเป็นการผสมผสานระหว่างลิงก์ไปยังหน้าเว็บรูปภาพวิดีโออินโฟกราฟิกบทความบทความวิจัยและไฟล์ประเภทอื่น ๆ เครื่องมือค้นหาบางอย่างยังขุดข้อมูลที่มีอยู่ในฐานข้อมูลหรือไดเรกทอรีเปิด ซึ่งแตกต่างจากไดเรกทอรีเว็บซึ่งได้รับการดูแลโดยบรรณาธิการมนุษย์เท่านั้นเครื่องมือค้นหายังเก็บรักษาข้อมูลแบบเรียลไทม์โดยใช้อัลกอริทึมบนเว็บรวบรวมข้อมูล เนื้อหาอินเทอร์เน็ตที่ไม่สามารถค้นหาได้โดยเครื่องมือค้นหาเว็บโดยทั่วไปจะอธิบายว่าเป็นเว็บลึก
เครื่องมือค้นหารักษากระบวนการต่อไปนี้ในเวลาใกล้เรียลไทม์:
เครื่องมือค้นหาเว็บรับข้อมูลโดยการรวบรวมข้อมูลเว็บจากไซต์หนึ่งไปอีกไซต์ "แมงมุม" ตรวจสอบสำหรับ Robots.txt ชื่อไฟล์มาตรฐานที่ส่งถึงมัน ไฟล์ robots.txt มีคำสั่งสำหรับการค้นหาแมงมุมบอกว่าหน้าใดที่จะรวบรวมข้อมูลและหน้าใดที่จะไม่คลาน หลังจากตรวจสอบ robots.txt และค้นหาหรือไม่สไปเดอร์จะส่งข้อมูลบางอย่างกลับมาจัดทำดัชนีขึ้นอยู่กับปัจจัยหลายอย่างเช่นชื่อเนื้อหาหน้าเว็บจาวาสคริปต์แผ่นสไตล์การเรียงซ้อน (CSS) ส่วนหัวหรือข้อมูลเมตาของมันในแท็กเมตา HTML หลังจากที่มีการคลานหน้าจำนวนหนึ่งจำนวนข้อมูลที่จัดทำดัชนีหรือเวลาที่ใช้ในเว็บไซต์แมงมุมหยุดคลานและเดินหน้าต่อไป "[n] o Web Crawler อาจรวบรวมข้อมูลเว็บที่เข้าถึงได้ทั้งหมดเนื่องจากเว็บไซต์ที่ไม่มีที่สิ้นสุด, กับดักแมงมุม, สแปมและ exigencies อื่น ๆ ของเว็บจริง, ตัวรวบรวมข้อมูลแทนที่จะใช้นโยบายการรวบรวมข้อมูลเพื่อพิจารณาว่าการรวบรวมข้อมูลของเว็บไซต์บางส่วนก็เพียงพอแล้ว
การจัดทำดัชนีหมายถึงการเชื่อมโยงคำศัพท์และโทเค็นอื่น ๆ ที่พบได้ในหน้าเว็บกับชื่อโดเมนและฟิลด์ที่ใช้ HTML การเชื่อมโยงทำในฐานข้อมูลสาธารณะที่มีให้สำหรับการค้นหาเว็บ แบบสอบถามจากผู้ใช้อาจเป็นคำเดียวหลายคำหรือประโยค ดัชนีช่วยค้นหาข้อมูลที่เกี่ยวข้องกับการสืบค้นโดยเร็วที่สุด เทคนิคบางอย่างสำหรับการจัดทำดัชนีและการแคชเป็นความลับทางการค้าในขณะที่การรวบรวมข้อมูลเว็บเป็นกระบวนการที่ตรงไปตรงมาในการเยี่ยมชมเว็บไซต์ทั้งหมดอย่างเป็นระบบ
ระหว่างการเข้าชมโดยแมงมุมเวอร์ชันแคชของหน้า (เนื้อหาบางส่วนหรือทั้งหมดที่จำเป็นในการแสดงผล) ที่เก็บไว้ในหน่วยความจำการทำงานของเครื่องมือค้นหาจะถูกส่งไปยังผู้สอบถามอย่างรวดเร็ว หากการเยี่ยมชมเกินกำหนดเครื่องมือค้นหาสามารถทำหน้าที่เป็นพร็อกซีเว็บแทนได้ ในกรณีนี้หน้าอาจแตกต่างจากคำค้นหาที่จัดทำดัชนี หน้าแคชเก็บรูปลักษณ์ของเวอร์ชันที่มีการจัดทำดัชนีคำศัพท์ก่อนหน้านี้ดังนั้นเวอร์ชันแคชของหน้าจะเป็นประโยชน์ต่อเว็บไซต์เมื่อหน้าจริงหายไป แต่ปัญหานี้ถือว่าเป็นรูปแบบที่ไม่รุนแรงของ Linkrot
โดยทั่วไปเมื่อผู้ใช้ป้อนแบบสอบถามลงในเครื่องมือค้นหามันเป็นคำหลักไม่กี่คำ ดัชนีมีชื่อของไซต์ที่มีคำหลักแล้วและสิ่งเหล่านี้จะได้รับจากดัชนีทันที โหลดการประมวลผลจริงอยู่ในการสร้างหน้าเว็บที่เป็นรายการผลการค้นหา: ทุกหน้าในรายการทั้งหมดจะต้องถ่วงน้ำหนักตามข้อมูลในดัชนี จากนั้นรายการผลการค้นหาด้านบนต้องใช้การค้นหาการสร้างใหม่และมาร์กอัปของตัวอย่างที่แสดงบริบทของคำหลักที่ตรงกัน สิ่งเหล่านี้เป็นเพียงส่วนหนึ่งของการประมวลผลหน้าเว็บผลการค้นหาแต่ละหน้าต้องการและหน้าเพิ่มเติม (ถัดจากด้านบน) ต้องการการประมวลผลหลังนี้มากขึ้น
นอกเหนือจากการค้นหาคำหลักอย่างง่ายเครื่องมือค้นหายังเสนอตัวดำเนินการ GUI- หรือขับเคลื่อนคำสั่งและพารามิเตอร์การค้นหาเพื่อปรับแต่งผลการค้นหา สิ่งเหล่านี้ให้การควบคุมที่จำเป็นสำหรับผู้ใช้ที่มีส่วนร่วมในการตอบรับแบบลูปที่ผู้ใช้สร้างขึ้นโดยการกรองและน้ำหนักในขณะที่ปรับแต่งผลการค้นหาเนื่องจากหน้าเริ่มต้นของผลการค้นหาครั้งแรก ตัวอย่างเช่นจากปี 2007 เครื่องมือค้นหา google.com ได้อนุญาตให้กรองหนึ่งโดยวันที่คลิก "แสดงเครื่องมือค้นหา" ในคอลัมน์ซ้ายสุดของหน้าผลการค้นหาเริ่มต้นจากนั้นเลือกช่วงวันที่ที่ต้องการ นอกจากนี้ยังเป็นไปได้ที่จะมีน้ำหนักตามวันที่เนื่องจากแต่ละหน้ามีเวลาแก้ไข เครื่องมือค้นหาส่วนใหญ่รองรับการใช้งานของตัวดำเนินการบูลีนและหรือและไม่ช่วยให้ผู้ใช้ปลายทางปรับแต่งการค้นหา ตัวดำเนินการบูลีนมีไว้สำหรับการค้นหาที่แท้จริงซึ่งอนุญาตให้ผู้ใช้ปรับแต่งและขยายข้อกำหนดของการค้นหา เครื่องยนต์มองหาคำหรือวลีตามที่ป้อน เครื่องมือค้นหาบางตัวมีคุณสมบัติขั้นสูงที่เรียกว่าการค้นหาความใกล้ชิดซึ่งช่วยให้ผู้ใช้สามารถกำหนดระยะห่างระหว่างคำหลัก นอกจากนี้ยังมีการค้นหาตามแนวคิดที่การวิจัยเกี่ยวข้องกับการใช้การวิเคราะห์ทางสถิติในหน้าเว็บที่มีคำหรือวลีที่คุณค้นหา
ประโยชน์ของเครื่องมือค้นหาขึ้นอยู่กับความเกี่ยวข้องของชุดผลลัพธ์ที่ให้กลับมา ในขณะที่อาจมีหน้าเว็บนับล้านที่มีคำหรือวลีเฉพาะบางหน้าอาจมีความเกี่ยวข้องเป็นที่นิยมหรือมีอำนาจมากกว่าคนอื่น ๆ เครื่องมือค้นหาส่วนใหญ่ใช้วิธีการจัดอันดับผลลัพธ์เพื่อให้ผลลัพธ์ที่ดีที่สุดก่อน วิธีการค้นหาเครื่องมือค้นหาว่าหน้าใดที่ตรงกับการจับคู่ที่ดีที่สุดและสิ่งที่ควรแสดงผลลัพธ์ควรแสดงในนั้นแตกต่างกันอย่างกว้างขวางจากเครื่องยนต์หนึ่งไปยังอีกเครื่องหนึ่ง วิธีการดังกล่าวยังเปลี่ยนไปเมื่อเวลาผ่านไปเมื่อการเปลี่ยนแปลงการใช้อินเทอร์เน็ตและเทคนิคใหม่มีวิวัฒนาการ มีเครื่องมือค้นหาหลักสองประเภทที่มีการพัฒนา: หนึ่งคือระบบของคำหลักที่กำหนดไว้ล่วงหน้าและเรียงลำดับตามลำดับชั้นที่มนุษย์ได้ตั้งโปรแกรมอย่างกว้างขวาง อื่น ๆ เป็นระบบที่สร้าง "ดัชนีกลับหัว" โดยการวิเคราะห์ข้อความที่ตั้งอยู่ แบบฟอร์มแรกนี้อาศัยคอมพิวเตอร์มากขึ้นเพื่อทำงานเป็นจำนวนมาก
เครื่องมือค้นหาเว็บส่วนใหญ่เป็นกิจการเชิงพาณิชย์ที่ได้รับการสนับสนุนโดยรายได้จากการโฆษณาและบางส่วนของพวกเขาอนุญาตให้ผู้โฆษณามีรายชื่อของพวกเขาอยู่ในอันดับที่สูงขึ้นในผลการค้นหาโดยมีค่าธรรมเนียม เครื่องมือค้นหาที่ไม่รับเงินสำหรับผลการค้นหาของพวกเขาสร้างรายได้โดยเรียกใช้โฆษณาที่เกี่ยวข้องกับการค้นหาควบคู่ไปกับผลลัพธ์ของเครื่องมือค้นหาปกติ เครื่องมือค้นหาทำเงินได้ทุกครั้งที่มีคนคลิกหนึ่งในโฆษณาเหล่านี้
-