ดาวน์โหลด pyClickModels - pyClickModels ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

pyClickModels

ซอร์สโค้ดอื่น ๆ

v0.0.2

ดาวน์โหลด

pyclickmodels

การใช้งาน cython ของ clickmodels ที่ใช้โมเดลกราฟิกที่น่าจะเป็นเพื่ออนุมานพฤติกรรมของผู้ใช้เมื่อโต้ตอบกับผลลัพธ์หน้าการค้นหา (การจัดอันดับ)

มันทำงานอย่างไร

ClickModels ใช้แนวคิดของโมเดลกราฟิกที่น่าจะเป็นในการจำลองส่วนประกอบที่อธิบายการโต้ตอบระหว่างผู้ใช้และรายการของรายการที่จัดอันดับโดยชุดของกฎการดึงข้อมูล

โมเดลเหล่านี้มีแนวโน้มที่จะเป็นประโยชน์เมื่อต้องการที่จะเข้าใจว่าเอกสารที่กำหนดนั้นเป็นคู่ที่ดีสำหรับคำค้นหาที่กำหนดหรือไม่ซึ่งเป็นที่รู้จักกันในวรรณคดีว่าเป็นเกรด การตัดสิน สิ่งนี้เป็นไปได้ผ่านการประเมินการคลิกที่สังเกตในอดีตและตำแหน่งที่เอกสารปรากฏบนหน้าผลลัพธ์สำหรับแต่ละแบบสอบถาม

มีวิธีการที่เสนอหลายวิธีในการจัดการกับปัญหานี้ ที่เก็บนี้ใช้เครือข่ายแบบเบย์แบบไดนามิกคล้ายกับงานก่อนหน้านี้ที่ทำใน Python:

DBN

ความแตกต่างหลักคือ:

นำไปใช้ในด้านบนของ Cython : โซลูชันสาธารณะที่มีอยู่แล้วพึ่งพา cpython ที่รวมเข้ากับ PYPY เพื่อเพิ่มความเร็วเพิ่มเติม โชคไม่ดีที่นี่อาจจะไม่ดีพอในแง่ของประสิทธิภาพ ในการดำเนินการในการดำเนินการนี้การใช้งานนี้ขึ้นอยู่กับ C/C ++ 100% สำหรับการเพิ่มประสิทธิภาพของความเร็ว แม้จะไม่มีเกณฑ์มาตรฐานอย่างเป็นทางการ แต่ก็คาดว่าจะมีการปรับปรุง 15x ~ 18x ที่ด้านบนของ cpython (ข้อมูลเดียวกันนำไปสู่การเพิ่มขึ้น ~ 3x เมื่อใช้ Pypy)
หน่วยความจำที่เป็นมิตร : คาดว่าข้อมูลอินพุตจะติดตามรูปแบบ JSON ด้วยเซสชันทั้งหมดของ Clickstream ที่แสดงไว้แล้วสำหรับแต่ละแถว สิ่งนี้จะช่วยประหยัดหน่วยความจำและอนุญาตให้ไลบรารีประมวลผลข้อมูลจำนวนมากขึ้น
ตัวแปรการซื้อ : เนื่องจากธุรกิจเช่น Ecommerces สามารถได้รับประโยชน์อย่างมากจากการทำความเข้าใจเครื่องมือค้นหาของพวกเขาที่ดีขึ้นพื้นที่เก็บข้อมูลนี้จึงเพิ่มการซื้อตัวแปรเพื่ออธิบายพฤติกรรมของลูกค้าเพิ่มเติม

โน้ตบุ๊กไฟล์/dbn.ipynb มีคำอธิบายที่สมบูรณ์เกี่ยวกับวิธีการใช้งานแบบจำลองพร้อมกับคณิตศาสตร์ทั้งหมดที่เกี่ยวข้อง

การติดตั้ง

เนื่องจากโครงการนี้อาศัยไบนารีที่รวบรวมโดย Cython ปัจจุบันรองรับแพลตฟอร์ม Linux (ManyLinux) เท่านั้น สามารถติดตั้งได้ด้วย:

 pip install pyClickModels

เริ่มต้น

ข้อมูลอินพุต

PyclickModels คาดว่าข้อมูลอินพุตจะถูกเก็บไว้ในชุดไฟล์ gz ที่บีบอัดที่อยู่ในโฟลเดอร์เดียวกัน พวกเขาทั้งหมดควรเริ่มต้นด้วยสตริง "การตัดสิน" เช่น judgments0.gz แต่ละไฟล์ควรมี JSONs ที่คั่นด้วยบรรทัด ต่อไปนี้เป็นตัวอย่างของแต่ละบรรทัด JSON:

{
    "search_keys" : {
        "search_term" : " blue shoes " ,
        "region" : " south " ,
	"favorite_brand" : " super brand " ,
	"user_size" : " L " ,
	"avg_ticket" : 10
    },
    "judgment_keys" : [
        {
	    "session" : [
                { "click" : 0 , "purchase" : 0 , "doc" : " doc0 " }
                { "click" : 1 , "purchase" : 0 , "doc" : " doc1 " }
                { "click" : 1 , "purchase" : 1 , "doc" : " doc2 " }
	    ]
        },
        {
	    "session" : [
                { "click" : 1 , "purchase" : 0 , "doc" : " doc0 " }
                { "click" : 0 , "purchase" : 0 , "doc" : " doc1 " }
                { "click" : 0 , "purchase" : 0 , "doc" : " doc2 " }
	    ]
        }
    ]
}

คีย์ search_keys ตั้งค่าบริบทสำหรับการค้นหา ในตัวอย่างข้างต้นลูกค้าที่กำหนด (หรือกลุ่มลูกค้าที่มีบริบทเดียวกัน) ค้นหา blue shoes ภูมิภาคของพวกเขาอยู่ south (อาจเป็นคุณค่าใด ๆ ที่เลือก) แบรนด์โปรดคือ super brand และอื่น ๆ

คีย์เหล่านี้ตั้งค่าบริบทที่การค้นหาเกิดขึ้น เมื่อ PyclickModels ดำเนินการเพิ่มประสิทธิภาพมันจะพิจารณาบริบททั้งหมดในครั้งเดียว ซึ่งหมายความว่าการตัดสินที่ได้รับนั้นอยู่ในการตั้งค่าบริบททั้งหมด

หากไม่ต้องการบริบทเพียงใช้ {"search_keys": {"search_term": "user search"}}

ไม่มีสคีมาที่จำเป็นที่นี่ซึ่งหมายถึงห้องสมุดวนลูปผ่านคีย์ทั้งหมดที่มีอยู่ใน search_keys และสร้างกระบวนการปรับให้เหมาะสมโดยพิจารณาบริบททั้งหมดเป็นแบบสอบถามเดียว

สำหรับ judgment_keys นี่คือรายการของเซสชัน session ที่สำคัญนั้นจำเป็น แต่ละเซสชันมี clickstream ของผู้ใช้ (หากไม่จำเป็นต้องตั้งค่าตัวแปรให้ตั้งค่าเป็น 0)

สำหรับการรัน DBN จาก PyclickModels นี่เป็นตัวอย่างง่ายๆ:

 from pyClickModels . DBN import DBN

model = DBN ()
model . fit ( input_folder = "/tmp/clicks_data/" , iters = 10 )
model . export_judgments ( "/tmp/output.gz" )

ไฟล์เอาท์พุทจะมีไฟล์คั่นใหม่ JSON ใหม่พร้อมการตัดสินสำหรับแต่ละคำถามและเอกสารแต่ละฉบับที่สังเกตสำหรับแบบสอบถามนั้นเช่น:

{ "search_term:blue shoes|region:south|brand:super brand" : { "doc0" : 0.2 , "doc1" : 0.3 , "doc2" : 0.4 }}
{ "search_term:query|region:north|brand:other_brand" : { "doc0" : 0.0 , "doc1" : 0.0 , "doc2" : 0.1 }}

การตัดสินที่นี่แตกต่างกันระหว่าง 0 ถึง 1 ห้องสมุดบางแห่งต้องการให้อยู่ในช่วงระหว่างจำนวนเต็ม 0 และ 4 เลือกการแปลงที่เหมาะสมในกรณีนี้ที่เหมาะกับข้อมูลของคุณดีกว่า

คำเตือน

ห้องสมุดนี้ยังคงเป็นอัลฟ่า! ใช้ด้วยความระมัดระวัง มันยังไม่ได้รับการทดสอบอย่างสมบูรณ์ แต่ยังคงใช้ส่วนหนึ่งของ C ใช้ C บริสุทธิ์ซึ่งอาจมีข้อยกเว้นอาจยังไม่ได้รับการพิจารณาอย่างเต็มที่ ขอแนะนำให้ก่อนที่จะใช้ไลบรารีนี้ในการผลิต Evironments เพื่อทดสอบอย่างเต็มที่ด้วยชุดข้อมูลและขนาดที่แตกต่างกันเพื่อประเมินว่ามันทำงานอย่างไร

การบริจาค

การบริจาคยินดีต้อนรับมาก! นอกจากนี้หากคุณพบข้อบกพร่องโปรดรายงานพวกเขา :)

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.0.2
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-11
ขนาด 133.28KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด