ดาวน์โหลด cleora - ดาวน์โหลดซอร์สโค้ด cleora

cleora

ซอร์สโค้ดอื่น ๆ

v2.0.0

ดาวน์โหลด

โลโก้ Cleora

ความสำเร็จ

1⃣stสถานที่ที่ Sigir Ecom Challenge 2020

2⃣nd Place and Best Paper Award ที่ WSDM Booking.com Challenge 2021

2⃣สถานที่ที่ Twitter Recsys Challenge 2021

3⃣สถานที่ที่ KDD Cup 2021

คลอรารา

Cleora เป็นสกุลของแมลงเม่าในตระกูล Geometridae ชื่อทางวิทยาศาสตร์ของพวกเขามาจาก Geo Geo γῆหรือγαῖα "โลก" และ Metron μέτρον " วัด " ในการอ้างอิงถึงวิธีที่ตัวอ่อนของพวกเขาหรือ "inchworms" แฟชั่น.

Cleora เป็นแบบจำลองวัตถุประสงค์ทั่วไปสำหรับการเรียนรู้ที่มีประสิทธิภาพและปรับขนาดได้ของการฝังเอนทิตีที่มีเสถียรภาพและอุปนัยสำหรับข้อมูลเชิงสัมพันธ์ที่แตกต่างกัน

แนะนำ Cleora 2.0.0 - Python Native

การติดตั้ง

 pip install pycleora

สร้างคำแนะนำ

 # prepare python env
pip install maturin

# Install pycleora in current env (meant for development)
maturin develop

# Usage example below. More examples in examples/ folder.

การเปลี่ยนแปลง

Cleora พร้อมใช้งานเป็นแพ็คเกจ Python pycleora การปรับปรุงที่สำคัญเมื่อเทียบกับเวอร์ชันก่อนหน้า:

การเพิ่มประสิทธิภาพประสิทธิภาพ : ~ 10 เท่าการฝังที่เร็วขึ้น ~
การเพิ่มประสิทธิภาพประสิทธิภาพ : ลดการใช้หน่วยความจำลงอย่างมาก
การวิจัยล่าสุด : คุณภาพการฝังที่ดีขึ้น
คุณสมบัติใหม่ : สามารถสร้างกราฟจาก iterators Python นอกเหนือจากไฟล์ tsv
คุณสมบัติใหม่ : การรวมที่ไร้รอยต่อกับ NumPy
คุณสมบัติใหม่ : รายการแอตทริบิวต์การสนับสนุนผ่านการเริ่มต้นฝังตัวแบบกำหนดเอง
คุณลักษณะใหม่ : การฉายภาพเวกเตอร์ / การทำให้เป็นมาตรฐานหลังจากแต่ละขั้นตอนการแพร่กระจาย

ทำลายการเปลี่ยนแปลง:

Transient Modifier ไม่รองรับอีกต่อไป - การสร้างคอลัมน์ complex::reflexive สำหรับการฝังไฮเปอร์กราฟที่ จัดกลุ่มโดย เอนทิตีชั่วคราวให้ผลลัพธ์ที่ดีกว่า

ตัวอย่างการใช้งาน:

 from pycleora import SparseMatrix
import numpy as np
import pandas as pd
import random

# Generate example data
customers = [f"Customer_{i}" for i in range(1, 20)]
products = [f"Product_{j}" for j in range(1, 20)]

data = {
    "customer": random.choices(customers, k=100),
    "product": random.choices(products, k=100),
}

# Create DataFrame
df = pd.DataFrame(data)

# Create hyperedges
customer_products = df.groupby('customer')['product'].apply(list).values

# Convert to Cleora input format
cleora_input = map(lambda x: ' '.join(x), customer_products)

# Create Markov transition matrix for the hypergraph
mat = SparseMatrix.from_iterator(cleora_input, columns='complex::reflexive::product')

# Look at entity ids in the matrix, corresponding to embedding vectors
print(mat.entity_ids)
# ['Product_5', 'Product_3', 'Product_2', 'Product_4', 'Product_1']

# Initialize embedding vectors externally, using text, image, random vectors
# embeddings = ...

# Or use built-in random deterministic initialization
embeddings = mat.initialize_deterministically(1024)

# Perform Markov random walk, then normalize however many times we want

NUM_WALKS = 3   # The optimal number depends on the graph, typically between 3 and 7 yields good results
                # lower values tend to capture co-occurrence, higher iterations capture substitutability in a context

for i in range(NUM_WALKS):
    # Can propagate with a symmetric matrix as well, but left Markov is a great default
    embeddings = mat.left_markov_propagate(embeddings)
    # Normalize with L2 norm by default, for the embeddings to reside on a hypersphere. Can use standardization instead.
    embeddings /= np.linalg.norm(embeddings, ord=2, axis=-1, keepdims=True)

# We're done, here are our embeddings

for entity, embedding in zip(mat.entity_ids, embeddings):
    print(entity, embedding)

# We can now compare our embeddings with dot product (since they are L2 normalized)

print(np.dot(embeddings[0], embeddings[1]))
print(np.dot(embeddings[0], embeddings[2]))
print(np.dot(embeddings[0], embeddings[3]))

คำถามที่พบบ่อย

ถาม: ฉันควรฝังอะไร?

ตอบ: เอนทิตีใด ๆ ที่มีปฏิสัมพันธ์ซึ่งกันและกันร่วมกันหรือสามารถกล่าวได้ว่ามีอยู่ด้วยกันในบริบทที่กำหนด ตัวอย่างอาจรวมถึง: ผลิตภัณฑ์ในตะกร้าช้อปปิ้งสถานที่ตั้งของคนเดียวกันในเวลาเดียวกันพนักงานร่วมมือกันโมเลกุลเคมีที่มีอยู่ในสถานการณ์เฉพาะโปรตีนที่ผลิตโดยแบคทีเรียเดียวกันปฏิสัมพันธ์ยาผู้เขียนร่วมของเอกสารวิชาการเดียวกัน บริษัท ที่เกิดขึ้นร่วมกันในโปรไฟล์ LinkedIn เดียวกัน

ถาม: ฉันจะสร้างอินพุตได้อย่างไร?

ตอบ: สิ่งที่ดีที่สุดคือการจัดกลุ่มเอนทิตีที่เกิดขึ้นร่วมกันในบริบทที่คล้ายกันและการให้อาหารพวกเขาในเส้นที่แยกจากกันโดยใช้ complex::reflexive Modifier เป็นความคิดที่ดี เช่นหากคุณมีข้อมูลผลิตภัณฑ์คุณสามารถจัดกลุ่มผลิตภัณฑ์ด้วยตะกร้าช้อปปิ้งหรือโดยผู้ใช้ หากคุณมี URL คุณสามารถจัดกลุ่มโดยเซสชันเบราว์เซอร์โดยคู่ (ผู้ใช้หน้าต่างเวลา) ตรวจสอบตัวอย่างการใช้งานด้านบน การจัดกลุ่มผลิตภัณฑ์โดยลูกค้าเป็นเพียงความเป็นไปได้เพียงอย่างเดียว

ถาม: ฉันสามารถฝังผู้ใช้และผลิตภัณฑ์ไว้พร้อมกันเพื่อเปรียบเทียบกับความคล้ายคลึงกันของโคไซน์ได้หรือไม่?

ตอบ: ไม่นี่เป็นวิธีการที่ผิดวิธีการเกิดจากวิธีการแยกตัวประกอบเมทริกซ์ที่ล้าสมัย สิ่งที่คุณควรทำคือการฝังผลิตภัณฑ์ที่ดีก่อนจากนั้นสร้างการฝังผู้ใช้จากพวกเขา การให้อาหารสองคอลัมน์เช่น user product ลงใน Cleora จะส่งผลให้กราฟ bipartite ผลิตภัณฑ์ที่คล้ายกันจะอยู่ใกล้กันผู้ใช้ที่คล้ายกันจะอยู่ใกล้กัน แต่ผู้ใช้และผลิตภัณฑ์จะไม่จำเป็นต้องคล้ายกัน

ถาม: มิติการฝังที่จะใช้อะไร?

ตอบ: ยิ่งดีกว่า แต่เรามักจะทำงานตั้งแต่ ปี 1024 ถึง 4096 หน่วยความจำราคาถูกและเครื่องจักรมีประสิทธิภาพดังนั้นอย่าใช้ขนาดการฝังขนาด

ถาม: ฉันควรใช้การแพร่กระจายของมาร์คอฟกี่ครั้ง?

ตอบ: ขึ้นอยู่กับสิ่งที่คุณต้องการบรรลุ การทำซ้ำต่ำ (3) มีแนวโน้มที่จะประมาณเมทริกซ์การเกิดร่วมในขณะที่การทำซ้ำสูง (7+) มีแนวโน้มที่จะให้ความคล้ายคลึงกันตามบริบท (คิดว่า skip-gram แต่แม่นยำมากขึ้นและเร็วขึ้น)

ถาม: ฉันจะรวมข้อมูลภายนอกได้อย่างไรเช่นข้อมูลเมตาของเอนทิตี, รูปภาพ, ข้อความลงใน embeddings ได้อย่างไร

ตอบ: เพียงแค่เริ่มต้นเมทริกซ์การฝังด้วยเวกเตอร์ของคุณเองที่มาจาก VIT, setence-transformers ของการฉายแบบสุ่มของคุณสมบัติตัวเลขของคุณ ในสถานการณ์นั้นจำนวนการทำซ้ำของมาร์คอฟจำนวนน้อย (1 ถึง 3) มีแนวโน้มที่จะทำงานได้ดีที่สุด

ถาม: การฝังตัวของฉันไม่พอดีกับความทรงจำฉันจะทำอย่างไร?

ตอบ: Cleora ทำงานในมิติอย่างอิสระ เริ่มต้นการฝังตัวของคุณด้วยจำนวนขนาดที่น้อยกว่าใช้ cleora คงอยู่ที่ดิสก์จากนั้นทำซ้ำ คุณสามารถเชื่อมต่อเวกเตอร์ฝังที่เกิดขึ้นของคุณหลังจากนั้น แต่อย่าลืมทำให้พวกเขาเป็นปกติในภายหลัง!

ถาม: มีจำนวนกิจการน้อยที่สุดที่เกิดขึ้นหรือไม่?

ตอบ: ไม่เอน A ตีร่วมกันเพียง 1 ครั้งกับเอนทิตีอื่น ๆ B จะได้รับการฝังที่เหมาะสมเช่น B จะคล้ายกับ A อีกวิธีหนึ่ง A ได้รับการจัดอันดับอย่างสูงในหมู่เพื่อนบ้านที่ใกล้ที่สุดของ B ซึ่งอาจหรือไม่อาจเป็นที่ต้องการขึ้นอยู่กับกรณีการใช้งานของคุณ อย่าลังเลที่จะตัดอินพุตของคุณไปยัง Cleora เพื่อกำจัดรายการความถี่ต่ำ

ถาม: มีกรณีขอบที่ Cleora ล้มเหลวได้หรือไม่?

ตอบ: Cleora ทำงานได้ดีที่สุดสำหรับไฮเปอร์กราฟที่ค่อนข้างกระจัดกระจาย หาก Hyperedges ทั้งหมดของคุณมีเอนทิตีที่พบบ่อยมาก X เช่น ถุงช้อปปิ้ง มันจะลดคุณภาพของการฝังโดยเส้นทางที่สั้นที่สุดในการเดินแบบสุ่ม มันเป็นวิธีปฏิบัติที่ดีในการลบเอนทิตีดังกล่าวออกจากไฮเปอร์กราฟ

ถาม: Cleora จะเร็วและแม่นยำได้อย่างไรในเวลาเดียวกัน?

ตอบ: การไม่ใช้การสุ่มตัวอย่างเชิงลบเป็นสิ่งที่ดี ด้วยการสร้างเมทริกซ์การเปลี่ยนมาร์คอฟ (กระจัดกระจาย) Cleora ทำการเดินแบบสุ่มที่เป็นไปได้ทั้งหมดอย่างชัดเจนในไฮเปอร์กราฟในขั้นตอนใหญ่ครั้งเดียว (การคูณเมทริกซ์เดี่ยว) นั่นคือสิ่งที่เราเรียกว่า การทำซ้ำ ครั้งเดียว เราทำการทำซ้ำ 3+ ต้องขอบคุณการใช้งานที่มีประสิทธิภาพสูงในการเกิดสนิมด้วยการดูแลเป็นพิเศษสำหรับการเกิดขึ้นพร้อมกันเค้าโครงหน่วยความจำและการเชื่อมโยงกันของแคชมันรวดเร็วอย่างน่าทึ่ง การสุ่มตัวอย่างเชิงลบหรือการสุ่มเลือกเดินแบบสุ่มมักจะแนะนำเสียงรบกวนมากมาย - Cleora ปราศจากภาระเหล่านั้น

ศาสตร์

อ่านกระดาษสีขาว "Cleora: รูปแบบการฝังกราฟที่เรียบง่ายแข็งแรงและปรับขนาดได้"

Cleora ฝังเอนทิตีใน พื้นที่ทรงกลม N มิติ โดยใช้การคาดการณ์แบบสุ่มแบบสุ่มที่มีความเสถียรอย่างรวดเร็วมากซึ่งช่วยให้ประสิทธิภาพและความสามารถในการปรับขนาดไม่มีใครเทียบได้

ประเภทของข้อมูลที่สามารถฝังได้รวมถึงตัวอย่างเช่น:

กราฟที่ไม่ได้ทิศทางต่างกัน
ไฮเปอร์กราฟที่แตกต่างกัน
ข้อความและข้อมูลอาร์เรย์หมวดหมู่อื่น ๆ
การรวมกันของข้างต้น

- ข้อจำกัดความรับผิดชอบ: ตัวเลขด้านล่างนี้มีไว้สำหรับ Cleora 1.x เวอร์ชันใหม่นั้นเร็วขึ้นอย่างมาก แต่ยังต้องเรียกใช้มาตรฐานอีกครั้ง

ข้อได้เปรียบในการแข่งขันที่สำคัญของ Cleora:

เร็วกว่า 197x มากกว่า Deepwalk
~ 4x-8x เร็วกว่า pytorch-biggraph (ขึ้นอยู่กับกรณีการใช้งาน)
การขยายตัวของดาวการขยายตัวของกลุ่มและไม่มีการสนับสนุนการขยายตัวของไฮเปอร์กราฟ
คุณภาพของผลลัพธ์มีประสิทธิภาพสูงกว่าหรือแข่งขัน กับเฟรมเวิร์กการฝังตัวอื่น ๆ เช่น Pytorch-Biggraph, Gosh, Deepwalk, Line
สามารถฝังกราฟขนาดใหญ่และไฮเปอร์กราฟบนเครื่องเดียว

การฝังเวลา - ตัวอย่าง:

อัลกอริทึม	ชุดข้อมูล FB	ชุดข้อมูล Roadnet	ชุดข้อมูล LiveJournal
คลอรารา	00:00:43 H	00:21:59 H	01:31:42 H
Pytorch-biggraph	00: 04.33 H	00:31:11 H	07:10:00 H

ผลการทำนายลิงก์ - ตัวอย่าง:

	ชุดข้อมูล FB		ชุดข้อมูล Roadnet		ชุดข้อมูล LiveJournal
อัลกอริทึม	MRR	hitrate@10	MRR	hitrate@10	MRR	hitrate@10
คนขี้เกียจ	0.072	0.172	0.929	0.942	0.586	0.627
Pytorch-biggraph	0.035	0.072	0.850	0.866	0.565	0.672

หลักการออกแบบ Cleora

Cleora ถูกสร้างขึ้นเป็นเครื่องมือ "แค่ฝังมัน" อเนกประสงค์ซึ่งเหมาะสำหรับประเภทข้อมูลและรูปแบบที่แตกต่างกันมากมาย

Cleora Ingests ตารางความสัมพันธ์ของแถวที่แสดงถึงไฮเปอร์กราฟที่มีการพิมพ์และไม่ได้ทิศทางซึ่งสามารถมีได้หลายอย่าง:

พิมพ์คอลัมน์หมวดหมู่
พิมพ์คอลัมน์อาร์เรย์หมวดหมู่

ตัวอย่างเช่นตารางเชิงสัมพันธ์ที่เป็นตัวแทนของตะกร้าช้อปปิ้งอาจมีคอลัมน์ต่อไปนี้:

 user <t> product <t> store

ด้วยไฟล์อินพุตที่มีค่า:

 user_id <t> product_id product_id product_id <t> store_id

ทุกคอลัมน์มีประเภทซึ่งใช้เพื่อตรวจสอบว่าช่องว่างของตัวระบุระหว่างคอลัมน์ที่แตกต่างกันมีการแชร์หรือแตกต่างกัน เป็นไปได้ที่สองคอลัมน์จะแบ่งปันประเภทซึ่งเป็นกรณีของกราฟที่เป็นเนื้อเดียวกัน:

 user <t> user

ตามข้อกำหนดของรูปแบบคอลัมน์ Cleora ดำเนินการ:

การสลายตัวของดาวไฮเปอร์ขอบ
การสร้างกราฟคู่สำหรับทุกประเภทเอนทิตี
การฝังกราฟแต่ละอัน

เอาต์พุตสุดท้ายของ Cleora ประกอบด้วยหลายไฟล์สำหรับแต่ละประเภทของเอนทิตี (ไม่ได้กำกับ) ในตาราง

การฝังตัวเหล่านั้นสามารถนำไปใช้ในลักษณะใหม่ด้วยคุณสมบัติความเป็นอิสระที่ชาญฉลาดซึ่งอธิบายเพิ่มเติมด้านล่าง

คุณสมบัติทางเทคนิคที่สำคัญของ Cleora Embeddings

Embeddings ที่ผลิตโดย Cleora นั้นแตกต่างจากที่ผลิตโดย Node2Vec, Word2vec, Deepwalk หรือระบบอื่น ๆ ในคลาสนี้โดยคุณสมบัติหลักจำนวนมาก:

ประสิทธิภาพ - Cleora เป็นสองคำสั่งของขนาดเร็วกว่า node2vec หรือ deepwalk
Inductivity- เนื่องจากการฝังตัวของ Cleora ของเอนทิตีถูกกำหนดโดยการโต้ตอบกับเอนทิตีอื่น ๆ เวกเตอร์สำหรับเอนทิตีใหม่สามารถคำนวณได้ในขณะบิน
ความสามารถในการปรับปรุง - การรีเฟรชการฝัง cleora สำหรับเอนทิตีเป็นการดำเนินการที่รวดเร็วมากที่อนุญาตให้อัปเดตแบบเรียลไทม์โดยไม่ต้องฝึกอบรมใหม่
ความเสถียร - เวกเตอร์ที่เริ่มต้นทั้งหมดสำหรับเอนทิตีนั้นกำหนดขึ้นซึ่งหมายความว่า cleora embeddings ในชุดข้อมูลที่คล้ายกันจะจบลงที่คล้ายกัน วิธีการเช่น Word2vec, Node2Vec หรือ Deepwalk ส่งคืนผลลัพธ์ที่แตกต่างกันทุกการรัน
การเรียงความข้ามส่วนประกอบ - ต้องขอบคุณความเสถียรของ cleora embeddings การฝังตัวของเอนทิตีเดียวกันในชุดข้อมูลหลายชุดสามารถรวมกันได้โดยการหาค่าเฉลี่ย
ความเป็นอิสระที่ชาญฉลาด - ต้องขอบคุณกระบวนการที่ผลิต cleora embeddings ทุกมิติเป็นอิสระจากผู้อื่น คุณสมบัตินี้ช่วยให้วิธีการที่มีประสิทธิภาพและมีพารามิเตอร์ต่ำสำหรับการรวมการฝังตัวหลายมุมมองกับเลเยอร์ Conv1D
การขนานกันมากและประสิทธิภาพ - Cleora เขียนขึ้นในการเกิดสนิมโดยใช้การขนานระดับด้ายระดับสำหรับการคำนวณทั้งหมดยกเว้นการโหลดไฟล์อินพุต ในทางปฏิบัตินี้หมายความว่ากระบวนการฝังมักจะเร็วกว่าการโหลดข้อมูลอินพุต

คุณสมบัติการใช้งานที่สำคัญของ Cleora Embeddings

คุณสมบัติทางเทคนิคที่อธิบายไว้ข้างต้นบ่งบอกถึงความพร้อมในการผลิตที่ดีของ Cleora ซึ่งจากมุมมองของผู้ใช้ปลายทางสามารถสรุปได้ดังนี้:

ตารางเชิงสัมพันธ์ที่แตกต่างกันสามารถฝังได้โดยไม่ต้องประมวลผลข้อมูลเทียมใด ๆ ล่วงหน้า
ชุดข้อมูลการโต้ตอบแบบผสม + ข้อความสามารถฝังได้อย่างง่ายดาย
ปัญหาการเริ่มต้นเย็นสำหรับเอนทิตีใหม่นั้นไม่มีอยู่จริง
การอัปเดตแบบเรียลไทม์ของ embeddings ไม่จำเป็นต้องใช้โซลูชันแยกต่างหาก
embeddings หลายมุมมองทำงานนอกกรอบ
การฝังตัวชั่วคราวที่เพิ่มขึ้นนั้นมีความเสถียรนอกกรอบโดยไม่จำเป็นต้องมีการจัดตำแหน่งใหม่การหมุนหรือวิธีการอื่น ๆ
รองรับชุดข้อมูลขนาดใหญ่มากและสามารถฝังได้ภายในไม่กี่วินาที / นาที

เอกสาร

- ข้อจำกัดความรับผิดชอบเอกสารด้านล่างนี้มีไว้สำหรับ Cleora 1.x เพื่ออัปเดตสำหรับ 2.x

ข้อมูลเพิ่มเติมสามารถพบได้ในเอกสารฉบับเต็ม

สำหรับรายละเอียดติดต่อเราได้ที่ [email protected]

อ้างถึง

โปรดอ้างอิงกระดาษของเรา (และเอกสารที่เกี่ยวข้องของวิธีการที่ใช้) หากคุณใช้รหัสนี้ในงานของคุณเอง:

 @article{DBLP:journals/corr/abs-2102-02302,
  author    = {Barbara Rychalska, Piotr Babel, Konrad Goluchowski, Andrzej Michalowski, Jacek Dabrowski},
  title     = {Cleora: {A} Simple, Strong and Scalable Graph Embedding Scheme},
  journal   = {CoRR},
  year      = {2021}
}