ดาวน์โหลด SDGym - ดาวน์โหลดซอร์สโค้ด SDGym

SDGym

ซอร์สโค้ดอื่น ๆ

v0.9.1 - 2024-08-29

ดาวน์โหลด

พื้นที่เก็บข้อมูลนี้เป็นส่วนหนึ่งของโครงการ Synthetic Data Vault ซึ่งเป็นโครงการจาก Datacebo

ภาพรวม

The Synthetic Data Gym (SDGYM) เป็นกรอบการเปรียบเทียบสำหรับการสร้างแบบจำลองและสร้างข้อมูลสังเคราะห์ วัดประสิทธิภาพและการใช้หน่วยความจำในเทคนิคการสร้างแบบจำลองข้อมูลสังเคราะห์ที่แตกต่างกัน - สถิติคลาสสิกการเรียนรู้ลึกและอื่น ๆ !

ห้องสมุด SDGYM รวมเข้ากับระบบนิเวศของข้อมูลสังเคราะห์ คุณสามารถใช้ synthesizers ชุดข้อมูลหรือตัวชี้วัดใด ๆ สำหรับการเปรียบเทียบ นอกจากนี้คุณยังสามารถปรับแต่งกระบวนการเพื่อรวมงานของคุณเอง

ชุดข้อมูล : เลือกชุดข้อมูลที่เปิดเผยต่อสาธารณะจากโครงการ SDV หรือป้อนข้อมูลของคุณเอง
Synthesizers : เลือกจาก synthesizers SDV ใด ๆ และ baselines หรือเขียนรูปแบบการเรียนรู้ของเครื่องจักรที่กำหนดเองของคุณเอง
การประเมินผล : นอกเหนือจากประสิทธิภาพและการใช้หน่วยความจำคุณยังสามารถวัดคุณภาพข้อมูลสังเคราะห์และความเป็นส่วนตัวผ่านตัวชี้วัดที่หลากหลาย

ติดตั้ง

ติดตั้ง SDGYM โดยใช้ PIP หรือ Conda เราขอแนะนำให้ใช้สภาพแวดล้อมเสมือนจริงเพื่อหลีกเลี่ยงความขัดแย้งกับซอฟต์แวร์อื่น ๆ บนอุปกรณ์ของคุณ

pip install sdgym

conda install -c pytorch -c conda-forge sdgym

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ SDGYM โปรดเยี่ยมชมเอกสาร SDGYM

การใช้งาน

มาเป็นมาตรฐานการสร้างการสร้างข้อมูลสังเคราะห์สำหรับตารางเดี่ยว ก่อนอื่นมากำหนดเทคนิคการสร้างแบบจำลองที่เราต้องการใช้ ลองเลือกซินธิไซเซอร์สองสามตัวจากไลบรารี SDV และอีกสองสามอย่างที่จะใช้เป็น baselines

 # these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]

# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]

ตอนนี้เราสามารถเปรียบเทียบเทคนิคต่าง ๆ :

 import sdgym

sdgym . benchmark_single_table (
    synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)

ผลที่ได้คือประสิทธิภาพรายละเอียดหน่วยความจำและการประเมินคุณภาพทั่วทั้งซินธิไซเซอร์ในชุดข้อมูลที่เปิดเผยต่อสาธารณะที่หลากหลาย

จัดหาซินธิไซเซอร์ที่กำหนดเอง

เกณฑ์มาตรฐานเทคนิคการสร้างข้อมูลสังเคราะห์ของคุณเอง กำหนดซินธิไซเซอร์ของคุณโดยระบุตรรกะการฝึกอบรม (โดยใช้การเรียนรู้ของเครื่อง) และตรรกะการสุ่มตัวอย่าง

 def my_training_logic ( data , metadata ):
    # create an object to represent your synthesizer
    # train it using the data
    return synthesizer

def my_sampling_logic ( trained_synthesizer , num_rows ):
    # use the trained synthesizer to create
    # num_rows of synthetic data
    return synthetic_data

เรียนรู้เพิ่มเติมในคู่มือ synthesizers ที่กำหนดเอง

ปรับแต่งชุดข้อมูลของคุณ

ห้องสมุด SDGYM มีชุดข้อมูลที่เปิดเผยต่อสาธารณะมากมายที่คุณสามารถรวมได้ทันที แสดงรายการเหล่านี้โดยใช้คุณสมบัติ get_available_datasets

 sdgym . get_available_datasets ()

 dataset_name   size_MB     num_tables
KRK_v1         0.072128    1
adult          3.907448    1
alarm          4.520128    1
asia           1.280128    1
...

นอกจากนี้คุณยังสามารถรวมชุดข้อมูลส่วนตัวที่กำหนดเองที่เก็บไว้ในคอมพิวเตอร์ของคุณในถัง Amazon S3

 my_datasets_folder = 's3://my-datasets-bucket'

สำหรับข้อมูลเพิ่มเติมดูเอกสารสำหรับชุดข้อมูลที่กำหนดเอง

ถัดไปคืออะไร?

เยี่ยมชมเอกสาร SDGYM เพื่อเรียนรู้เพิ่มเติม!

โครงการ Synthetic Data Vault ถูกสร้างขึ้นเป็นครั้งแรกที่ข้อมูลของ MIT ไปยัง AI Lab ในปี 2559 หลังจาก 4 ปีของการวิจัยและการลากกับ Enterprise เราได้สร้าง Datacebo ในปี 2020 โดยมีเป้าหมายในการเติบโตโครงการ วันนี้ Datacebo เป็นผู้พัฒนาที่ภาคภูมิใจของ SDV ซึ่งเป็นระบบนิเวศที่ใหญ่ที่สุดสำหรับการสร้างและประเมินผลข้อมูลสังเคราะห์ เป็นที่ตั้งของห้องสมุดหลายแห่งที่รองรับข้อมูลสังเคราะห์รวมถึง:

การค้นพบข้อมูลและการแปลง ย้อนกลับการแปลงเพื่อทำซ้ำข้อมูลที่เป็นจริง
- โมเดลการเรียนรู้ของเครื่องหลายแบบ - ตั้งแต่ copulas ไปจนถึงการเรียนรู้ลึก - เพื่อสร้างข้อมูลแบบตารางหลายตารางและอนุกรมเวลา
การวัดคุณภาพและความเป็นส่วนตัวของข้อมูลสังเคราะห์และเปรียบเทียบแบบจำลองการสร้างข้อมูลสังเคราะห์ที่แตกต่างกัน

เริ่มต้นใช้แพ็คเกจ SDV-โซลูชันแบบครบวงจรและร้านค้าครบวงจรของคุณสำหรับข้อมูลสังเคราะห์ หรือใช้ไลบรารีแบบสแตนด์อโลนสำหรับความต้องการเฉพาะ

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.9.1 - 2024-08-29
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-10
ขนาด 366.27KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด