Unduh SDGym - Unduh Kode Sumber SDGym

SDGym

Kode sumber lainnya

v0.9.1 - 2024-08-29

Unduh

Repositori ini adalah bagian dari proyek Data Vault sintetis, proyek dari DataCebo.

Ringkasan

Gym Data Sintetis (SDGYM) adalah kerangka pembandingan untuk pemodelan dan menghasilkan data sintetis. Ukur kinerja dan penggunaan memori di berbagai teknik pemodelan data sintetis - statistik klasik, pembelajaran mendalam dan banyak lagi!

Perpustakaan SDGYM terintegrasi dengan ekosistem data sintetis. Anda dapat menggunakan salah satu synthesizer, set data, atau metrik untuk pembandingan. Anda juga dapat menyesuaikan proses untuk memasukkan pekerjaan Anda sendiri.

Dataset : Pilih salah satu dari set data yang tersedia untuk umum dari proyek SDV, atau masukkan data Anda sendiri.
Synthesizers : Pilih dari salah satu synthesizer dan baseline SDV. Atau tulis model pembelajaran mesin khusus Anda sendiri.
Evaluasi : Selain penggunaan kinerja dan memori, Anda juga dapat mengukur kualitas dan privasi data sintetis melalui berbagai metrik.

Memasang

Pasang SDGYM menggunakan Pip atau Conda. Kami merekomendasikan penggunaan lingkungan virtual untuk menghindari konflik dengan perangkat lunak lain di perangkat Anda.

pip install sdgym

conda install -c pytorch -c conda-forge sdgym

Untuk informasi lebih lanjut tentang penggunaan SDGYM, kunjungi dokumentasi SDGYM.

Penggunaan

Mari Benchmark Pembuatan Data Sintetis untuk Tabel Tunggal. Pertama, mari kita tentukan teknik pemodelan mana yang ingin kami gunakan. Mari kita pilih beberapa synthesizer dari perpustakaan SDV dan beberapa lainnya untuk digunakan sebagai garis dasar.

 # these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]

# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]

Sekarang, kita dapat membandingkan teknik yang berbeda:

 import sdgym

sdgym . benchmark_single_table (
    synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)

Hasilnya adalah kinerja terperinci, memori dan evaluasi kualitas di seluruh synthesizer pada berbagai set data yang tersedia untuk umum.

Menyediakan synthesizer khusus

Benchmark teknik pembuatan data sintetis Anda sendiri. Tentukan synthesizer Anda dengan menentukan logika pelatihan (menggunakan pembelajaran mesin) dan logika pengambilan sampel.

 def my_training_logic ( data , metadata ):
    # create an object to represent your synthesizer
    # train it using the data
    return synthesizer

def my_sampling_logic ( trained_synthesizer , num_rows ):
    # use the trained synthesizer to create
    # num_rows of synthetic data
    return synthetic_data

Pelajari lebih lanjut di panduan Synthesizers khusus.

Menyesuaikan kumpulan data Anda

Perpustakaan SDGYM mencakup banyak set data yang tersedia untuk umum yang dapat Anda sertakan segera. Sebutkan ini menggunakan fitur get_available_datasets .

 sdgym . get_available_datasets ()

 dataset_name   size_MB     num_tables
KRK_v1         0.072128    1
adult          3.907448    1
alarm          4.520128    1
asia           1.280128    1
...

Anda juga dapat memasukkan dataset kustom, pribadi yang disimpan di komputer Anda pada ember Amazon S3.

 my_datasets_folder = 's3://my-datasets-bucket'

Untuk informasi lebih lanjut, lihat dokumen untuk set data yang disesuaikan.

Apa selanjutnya?

Kunjungi dokumentasi SDGYM untuk mempelajari lebih lanjut!

Proyek Data Vault sintetis pertama kali dibuat di MIT's Data ke AI Lab pada tahun 2016. Setelah 4 tahun penelitian dan traksi dengan Enterprise, kami membuat DataCebo pada tahun 2020 dengan tujuan mengembangkan proyek. Hari ini, DataCebo adalah pengembang bangga SDV, ekosistem terbesar untuk pembuatan & evaluasi data sintetis. Ini adalah rumah bagi beberapa perpustakaan yang mendukung data sintetis, termasuk:

Penemuan & Transformasi Data. Membalikkan transformasi untuk mereproduksi data realistis.
? Beberapa model pembelajaran mesin - mulai dari kopula hingga pembelajaran yang mendalam - untuk membuat data tabel, multi -tabel, dan deret waktu.
Mengukur kualitas dan privasi data sintetis, dan membandingkan berbagai model pembuatan data sintetis.

Mulailah menggunakan paket SDV-solusi terintegrasi penuh dan toko serba ada untuk data sintetis. Atau, gunakan pustaka mandiri untuk kebutuhan spesifik.

Memperluas

Informasi Tambahan

Versi v0.9.1 - 2024-08-29
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-10
ukuran 366.27KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua