SDGym下載 - SDGym源代碼下載

SDGym

其他源碼

v0.9.1 - 2024-08-29

下載

該存儲庫是datacebo項目的合成數據保險庫項目的一部分。

概述

合成數據健身房（SDGYM）是用於建模和生成合成數據的基準測試框架。測量不同合成數據建模技術的性能和記憶使用 - 經典統計，深度學習等等！

SDGYM庫與合成數據保險庫生態系統集成在一起。您可以將其任何合成器，數據集或指標用於基準測試。您還可以自定義該過程以包括自己的工作。

數據集：從SDV項目中選擇任何公開可用的數據集，或輸入您自己的數據。
合成器：從任何SDV合成器和基線中選擇。或編寫自己的自定義機器學習模型。
評估：除了性能和內存使用外，您還可以通過各種指標來測量合成數據質量和隱私。

安裝

使用PIP或CONDA安裝SDGYM。我們建議使用虛擬環境避免與設備上的其他軟件發生衝突。

pip install sdgym

conda install -c pytorch -c conda-forge sdgym

有關使用SDGYM的更多信息，請訪問SDGYM文檔。

用法

讓我們對單表進行基準合成數據生成。首先，讓我們定義要使用哪些建模技術。讓我們從SDV庫中選擇一些合成器，以及其他一些用於基準的合成器。

 # these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]

# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]

現在，我們可以對不同的技術進行基準測試：

 import sdgym

sdgym . benchmark_single_table (
    synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)

結果是在各種可公開可用的數據集上進行了詳細的性能，內存和質量評估。

提供自定義合成器

基準您自己的合成數據生成技術。通過指定培訓邏輯（使用機器學習）和採樣邏輯來定義合成器。

 def my_training_logic ( data , metadata ):
    # create an object to represent your synthesizer
    # train it using the data
    return synthesizer

def my_sampling_logic ( trained_synthesizer , num_rows ):
    # use the trained synthesizer to create
    # num_rows of synthetic data
    return synthetic_data

在“自定義合成器指南”中了解更多信息。

自定義數據集

SDGYM庫包含許多可立即包含的公開數據集。使用get_available_datasets功能列出這些功能。

 sdgym . get_available_datasets ()

 dataset_name   size_MB     num_tables
KRK_v1         0.072128    1
adult          3.907448    1
alarm          4.520128    1
asia           1.280128    1
...

您還可以在Amazon S3存儲桶上存儲在計算機上的任何自定義私有數據集。

 my_datasets_folder = 's3://my-datasets-bucket'

有關更多信息，請參見文檔以獲取自定義數據集。

接下來是什麼？

訪問SDGYM文檔以了解更多信息！

合成數據保險庫項目最初是在2016年在MIT的數據中創建的。經過4年的企業研究和吸引力，我們於2020年創建了Datacebo，目的是發展該項目。如今，Datacebo已成為SDV的驕傲開發人員，SDV是合成數據生成和評估的最大生態系統。它是支持合成數據的多個庫的所在地，包括：

數據發現與轉換。反向轉換以復制現實數據。
？多個機器學習模型（從Copulas到深度學習）都可以創建表格，多表和時間序列數據。
測量合成數據的質量和隱私，並比較不同的合成數據生成模型。

開始使用SDV軟件包 - 一種完全集成的解決方案，您的一站式商店以獲取合成數據。或者，使用獨立的庫滿足特定需求。

展開

附加信息

版本 v0.9.1 - 2024-08-29
類型其他源碼
更新時間 2025-03-10
大小 366.27KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部