該存儲庫是datacebo項目的合成數據保險庫項目的一部分。

合成數據健身房(SDGYM)是用於建模和生成合成數據的基準測試框架。測量不同合成數據建模技術的性能和記憶使用 - 經典統計,深度學習等等!

SDGYM庫與合成數據保險庫生態系統集成在一起。您可以將其任何合成器,數據集或指標用於基準測試。您還可以自定義該過程以包括自己的工作。
使用PIP或CONDA安裝SDGYM。我們建議使用虛擬環境避免與設備上的其他軟件發生衝突。
pip install sdgymconda install -c pytorch -c conda-forge sdgym有關使用SDGYM的更多信息,請訪問SDGYM文檔。
讓我們對單表進行基準合成數據生成。首先,讓我們定義要使用哪些建模技術。讓我們從SDV庫中選擇一些合成器,以及其他一些用於基準的合成器。
# these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]
# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]現在,我們可以對不同的技術進行基準測試:
import sdgym
sdgym . benchmark_single_table (
synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)結果是在各種可公開可用的數據集上進行了詳細的性能,內存和質量評估。
基準您自己的合成數據生成技術。通過指定培訓邏輯(使用機器學習)和採樣邏輯來定義合成器。
def my_training_logic ( data , metadata ):
# create an object to represent your synthesizer
# train it using the data
return synthesizer
def my_sampling_logic ( trained_synthesizer , num_rows ):
# use the trained synthesizer to create
# num_rows of synthetic data
return synthetic_data在“自定義合成器指南”中了解更多信息。
SDGYM庫包含許多可立即包含的公開數據集。使用get_available_datasets功能列出這些功能。
sdgym . get_available_datasets () dataset_name size_MB num_tables
KRK_v1 0.072128 1
adult 3.907448 1
alarm 4.520128 1
asia 1.280128 1
...
您還可以在Amazon S3存儲桶上存儲在計算機上的任何自定義私有數據集。
my_datasets_folder = 's3://my-datasets-bucket'
有關更多信息,請參見文檔以獲取自定義數據集。
訪問SDGYM文檔以了解更多信息!

合成數據保險庫項目最初是在2016年在MIT的數據中創建的。經過4年的企業研究和吸引力,我們於2020年創建了Datacebo,目的是發展該項目。如今,Datacebo已成為SDV的驕傲開發人員,SDV是合成數據生成和評估的最大生態系統。它是支持合成數據的多個庫的所在地,包括:
開始使用SDV軟件包 - 一種完全集成的解決方案,您的一站式商店以獲取合成數據。或者,使用獨立的庫滿足特定需求。