SDGym下载 - SDGym源代码下载

SDGym

其他源码

v0.9.1 - 2024-08-29

下载

该存储库是datacebo项目的合成数据保险库项目的一部分。

概述

合成数据健身房（SDGYM）是用于建模和生成合成数据的基准测试框架。测量不同合成数据建模技术的性能和记忆使用 - 经典统计，深度学习等等！

SDGYM库与合成数据保险库生态系统集成在一起。您可以将其任何合成器，数据集或指标用于基准测试。您还可以自定义该过程以包括自己的工作。

数据集：从SDV项目中选择任何公开可用的数据集，或输入您自己的数据。
合成器：从任何SDV合成器和基线中选择。或编写自己的自定义机器学习模型。
评估：除了性能和内存使用外，您还可以通过各种指标来测量合成数据质量和隐私。

安装

使用PIP或CONDA安装SDGYM。我们建议使用虚拟环境避免与设备上的其他软件发生冲突。

pip install sdgym

conda install -c pytorch -c conda-forge sdgym

有关使用SDGYM的更多信息，请访问SDGYM文档。

用法

让我们对单表进行基准合成数据生成。首先，让我们定义要使用哪些建模技术。让我们从SDV库中选择一些合成器，以及其他一些用于基准的合成器。

 # these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]

# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]

现在，我们可以对不同的技术进行基准测试：

 import sdgym

sdgym . benchmark_single_table (
    synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)

结果是在各种可公开可用的数据集上进行了详细的性能，内存和质量评估。

提供自定义合成器

基准您自己的合成数据生成技术。通过指定训练逻辑（使用机器学习）和采样逻辑来定义合成器。

 def my_training_logic ( data , metadata ):
    # create an object to represent your synthesizer
    # train it using the data
    return synthesizer

def my_sampling_logic ( trained_synthesizer , num_rows ):
    # use the trained synthesizer to create
    # num_rows of synthetic data
    return synthetic_data

在“自定义合成器指南”中了解更多信息。

自定义数据集

SDGYM库包含许多可立即包含的公开数据集。使用get_available_datasets功能列出这些功能。

 sdgym . get_available_datasets ()

 dataset_name   size_MB     num_tables
KRK_v1         0.072128    1
adult          3.907448    1
alarm          4.520128    1
asia           1.280128    1
...

您还可以在Amazon S3存储桶上存储在计算机上的任何自定义私有数据集。

 my_datasets_folder = 's3://my-datasets-bucket'

有关更多信息，请参见文档以获取自定义数据集。

接下来是什么？

访问SDGYM文档以了解更多信息！

合成数据保险库项目最初是在2016年在MIT的数据中创建的。经过4年的企业研究和吸引力，我们于2020年创建了Datacebo，目的是发展该项目。如今，Datacebo已成为SDV的骄傲开发人员，SDV是合成数据生成和评估的最大生态系统。它是支持合成数据的多个库的所在地，包括：

数据发现与转换。反向转换以复制现实数据。
？多个机器学习模型（从Copulas到深度学习）都可以创建表格，多表和时间序列数据。
测量合成数据的质量和隐私，并比较不同的合成数据生成模型。

开始使用SDV软件包 - 一种完全集成的解决方案，您的一站式商店以获取合成数据。或者，使用独立的库满足特定需求。

展开

附加信息

版本 v0.9.1 - 2024-08-29
类型其他源码
更新时间 2025-03-10
大小 366.27KB
来自于 Github

SDGym

概述

安装

用法

提供自定义合成器

自定义数据集

接下来是什么？

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express