이 저장소는 Datacebo의 프로젝트 인 Synthetic Data Vault 프로젝트의 일부입니다.

SDGYM (Synthetic Data Gym)은 합성 데이터 모델링 및 생성을위한 벤치마킹 프레임 워크입니다. 다양한 합성 데이터 모델링 기술에서 성능 및 메모리 사용을 측정합니다 - 고전 통계, 딥 러닝 등!

SDGYM 라이브러리는 합성 데이터 금고 생태계와 통합됩니다. 벤치마킹에 신디사이저, 데이터 세트 또는 메트릭을 사용할 수 있습니다. 자신의 작업을 포함하도록 프로세스를 사용자 정의 할 수도 있습니다.
PIP 또는 Conda를 사용하여 SDGYM을 설치하십시오. 장치의 다른 소프트웨어와의 충돌을 피하기 위해 가상 환경을 사용하는 것이 좋습니다.
pip install sdgymconda install -c pytorch -c conda-forge sdgymSDGYM 사용에 대한 자세한 내용은 SDGYM 문서를 방문하십시오.
단일 테이블의 합성 데이터 생성을 벤치마킹합시다. 먼저 사용하려는 모델링 기술을 정의해 봅시다. SDV 라이브러리에서 몇 가지 신디사이저를 선택하고 기준으로 사용할 몇 개를 선택해 봅시다.
# these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]
# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]이제 우리는 다양한 기술을 벤치마킹 할 수 있습니다.
import sdgym
sdgym . benchmark_single_table (
synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)결과는 다양한 공개 데이터 세트에서 신디사이저에서 상세한 성능, 메모리 및 품질 평가가 나옵니다.
자신의 합성 데이터 생성 기술을 벤치마킹하십시오. 훈련 로직 (머신 러닝 사용) 및 샘플링 로직을 지정하여 신시사이저를 정의하십시오.
def my_training_logic ( data , metadata ):
# create an object to represent your synthesizer
# train it using the data
return synthesizer
def my_sampling_logic ( trained_synthesizer , num_rows ):
# use the trained synthesizer to create
# num_rows of synthetic data
return synthetic_data맞춤형 신디사이저 가이드에서 자세히 알아보십시오.
SDGYM 라이브러리에는 즉시 포함 할 수있는 공개적으로 사용 가능한 많은 데이터 세트가 포함되어 있습니다. get_available_datasets 기능을 사용하여 나열하십시오.
sdgym . get_available_datasets () dataset_name size_MB num_tables
KRK_v1 0.072128 1
adult 3.907448 1
alarm 4.520128 1
asia 1.280128 1
...
Amazon S3 버킷에 컴퓨터에 저장된 맞춤형 개인 데이터 세트도 포함 할 수 있습니다.
my_datasets_folder = 's3://my-datasets-bucket'
자세한 내용은 맞춤형 데이터 세트에 대한 문서를 참조하십시오.
자세한 내용은 SDGYM 문서를 방문하십시오!

합성 데이터 금고 프로젝트는 2016 년 MIT의 데이터에서 AI Lab에 처음으로 만들어졌습니다. Enterprise와의 4 년간의 연구 및 견인 후 2020 년에 프로젝트 성장을 목표로 Datacebo를 만들었습니다. 오늘날 Datacebo는 합성 데이터 생성 및 평가를위한 가장 큰 생태계 인 SDV의 자랑스러운 개발자입니다. 합성 데이터를 지원하는 여러 라이브러리가 있습니다.
완전히 통합 된 솔루션과 합성 데이터를위한 원 스톱 상점 인 SDV 패키지를 사용하여 시작하십시오. 또는 특정 요구에 대해 독립형 라이브러리를 사용하십시오.