Descargar SDGym - Descargar el código fuente de SDGym

SDGym

Otro código fuente

v0.9.1 - 2024-08-29

Descargar

Este repositorio es parte del proyecto de bóveda de datos sintéticos, un proyecto de DataCebo.

Descripción general

El gimnasio de datos sintéticos (SDGYM) es un marco de evaluación comparativa para modelar y generar datos sintéticos. Mida el rendimiento y el uso de la memoria en diferentes técnicas de modelado de datos sintéticos: estadísticas clásicas, aprendizaje profundo y más.

La biblioteca SDGYM se integra con el ecosistema de bóveda de datos sintéticos. Puede usar cualquiera de sus sintetizadores, conjuntos de datos o métricas para la evaluación comparativa. También puede personalizar el proceso para incluir su propio trabajo.

Conjuntos de datos : seleccione cualquiera de los conjuntos de datos disponibles públicamente del proyecto SDV o ingrese sus propios datos.
Síntesis : elija entre cualquiera de los sintetizadores y líneas de base SDV. O escriba su propio modelo de aprendizaje automático personalizado.
Evaluación : además del rendimiento y el uso de la memoria, también puede medir la calidad y la privacidad de los datos sintéticos a través de una variedad de métricas.

Instalar

Instale SDGYM con PIP o conda. Recomendamos utilizar un entorno virtual para evitar conflictos con otro software en su dispositivo.

pip install sdgym

conda install -c pytorch -c conda-forge sdgym

Para obtener más información sobre el uso de SDGYM, visite la documentación SDGYM.

Uso

Benchmaramos la generación de datos sintéticos para tablas individuales. Primero, definamos qué técnicas de modelado queremos usar. Elegamos algunos sintetizadores de la biblioteca SDV y algunos otros para usar como líneas de base.

 # these synthesizers come from the SDV library
# each one uses different modeling techniques
sdv_synthesizers = [ 'GaussianCopulaSynthesizer' , 'CTGANSynthesizer' ]

# these basic synthesizers are available in SDGym
# as baselines
baseline_synthesizers = [ 'UniformSynthesizer' ]

Ahora, podemos comparar las diferentes técnicas:

 import sdgym

sdgym . benchmark_single_table (
    synthesizers = ( sdv_synthesizers + baseline_synthesizers )
)

El resultado es una evaluación detallada de rendimiento, memoria y calidad en los sintetizadores en una variedad de conjuntos de datos disponibles públicamente.

Suministrando un sintetizador personalizado

Bencela sus propias técnicas de generación de datos sintéticos. Defina su sintetizador especificando la lógica de entrenamiento (usando el aprendizaje automático) y la lógica de muestreo.

 def my_training_logic ( data , metadata ):
    # create an object to represent your synthesizer
    # train it using the data
    return synthesizer

def my_sampling_logic ( trained_synthesizer , num_rows ):
    # use the trained synthesizer to create
    # num_rows of synthetic data
    return synthetic_data

Obtenga más información en la Guía de sintetizadores personalizados.

Personalización de sus conjuntos de datos

La biblioteca SDGYM incluye muchos conjuntos de datos disponibles públicamente que puede incluir de inmediato. Enumere estos usando la función get_available_datasets .

 sdgym . get_available_datasets ()

 dataset_name   size_MB     num_tables
KRK_v1         0.072128    1
adult          3.907448    1
alarm          4.520128    1
asia           1.280128    1
...

También puede incluir cualquier conjunto de datos privados personalizados que se almacenen en su computadora en un cubo de Amazon S3.

 my_datasets_folder = 's3://my-datasets-bucket'

Para obtener más información, consulte los documentos de datos personalizados.

¿Qué sigue?

¡Visite la documentación de SDGYM para obtener más información!

El proyecto de bóveda de datos sintéticos se creó por primera vez en los datos del MIT a AI Lab en 2016. Después de 4 años de investigación y tracción con Enterprise, creamos Datacebo en 2020 con el objetivo de hacer crecer el proyecto. Hoy, DataCebo es el orgulloso desarrollador de SDV, el ecosistema más grande para la generación y evaluación de datos sintéticos. Es el hogar de múltiples bibliotecas que admiten datos sintéticos, que incluyen:

Descubrimiento de datos y transformación. Invierta las transformaciones para reproducir datos realistas.
? Múltiples modelos de aprendizaje automático, que van desde cópulas hasta aprendizaje profundo, para crear datos tabulares, de mesa múltiple y series de tiempo.
Medición de la calidad y la privacidad de los datos sintéticos, y comparando diferentes modelos de generación de datos sintéticos.

Comience a usar el paquete SDV: una solución totalmente integrada y su ventanilla única para datos sintéticos. O use las bibliotecas independientes para necesidades específicas.

Expandir

Información adicional

Versión v0.9.1 - 2024-08-29
Tipo Otro código fuente
Fecha de actualización 2025-03-10
tamaño 366.27KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo