Descarga ydata synthetic - Descargar el código fuente ydata synthetic

ydata synthetic

Pitón

2.0.0

Descargar

Únete a nosotros en

Ydata sintético

YData-Synthetic es un paquete de código abierto desarrollado en 2020 con el objetivo principal de educar a los usuarios sobre modelos generativos para la generación de datos sintéticos. Diseñada como una colección de modelos, estaba destinado a estudios exploratorios y fines educativos. Sin embargo, no estaba optimizado para las necesidades de calidad, rendimiento y escalabilidad que las organizaciones requerían.

! Tenga en cuenta la "actualización" a pesar de que el viaje fue divertido, y hemos aprendido mucho de la comunidad, ahora es el momento de actualizar ydata-synthetic . Dirigiéndose hacia el futuro de la generación de datos sintéticos, recomendamos a los usuarios que hagan la transición a ydata-sdk , que proporciona una experiencia superior con un rendimiento mejorado, precisión y facilidad de uso, lo que la convierte en la herramienta preferida para la generación de datos sintéticos y una introducción perfecta a la IA generativa.

Datos sintéticos

¿Qué son los datos sintéticos?

Los datos sintéticos son datos generados artificialmente que no se recopilan de eventos del mundo real. Replica los componentes estadísticos de los datos reales sin contener ninguna información identificable, asegurando la privacidad de las personas.

¿Por qué datos sintéticos?

Los datos sintéticos se pueden usar para muchas aplicaciones:

Cumplimiento de privacidad para el intercambio de datos y el desarrollo del aprendizaje automático
Eliminar el sesgo
Equilibrar conjuntos de datos
Conjuntos de datos de aumento

¿Busca una solución de extremo a extremo para la generación de datos sintéticos?
YData Fabric permite la generación de conjuntos de datos de alta calidad dentro de una experiencia de interfaz de usuario completa, desde la preparación de datos hasta la generación y evaluación de datos sintéticos.
Mira la versión comunitaria.

ydata-sintético a ydata-sdk

Con la próxima actualización de ydata-synthetic a ydata-sdk , los usuarios ahora tendrán acceso a una única API que selecciona y optimiza automáticamente el mejor modelo generativo para sus datos. Este enfoque optimizado elimina la necesidad de elegir entre varios modelos manualmente, ya que la API identifica de manera inteligente el modelo óptimo basado en el conjunto de datos y el caso de uso específico.

En lugar de tener que seleccionar manualmente de modelos como:

Ganancia
CGAN (GaN condicional)
Wgan (Wasserstein Gan)
WGAN-GP (Wasstein Gan con penalización de gradiente)
Dragan (Gan analítico de arrepentimiento profundo)
Cramer GaN (solución de distancia de Cramer para gradientes sesgados de Wasserstein)
CWGAN-GP (Gan condicional Wasstein con penalización de gradiente)
CTGAN (GaN Tabular condicional)
Timegan (específicamente para datos de series de tiempo )
Doppelganger (específicamente para datos de series de tiempo )

La nueva API maneja la selección del modelo automáticamente, optimizando para el mejor rendimiento en fidelidad, utilidad y privacidad. Esto simplifica significativamente el proceso de generación de datos sintéticos, asegurando que los usuarios obtengan la salida de la más alta calidad sin la necesidad de una intervención manual y un ajuste de hiperparameter de cansancio.

¿Está listo para aprender más sobre los datos sintéticos y las mejores prácticas para la generación de datos sintéticos? Para obtener más materiales sobre la generación de datos sintéticos con Python, consulte la documentación.

Inicio rápido

Los instaladores binarios para la última versión lanzada están disponibles en el Python Package Index (PYPI).

 pip install ydata-sdk

La Guía de UI para la generación de datos sintéticos

YData Fabric ofrece una interfaz de UI para guiarlo a través de los pasos e entradas para generar datos de estructura. Puede experimentar hoy con la tela YData registrando la versión comunitaria.

Ejemplos

Aquí puede encontrar ejemplos de uso del paquete y los modelos para sintetizar datos tabulares.

Generación de datos sintéticos tabulares en el conjunto de datos Titanic Kaggle
Generación de datos sintéticos de series de tiempo
Se agregan continuamente más ejemplos y se pueden encontrar en el directorio de ejemplos.

Conjuntos de datos para que experimente

Aquí hay algunos conjuntos de datos de ejemplo para que lo pruebe con los sintetizadores:

Conjuntos de datos tabulares

Ingresos del censo de adultos
Fraude de tarjetas de crédito
Conjunto de datos de enfermedades cardiovasculares

Conjuntos de datos secuenciales

Datos de stock
Datos de la FCC MBA

Proyecto de recursos

Encuentre a continuación la literatura útil sobre cómo generar datos sintéticos y modelos generativos disponibles:

Datos tabulares

Ganancia
CGAN (GaN condicional)
Wgan (Wasserstein Gan)
WGAN-GP (Wasstein Gan con penalización de gradiente)
Dragan (sobre convergencia y estabilidad de Gans)
Cramer Gan (la distancia del cramer como una solución a los gradientes sesgados de Wasserstein)
CWGAN-GP (Gan condicional Wasstein con penalización de gradiente)
CTGAN (GaN Tabular condicional)
Mezcla gaussiana

Datos secuenciales

Tiempo de tiempo
Doppelganger

Apoyo

Para el soporte en el uso de esta biblioteca, únase a nuestro servidor Discord. Nuestra comunidad de Discord es muy amigable y excelente para responder rápidamente las preguntas sobre el uso y el desarrollo de la biblioteca. ¡Haga clic aquí para unirse a nuestra comunidad de Discord!

Preguntas frecuentes

¿Tienes una pregunta? Echa un vistazo a las preguntas frecuentes sobre ydata-synthetic . Si siente que falta algo, no dude en reservar una charla informal con nosotros.