Download ydata synthetic - ydata synthetic

ydata synthetic

Pitão

2.0.0

Baixar

Junte -se a nós em

Ydata sintético

YData-Synthetic é um pacote de código aberto desenvolvido em 2020, com o objetivo principal de educar os usuários sobre modelos generativos para geração de dados sintéticos. Projetado como uma coleção de modelos, foi destinado a estudos exploratórios e fins educacionais. No entanto, não foi otimizado para as necessidades de qualidade, desempenho e escalabilidade normalmente exigidas pelas organizações.

!!! Observe "Atualização", embora a jornada tenha sido divertida e aprendemos muito com a comunidade, agora é hora de atualizar ydata-synthetic . Em direção ao futuro da geração de dados sintéticos, recomendamos os usuários para fazer a transição para ydata-sdk , que fornece uma experiência superior com desempenho aprimorado, precisão e facilidade de uso, tornando-o a ferramenta preferida para geração de dados sintéticos e uma introdução perfeita à IA generativa.

Dados sintéticos

O que são dados sintéticos?

Os dados sintéticos são dados gerados artificialmente que não são coletados dos eventos do mundo real. Ele replica os componentes estatísticos dos dados reais sem conter nenhuma informação identificável, garantindo a privacidade dos indivíduos.

Por que dados sintéticos?

Os dados sintéticos podem ser usados para muitos aplicativos:

Conformidade de privacidade para compartilhamento de dados e desenvolvimento de aprendizado de máquina
Remova o viés
Balance DataSets
Aumentar conjuntos de dados

Procurando uma solução de ponta a ponta para a geração de dados sintéticos?
O tecido YDATA permite a geração de conjuntos de dados de alta qualidade dentro de uma experiência completa da interface do usuário, desde a preparação de dados até a geração e avaliação de dados sintéticos.
Confira a versão da comunidade.

ydata sintético para ydata-sdk

Com a próxima atualização do ydata-synthetic para ydata-sdk , os usuários agora terão acesso a uma única API que seleciona e otimiza automaticamente o melhor modelo generativo para seus dados. Essa abordagem simplificada elimina a necessidade de escolher entre vários modelos manualmente, pois a API identifica inteligentemente o modelo ideal com base no conjunto de dados específico e no caso de uso.

Em vez de ter que selecionar manualmente os modelos como:

Gan
CGAN (GaN condicional)
WGAN (Wasserstein Gan)
WGAN-GP (Wassertein Gan com penalidade de gradiente)
Dragan (profundo arrependimento GaN analítico)
Cramer Gan (solução de distância de Cramer para gradientes tendenciosos de Wasserstein)
CWGAN-GP (condicional Wassertein Gan com pênalti de gradiente)
CTGAN (Gane de tabular condicional)
Timegan (especificamente para dados de séries temporais )
Doppelganger (especificamente para dados de séries temporais )

A nova API lida com a seleção do modelo automaticamente, otimizando o melhor desempenho em fidelidade, utilidade e privacidade. Isso simplifica significativamente o processo de geração de dados sintéticos, garantindo que os usuários obtenham a saída da mais alta qualidade sem a necessidade de intervenção manual e ajuste cansativo de hiperparâmetro.

Você está pronto para aprender mais sobre dados sintéticos e as melhores práticas para geração de dados sintéticos? Para mais materiais sobre geração de dados sintéticos com Python, consulte a documentação.

Investir rápido

Os instaladores binários da versão mais recente lançados estão disponíveis no Python Package Index (Pypi).

 pip install ydata-sdk

O guia da interface do usuário para geração de dados sintéticos

O YDATA Fabric oferece uma interface da interface do usuário para guiá -lo através das etapas e entradas para gerar dados de estrutura. Você pode experimentar hoje o tecido YDATA registrando a versão da comunidade.

Exemplos

Aqui você pode encontrar exemplos de uso do pacote e dos modelos para sintetizar dados tabulares.

Geração de dados sintéticos tabulares no conjunto de dados do Titanic Kaggle
Geração de dados sintéticos da série temporal
Mais exemplos são adicionados continuamente e podem ser encontrados no diretório de exemplos.

Conjuntos de dados para você experimentar

Aqui estão alguns conjuntos de dados de exemplo para você tentar com os sintetizadores:

Conjuntos de dados tabulares

Renda do censo de adultos
Fraude do cartão de crédito
Conjunto de dados de doenças cardiovasculares

Conjuntos de dados seqüenciais

Dados de estoque
Dados da FCC MBA

Recursos do projeto

Encontre abaixo a literatura útil de como gerar dados sintéticos e modelos generativos disponíveis:

Dados tabulares

Gan
CGAN (GaN condicional)
WGAN (Wasserstein Gan)
WGAN-GP (Wassertein Gan com penalidade de gradiente)
Dragan (em convergência e estabilidade de Gans)
Cramer Gan (a distância do Cramer como uma solução para os gradientes tendenciosos de Wasserstein)
CWGAN-GP (condicional Wassertein Gan com pênalti de gradiente)
CTGAN (Gane de tabular condicional)
Mistura gaussiana

Dados seqüenciais

Timegan
Doppelganger

Apoiar

Para obter suporte no uso desta biblioteca, junte -se ao nosso servidor Discord. Nossa comunidade Discord é muito amigável e ótima em responder rapidamente a perguntas sobre o uso e o desenvolvimento da biblioteca. Clique aqui para se juntar à nossa comunidade Discord!

Perguntas frequentes

Tem uma pergunta? Confira as perguntas frequentes sobre ydata-synthetic . Se você sente que algo está faltando, fique à vontade para reservar uma conversa informal de Beary conosco.