加入我们
YData-Synthetic是一个于2020年开发的开源软件包,其主要目标是教育用户有关合成数据生成的模型。它是作为模型集合而设计的,旨在用于探索性研究和教育目的。但是,它没有针对组织通常需要的质量,性能和可伸缩性需求进行优化。
!!!!请注意“更新”,即使旅程很有趣,我们已经从社区中学到了很多,现在是时候升级ydata-synthetic 。朝着综合数据生成的未来发展,我们建议用户过渡到ydata-sdk ,YDATA-SDK提供了优异的体验,具有增强的性能,精度和易用性,使其成为合成数据生成的首选工具,以及对生成AI的完美介绍。
合成数据是人为生成的数据,这些数据未从现实世界中收集。它在不包含任何可识别信息的情况下复制真实数据的统计组成部分,从而确保个人的隐私。
合成数据可用于许多应用程序:
寻找合成数据生成的端到端解决方案吗?
YDATA面料使从数据准备到合成数据生成和评估的完整UI体验中可以生成高质量的数据集。
查看社区版本。
随着即将更新ydata-synthetic对ydata-sdk的更新,用户现在将可以访问单个API,该API自动选择并优化了其数据的最佳生成模型。这种简化的方法无需在各种模型之间进行选择,因为API明智地基于特定数据集和用例智能标识了最佳模型。
而不是必须从诸如:
新的API会自动处理模型选择,以优化为忠诚,实用程序和隐私方面的最佳性能。这大大简化了综合数据生成过程,确保用户在无需手动干预和累人的超参数调整的情况下获得最高质量的输出。
您准备好了解有关合成数据和合成数据生成的最佳实践的更多信息吗?有关使用Python合成数据生成的更多材料,请参阅文档。
最新发布版本的二进制安装程序可在Python软件包索引(PYPI)上找到。
pip install ydata-sdk
YDATA Fabric提供了一个UI接口,可指导您完成步骤和输入以生成结构数据。您可以通过注册社区版本使用YDATA面料进行实验。
在这里,您可以找到包装和模型的示例,以合成表格数据。
以下是一些示例数据集供您尝试合成器:
在下面查找有关如何生成合成数据和可用生成模型的有用文献:
要使用此库中的支持,请加入我们的Discord服务器。我们的Discord社区非常友好,并且很高兴能快速回答有关图书馆使用和开发的问题。单击此处加入我们的Discord社区!
有问题吗?查看有关ydata-synthetic的常见问题。如果您觉得缺少某些东西,请随时与我们预定非正式的聊天。
麻省理工学院许可证