GUNDAM
1.0.0

项目|纸|文档
Gundam是一个数据管理器,它利用语言模型有效地处理基于Pytorch的文本数据。 Gundam是:
Gundam是一个新颖的数据管理框架,可衡量以语言模型为条件的插入演示的充分性和必要性。我们表明,提出的充分性和必要指标可以在演示实例(即实例级别)和演示集(即设置级别)上进行操作。因此,一组足够和必要的插件数据(称为金插件集)可以被视为包括信息示例的核心集。由于列举和测量所有可能的子集是不可行的,因此我们设计了新的基于树的搜索算法来开采Golden插件集。请注意,可以预先计算金插件集,并存储以节省在线计算成本。在这方面,非参数演示检索器可以在存储的金色插件集而不是整个数据语料库上执行,以避免检索不足或不必要的演示。此外,考虑到许多现实世界数据语料库会不断增长,我们会开发一种增量更新算法,以避免在所有更改和未改变的部分中重新计算Gundam。

Gundam的重要优点是,Gundam可以轻松地部署在任何现有的数据管理平台上,因为Gundam的核心思想是将不同的优先级级别分配给存储的数据,以显示其有关给定语言模型的数据质量。
@software { GUNDAM ,
author = { Jiarui Jin, Yuwei Wu, Mengyue Yang, Xiaoting He, Weinan Zhang, Yiming Yang, Yong Yu, and Jun Wang } ,
title = { GUNDAM: A Data-Centric Manager for Your Plug-in Data with Language Models } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
version = { 0.0 } ,
howpublished = { url{https://github.com/GUNDAM-Labet/GUNDAM} } ,
}Gundam系统的核心开发商是Jiarui Jin,Yuwei Wu和Mengyue Yang。
Gundam以Apache许可证为2.0版。