GUNDAM
1.0.0

項目|紙|文檔
Gundam是一個數據管理器,它利用語言模型有效地處理基於Pytorch的文本數據。 Gundam是:
Gundam是一個新穎的數據管理框架,可衡量以語言模型為條件的插入演示的充分性和必要性。我們表明,提出的充分性和必要指標可以在演示實例(即實例級別)和演示集(即設置級別)上進行操作。因此,一組足夠和必要的插件數據(稱為金插件集)可以被視為包括信息示例的核心集。由於列舉和測量所有可能的子集是不可行的,因此我們設計了新的基於樹的搜索算法來開採Golden插件集。請注意,可以預先計算金插件集,並存儲以節省在線計算成本。在這方面,非參數演示檢索器可以在存儲的金色插件集而不是整個數據語料庫上執行,以避免檢索不足或不必要的演示。此外,考慮到許多現實世界數據語料庫會不斷增長,我們會開發一種增量更新算法,以避免在所有更改和未改變的部分中重新計算Gundam。

Gundam的重要優點是,Gundam可以輕鬆地部署在任何現有的數據管理平台上,因為Gundam的核心思想是將不同的優先級級別分配給存儲的數據,以顯示其有關給定語言模型的數據質量。
@software { GUNDAM ,
author = { Jiarui Jin, Yuwei Wu, Mengyue Yang, Xiaoting He, Weinan Zhang, Yiming Yang, Yong Yu, and Jun Wang } ,
title = { GUNDAM: A Data-Centric Manager for Your Plug-in Data with Language Models } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
version = { 0.0 } ,
howpublished = { url{https://github.com/GUNDAM-Labet/GUNDAM} } ,
}Gundam系統的核心開發商是Jiarui Jin,Yuwei Wu和Mengyue Yang。
Gundam以Apache許可證為2.0版。