
Projet | Papier | Documentation
Gundam est un gestionnaire de données qui utilise des modèles de langage pour gérer efficacement les données textuelles, qui est construite sur Pytorch. Gundam est:
Gundam est un nouveau cadre de gestion des données qui mesure la suffisance et la nécessité de brancher des démonstrations conditionnées aux modèles de langage. Nous montrons que les métriques de suffisance et de nécessité proposées peuvent être exploitées sur les instances de démonstration (c.-à-d. Le niveau d'instance) et les ensembles de démonstration (c.-à-d. Le niveau de définition). Ainsi, l'ensemble de données de plug-in suffisantes et nécessaires, nommées comme un ensemble de plug-in dorées, peut être considérée comme un ensemble de base comprenant les échantillons informatifs. Étant donné que l'énumération et la mesure de tous les sous-ensembles possibles sont irréalisables, nous concevons de nouveaux algorithmes de recherche basés sur des arbres pour exploiter l'ensemble de plug-in Golden. Notez que l'ensemble du plug-in Golden pourrait être pré-rémunéré et stocké pour économiser les coûts de calcul en ligne. À cet égard, les retrievers de démonstration non paramétriques pourraient fonctionner sur l'ensemble de plug-in doré stocké au lieu de l'ensemble du corpus de données, pour éviter de récupérer des démonstrations insuffisantes ou inutiles. De plus, étant donné que de nombreux corpus de données du monde réel continueraient de croître, nous développons un algorithme de mise à jour incrémentiel pour éviter de recueillir Gundam sur toutes les pièces modifiées et inchangées.

L'avantage significatif de Gundam est que Gundam peut être facilement déployé sur n'importe quelle plate-forme de gestion des données existante, car l'idée principale de Gundam est d'attribuer différents niveaux de priorité aux données stockées pour montrer leurs qualités de données concernant le modèle de langage donné.
@software { GUNDAM ,
author = { Jiarui Jin, Yuwei Wu, Mengyue Yang, Xiaoting He, Weinan Zhang, Yiming Yang, Yong Yu, and Jun Wang } ,
title = { GUNDAM: A Data-Centric Manager for Your Plug-in Data with Language Models } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
version = { 0.0 } ,
howpublished = { url{https://github.com/GUNDAM-Labet/GUNDAM} } ,
}Les principaux développeurs du système Gundam sont Jiarui Jin, Yuwei Wu et Mengyue Yang.
Gundam est publié sous la licence Apache, version 2.0.