
프로젝트 | 종이 | 선적 서류 비치
Gundam은 언어 모델을 사용하여 Pytorch에 구축 된 텍스트 데이터를 효율적으로 처리하는 데이터 관리자입니다. Gundam은 다음과 같습니다.
Gundam은 언어 모델에 조절 된 데그 인 데모의 충분 성과 필요성을 측정하는 새로운 데이터 관리 프레임 워크입니다. 우리는 제안 된 충분 성과 필요성 메트릭이 데모 인스턴스 (즉, 인스턴스 레벨)와 데모 세트 (즉, 세트 레벨) 모두에서 작동 할 수 있음을 보여줍니다. 따라서 골든 플러그인 세트로 명명 된 충분하고 필요한 플러그인 데이터 세트는 유익한 샘플을 포함한 핵심 세트로 간주 될 수 있습니다. 가능한 모든 서브 세트를 열거하고 측정하는 것은 불가능하기 때문에 Golden 플러그인 세트를 채굴하기 위해 새로운 트리 기반 검색 알고리즘을 설계합니다. Golden Plug-In 세트는 온라인 계산 비용을 절약하기 위해 사전 계산 및 저장 될 수 있습니다. 이와 관련하여, 비모수 적 데모 리트리버는 전체 데이터 코퍼스 대신 저장된 골든 플러그인 세트에서 수행 할 수있어 불충분하거나 불필요한 데모를 검색하지 않도록 할 수 있습니다. 또한, 많은 실제 데이터 코퍼스가 계속 성장할 것이라는 점을 고려할 때, 우리는 변경된 모든 및 변경되지 않은 부품에 대해 Gundam을 다시 컴퓨팅하는 것을 피하기 위해 증분 업데이트 알고리즘을 개발합니다.

Gundam의 중요한 장점은 Gundam의 핵심 아이디어는 주어진 언어 모델과 관련하여 데이터 품질을 보여주기 위해 저장된 데이터에 다른 우선 순위 레벨을 할당하는 것이기 때문에 Gundam을 기존 데이터 관리 플랫폼에 쉽게 배포 할 수 있다는 것입니다.
@software { GUNDAM ,
author = { Jiarui Jin, Yuwei Wu, Mengyue Yang, Xiaoting He, Weinan Zhang, Yiming Yang, Yong Yu, and Jun Wang } ,
title = { GUNDAM: A Data-Centric Manager for Your Plug-in Data with Language Models } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
version = { 0.0 } ,
howpublished = { url{https://github.com/GUNDAM-Labet/GUNDAM} } ,
}건담 시스템의 핵심 개발자는 Jiarui Jin, Yuwei Wu 및 Mengyue Yang입니다.
건담은 Apache 라이센스, 버전 2.0에 따라 릴리스됩니다.