xgen
1.0.0
การวิจัยอย่างเป็นทางการสำหรับ Family of Xgen Models ( 7B ) โดย Salesforce AI Research:
ชื่อเรื่อง : การสร้างแบบจำลองลำดับยาวด้วย XGEN: A 7B LLM ได้รับการฝึกฝนบนความยาวลำดับอินพุต 8K
ผู้เขียน : Erik Nijkamp*, Tian Xie*, Hiroaki Hayashi*, Bo Pang*, Congying Xia*, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong
(* หมายถึงการมีส่วนร่วมที่เท่าเทียมกัน)
การติดต่อกับ: Shafiq Rayhan Joty, Caiming Xiong
การ์ดรุ่นถูกเผยแพร่บน HuggingFace Hub:
Tokenization ใช้แพ็คเกจ Openai Tiktoken ซึ่งสามารถติดตั้งได้ผ่าน pip :
pip install tiktokenโมเดลสามารถใช้เป็นตัวอย่างที่เกิดขึ้นได้โดยอัตโนมัติดังนี้:
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/xgen-7b-8k-base" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "Salesforce/xgen-7b-8k-base" , torch_dtype = torch . bfloat16 )
inputs = tokenizer ( "The world is" , return_tensors = "pt" )
sample = model . generate ( ** inputs , max_length = 128 )
print ( tokenizer . decode ( sample [ 0 ])) @misc { XGen ,
title = { Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length } ,
author = { Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong } ,
howpublished = { ArXiv } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2309.03450 }
}