الإصدار البحثي الرسمي لعائلة نماذج XGEN ( 7B ) من قبل Salesforce AI Research:
العنوان : نمذجة تسلسل طويلة مع XGen: A 7B LLM تم تدريبه على طول تسلسل إدخال 8K
المؤلفون : Erik Nijkamp*، Tian Xie*، Hiroaki Hayashi*، Bo Pang*، Congying Xia*، Chen Xing ، Jesse Vig ، Semih Yavuz ، Philippe Laban ، Ben Krausl ، Senthil Purushwalkam ، Tong Niu ، Wojciech Kryscinski ، Choubey ، Alex Fabbri ، Ye Liu ، Rui Meng ، Lifu Tu ، Meghana Bhat ، Chien-Sheng Wu ، Silvio Savarese ، Yingbo Zhou ، Shafiq Rayhan Joty ، Caiming Xiong.
(* يشير إلى مساهمة متساوية)
المراسلات إلى: Shafiq Rayhan Joty ، Caiming Xiong
يتم نشر بطاقات النماذج على Huggingface Hub:
يستخدم الرمز المميز حزمة Openai Tiktoken ، والتي يمكن تثبيتها عبر pip :
pip install tiktokenيمكن استخدام النماذج كأخذ العينات التلقائية للعبور على النحو التالي:
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/xgen-7b-8k-base" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "Salesforce/xgen-7b-8k-base" , torch_dtype = torch . bfloat16 )
inputs = tokenizer ( "The world is" , return_tensors = "pt" )
sample = model . generate ( ** inputs , max_length = 128 )
print ( tokenizer . decode ( sample [ 0 ])) @misc { XGen ,
title = { Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length } ,
author = { Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong } ,
howpublished = { ArXiv } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2309.03450 }
}