Lançamento oficial de pesquisa para a família de modelos XGEN ( 7B ) pela Salesforce AI Research:
Título : Modelagem de sequência longa com XGEN: A 7B LLM treinado em comprimento de sequência de entrada de 8k
Autores : Erik Nijkamp*, Tian Xie*, Hiroaki Hayashi*, Bo Pang*, Congying Xia*, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciach Krause, lidcinskin, lidwalkam, tong niu, Wojciaquka Krause, lidcinskin, lidwalkam, tong niu, wojciaquka kruse, lidcinskin, lidwalkam, tong niu, wojciaquka kruse, lidcinskin, lidwalkam, tong niu, wojciach krusecinski, lidwalkam, tong niu, wojciach krusescinskia Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong.
(* indica contribuição igual)
Correspondência para: Shafiq Rayhan Joty, Caiming Xiong
Os cartões de modelo são publicados no Hubgingface Hub:
A tokenização usa o pacote Openai Tiktoken, que pode ser instalado via pip :
pip install tiktokenOs modelos podem ser usados como amostradores auto-regressivos da seguinte forma:
import torch
from transformers import AutoTokenizer , AutoModelForCausalLM
tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/xgen-7b-8k-base" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "Salesforce/xgen-7b-8k-base" , torch_dtype = torch . bfloat16 )
inputs = tokenizer ( "The world is" , return_tensors = "pt" )
sample = model . generate ( ** inputs , max_length = 128 )
print ( tokenizer . decode ( sample [ 0 ])) @misc { XGen ,
title = { Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length } ,
author = { Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong } ,
howpublished = { ArXiv } ,
year = { 2023 } ,
url = { https://arxiv.org/abs/2309.03450 }
}