xgen скачать - загрузка исходного кода xgen

xgen

Другой исходный код

1.0.0

Скачать

XGEN

Официальное исследование выпуск для семейства XGEN MODEL ( 7B ) по Salesforce AI Research:

Название : Моделирование длинной последовательности с XGEN: 7B LLM, обученный по длине входной последовательности 8K

Авторы : erik nijkamp*, tian xie*, hiroaki hayashi*, bo pang*, congying xia*, chen xing, jesse vig, semih yavuz, philippe laban, ben kraus Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong.

(* указывает на равный вклад)

Переписка к: Шафик Рейхан Джоти, Каймминг Синг

Модели

Модельные карты опубликованы в центре Huggingface:

XGEN-7B-4K-база с поддержкой длины 4K-последовательности.
Xgen-7b-8k-база с поддержкой длины последовательности 8K.
XGEN-7B-8K-дюйм с финетом инструкции (только для цели исследования).

Токенизация использует пакет Openai Tiktoken, который может быть установлен через pip :

pip install tiktoken

Модели могут использоваться в качестве авторегрессивных пробоотборников следующим образом:

 import torch
from transformers import AutoTokenizer , AutoModelForCausalLM

tokenizer = AutoTokenizer . from_pretrained ( "Salesforce/xgen-7b-8k-base" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "Salesforce/xgen-7b-8k-base" , torch_dtype = torch . bfloat16 )
inputs = tokenizer ( "The world is" , return_tensors = "pt" )
sample = model . generate ( ** inputs , max_length = 128 )
print ( tokenizer . decode ( sample [ 0 ]))

Цитирование

 @misc { XGen ,
  title = { Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length } ,
  author = { Erik Nijkamp, Tian Xie, Hiroaki Hayashi, Bo Pang, Congying Xia, Chen Xing, Jesse Vig, Semih Yavuz, Philippe Laban, Ben Krause, Senthil Purushwalkam, Tong Niu, Wojciech Kryscinski, Lidiya Murakhovs'ka, Prafulla Kumar Choubey, Alex Fabbri, Ye Liu, Rui Meng, Lifu Tu, Meghana Bhat, Chien-Sheng Wu, Silvio Savarese, Yingbo Zhou, Shafiq Rayhan Joty, Caiming Xiong } ,
  howpublished = { ArXiv } ,
  year = { 2023 } ,
  url = { https://arxiv.org/abs/2309.03450 }
}