Baichuan 7B下載-Baichuan Baichuan 7B源代碼下載

Baichuan 7B

其他源碼

1.0.0

下載

Baichuan-7B

? Hugging Face • ? ModelScope • WeChat

中文| English

更新信息

[2023.09.06] 我們發布了新一代開源模型Baichuan 2，包含7B、13B 尺寸

介紹

Baichuan-7B 是由百川智能開發的一個開源可商用的大規模預訓練語言模型。基於Transformer 結構，在大約1.2 萬億tokens 上訓練的70 億參數模型，支持中英雙語，上下文窗口長度為4096。在標準的中文和英文benchmark（C-Eval/MMLU）上均取得同尺寸最好的效果。

公開benchmark榜單

中文評測

C-Eval

C-Eval 數據集是一個全面的中文基礎模型評測數據集，涵蓋了52 個學科和四個難度的級別。我們使用該數據集的dev 集作為few-shot 的來源，在test 集上進行了5-shot測試。通過執行執行下面的命令：

 cd evaluation
python evaluate_zh.py --model_name_or_path ' your/model/path '

結果

Model 5-shot	Average	Avg(Hard)	STEM	Social Sciences	Humanities	Others
GPT-4	68.7	54.9	67.1	77.6	64.5	67.8
ChatGPT	54.4	41.4	52.9	61.8	50.9	53.6
Claude-v1.3	54.2	39.0	51.9	61.7	52.1	53.7
Claude-instant-v1.0	45.9	35.5	43.1	53.8	44.2	45.4
BLOOMZ-7B	35.7	25.8	31.3	43.5	36.6	35.6
ChatGLM-6B	34.5	23.1	30.4	39.6	37.4	34.5
Ziya-LLaMA-13B-pretrain	30.2	22.7	27.7	34.4	32.0	28.9
moss-moon-003-base (16B)	27.4	24.5	27.0	29.1	27.2	26.9
LLaMA-7B-hf	27.1	25.9	27.1	26.8	27.9	26.3
Falcon-7B	25.8	24.3	25.8	26.0	25.8	25.6
TigerBot-7B-base	25.7	27.0	27.3	24.7	23.4	26.1
Aquila-7B ^*	25.5	25.2	25.6	24.6	25.2	26.6
Open-LLaMA-v2-pretrain (7B)	24.0	22.5	23.1	25.3	25.2	23.2
BLOOM-7B	22.8	20.2	21.8	23.3	23.9	23.3
Baichuan-7B	42.8	31.5	38.2	52.0	46.2	39.3

Gaokao

Gaokao 是一個以中國高考題作為評測大語言模型能力的數據集，用以評估模型的語言能力和邏輯推理能力。我們只保留了其中的單項選擇題，隨機劃分後對所有模型進行統一5-shot測試。

結果

以下是測試的結果。

Model	Average
BLOOMZ-7B	28.72
LLaMA-7B	27.81
BLOOM-7B	26.96
TigerBot-7B-base	25.94
Falcon-7B	23.98
Ziya-LLaMA-13B-pretrain	23.17
ChatGLM-6B	21.41
Open-LLaMA-v2-pretrain	21.41
Aquila-7B ^*	24.39
Baichuan-7B	36.24

AGIEval

AGIEval 旨在評估模型的認知和解決問題相關的任務中的一般能力。我們只保留了其中的四選一單項選擇題，隨機劃分後對所有模型進行了統一5-shot測試。

結果

Model	Average
BLOOMZ-7B	30.27
LLaMA-7B	28.17
Ziya-LLaMA-13B-pretrain	27.64
Falcon-7B	27.18
BLOOM-7B	26.55
Aquila-7B ^*	25.58
TigerBot-7B-base	25.19
ChatGLM-6B	23.49
Open-LLaMA-v2-pretrain	23.49
Baichuan-7B	34.44

^*其中Aquila 模型來源於智源官方網站(https://model.baai.ac.cn/model-detail/100098) 僅做參考

英文榜單

除了中文之外，Baichuan-7B也測試了模型在英文上的效果，MMLU 是包含57 個多選任務的英文評測數據集，涵蓋了初等數學、美國歷史、計算機科學、法律等，難度覆蓋高中水平到專家水平，是目前主流的LLM評測數據集。我們採用了開源的評測方案，最終5-shot結果如下所示：

結果

Model	Humanities	Social Sciences	STEM	Other	Average
ChatGLM-6B ⁰	35.4	41.0	31.3	40.5	36.9
BLOOMZ-7B ⁰	31.3	42.1	34.4	39.0	36.1
mpt-7B ¹	-	-	-	-	35.6
LLaMA-7B ²	34.0	38.3	30.5	38.1	35.1
Falcon-7B ¹	-	-	-	-	35.0
moss-moon-003-sft (16B) ⁰	30.5	33.8	29.3	34.4	31.9
BLOOM-7B ⁰	25.0	24.4	26.5	26.4	25.5
moss-moon-003-base (16B) ⁰	24.2	22.8	22.4	24.4	23.6
Baichuan-7B ⁰	38.4	48.9	35.6	48.1	42.3

^{0: 重新復現}
^{1: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard}
^{2: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu}

復現方法

git clone https://github.com/hendrycks/test
cd test
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
mkdir results
cp ../evaluate_mmlu.py .
python evaluate_mmlu.py -m /path/to/Baichuan-7B

其中在MMLU 上57個任務的具體細指標如下圖：

其中各個學科的指標如下圖：

推理方法

推理代碼已經在官方Huggingface 庫

 from transformers import AutoModelForCausalLM , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( "baichuan-inc/Baichuan-7B" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "baichuan-inc/Baichuan-7B" , device_map = "auto" , trust_remote_code = True )
inputs = tokenizer ( '登鹳雀楼->王之涣n夜雨寄北->' , return_tensors = 'pt' )
inputs = inputs . to ( 'cuda:0' )
pred = model . generate ( ** inputs , max_new_tokens = 64 , repetition_penalty = 1.1 )
print ( tokenizer . decode ( pred . cpu ()[ 0 ], skip_special_tokens = True ))

數據

原始數據包括開源的中英文數據和自行抓取的中文互聯網數據，以及部分高質量知識性數據。
參考相關數據工作，頻率和質量是數據處理環節重點考慮的兩個維度。我們基於啟發式規則和質量模型打分，對原始數據集進行篇章和句子粒度的過濾。在全量數據上，利用局部敏感哈希方法，對篇章和句子粒度做濾重。

整體流程如下所示：

經過不斷的調整和多輪測試，最終確認了一個在下游任務上表現最好的中英文配比。
我們使用了一個基於自動學習的數據權重策略，對不同類別的數據進行配比。

分詞

我們參考學術界方案使用SentencePiece 中的Byte-Pair Encoding (BPE) 作為分詞算法，並且進行了以下的優化：

目前大部分開源模型主要基於英文優化，因此對中文語料存在效率較低的問題。我們使用2000 萬條以中英為主的多語言語料訓練分詞模型，顯著提升對於中文的壓縮率。
對於數學領域，我們參考了LLaMA 和Galactica 中的方案，對數字的每一位單獨分開，避免出現數字不一致的問題，對於提升數學能力有重要幫助。
對於罕見字詞（如特殊符號等），支持UTF-8 characters 的byte 編碼，因此做到未知字詞的全覆蓋。
我們分析了不同分詞器對語料的壓縮率，如下表，可見我們的分詞器明顯優於LLaMA, Falcon 等開源模型，並且對比其他中文分詞器在壓縮率相當的情況下，訓練和推理效率更高。

Model	Baichuan-7B	LLaMA	Falcon	mpt-7B	ChatGLM	moss-moon-003
Compress Rate	0.737	1.312	1.049	1.206	0.631	0.659
Vocab Size	64,000	32,000	65,024	50,254	130,344	106,029

模型結構

整體模型基於標準的Transformer 結構，我們採用了和LLaMA 一樣的模型設計

位置編碼：rotary-embedding 是現階段被大多模型採用的位置編碼方案，具有更好的外延效果。雖然訓練過程中最大長度為4096，但是實際測試中模型可以很好的擴展到5000 tokens 以上，如下圖：

激活層：SwiGLU, Feedforward 變化為8/3 倍的隱含層大小，即11,008
Layer-Normalization: 基於RMSNorm 的Pre-Normalization

訓練穩定性和吞吐

我們在原本的LLaMA 框架上進行諸多修改以提升訓練時的吞吐，具體包括：

算子優化技術：採用更高效算子，如Flash-Attention，NVIDIA apex 的RMSNorm 等。
算子切分技術：將部分計算算子進行切分，減小內存峰值。
混合精度技術：降低在不損失模型精度的情況下加速計算過程。
訓練容災技術：訓練平台和訓練框架聯合優化，IaaS + PaaS 實現分鐘級的故障定位和任務恢復。
通信優化技術，具體包括：
1. 採用拓撲感知的集合通信算法，避免網絡擁塞問題，提高通信效率。
2. 根據卡數自適應設置bucket size，提高帶寬利用率。
3. 根據模型和集群環境，調優通信原語的觸發時機，從而將計算和通信重疊。

基於上述的幾個優化技術，我們在千卡A800 顯卡上達到了7B 模型182 TFLOPS 的吞吐，GPU 峰值算力利用率高達58.3%。

最終的loss如下圖：

訓練方法

安裝依賴

pip install -r requirements.txt

準備數據

用戶將訓練語料按總rank數的倍數均勻切分成多個UTF-8 文本文件，放置在語料目錄（默認為data_dir ）下。各個rank進程將會讀取語料目錄下的不同文件，全部加載到內存後，開始後續訓練過程。以上是簡化的示範流程，建議用戶在正式訓練任務中，根據需求調整數據生產邏輯。

下載tokenizer 模型

下載tokenizer 模型文件tokenizer.model ，放置在項目目錄下。

配置DeepSpeed

本示范代碼採用DeepSpeed 框架進行訓練。用戶需根據集群情況，修改config/hostfile ，如果是多機多卡，需要修改ssh 中各個節點的IP 配置。具體可以參見DeepSpeed 官方說明。

執行訓練

 scripts / train . sh

協定

對本倉庫源碼的使用遵循開源許可協議Apache 2.0。

Baichuan-7B 支持商用。如果將Baichuan-7B 模型或其衍生品用作商業用途，請您按照如下方式聯繫許可方，以進行登記並向許可方申請書面授權：聯繫郵箱：[email protected]，具體許可協議可見《Baichuan-7B 模型許可協議》。

Third-Party Resources

LLaMA Efficient Tuning 支持Baichuan-7B使用Qlora進行Finetune，支持RLHF，支持WebDemo。使用經過sft的模型見hiyouga/baichuan-7b-sft。
fireballoon/baichuan-vicuna-chinese-7b 使用ShareGPT, ShareGPT-ZH, COT & COT-ZH, Leetcode, dummy等包含中英文的數據Finetune後的模型，訓練代碼參考FastChat。
fireballoon/baichuan-vicuna-7b 使用ShareGPT, COT 和Leetcode等數據混合Finetune後的模型，訓練代碼參考FastChat。
Efficient-Tuning-LLMs 支持Baichuan-7B使用Qlora進行Finetune和4bit inference。
fastllm fastllm是純c++實現，無第三方依賴的大模型庫，支持Baichuan-7B在手機端運行。
TheBloke/baichuan-7B-GPTQ 對Baichuan-7B的GPTQ 4bit量化。

Star History

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-03-05
大小 940.56KB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部