Baichuan 7B Download - Baichuan 7B Sumber Code Unduh

Baichuan 7B

Kode sumber lainnya

1.0.0

Unduh

Baichuan-7b

?

Bahasa Inggris |

Perbarui informasi

[2023.09.06] Kami telah merilis generasi baru model open source Baichuan 2, termasuk ukuran 7B dan 13B

memperkenalkan

Baichuan-7b adalah open source open yang tersedia secara komersial model bahasa pra-terlatih skala besar yang dikembangkan oleh Baichuan Intelligent. Berdasarkan struktur transformator, model parameter 7 miliar yang dilatih pada sekitar 1,2 triliun token mendukung bilingual bahasa Cina dan Inggris, dan panjang jendela konteksnya adalah 4096. Hasil terbaik dalam ukuran yang sama dicapai pada tolok ukur Cina dan Inggris standar (C-eval/MMLU).

Daftar Benchmark Publik

Ulasan Cina

C-eval

Dataset C-Eval adalah dataset evaluasi model dasar Tiongkok yang komprehensif yang mencakup 52 disiplin ilmu dan empat tingkat kesulitan. Kami menggunakan set dev dari dataset ini sebagai sumber beberapa-shot dan melakukan tes 5-shot pada set tes. Jalankan perintah berikut dengan mengeksekusi:

 cd evaluation
python evaluate_zh.py --model_name_or_path ' your/model/path '

hasil

Model 5-shot	Rata-rata	Rata -rata (keras)	TANGKAI	Ilmu sosial	Sastra	Yang lain
GPT-4	68.7	54.9	67.1	77.6	64.5	67.8
Chatgpt	54.4	41.4	52.9	61.8	50.9	53.6
Claude-V1.3	54.2	39.0	51.9	61.7	52.1	53.7
Claude-Instant-V1.0	45.9	35.5	43.1	53.8	44.2	45.4
Bloomz-7b	35.7	25.8	31.3	43.5	36.6	35.6
Chatglm-6b	34.5	23.1	30.4	39.6	37.4	34.5
Ziya-llama-13b-pretrain	30.2	22.7	27.7	34.4	32.0	28.9
Moss-Moon-003-Base (16B)	27.4	24.5	27.0	29.1	27.2	26.9
Llama-7b-hf	27.1	25.9	27.1	26.8	27.9	26.3
Falcon-7b	25.8	24.3	25.8	26.0	25.8	25.6
Tigerbot-7b-base	25.7	27.0	27.3	24.7	23.4	26.1
Aquila-7b ^*	25.5	25.2	25.6	24.6	25.2	26.6
Open-Llama-V2-Pretrain (7B)	24.0	22.5	23.1	25.3	25.2	23.2
Bloom-7b	22.8	20.2	21.8	23.3	23.9	23.3
Baichuan-7b	42.8	31.5	38.2	52.0	46.2	39.3

Gaokao

Gaokao adalah kumpulan data yang menggunakan pertanyaan ujian masuk perguruan tinggi Cina sebagai kumpulan data untuk mengevaluasi kemampuan model bahasa besar untuk mengevaluasi kemampuan bahasa dan kemampuan penalaran logis model. Kami hanya mempertahankan pertanyaan pilihan tunggal dan melakukan uji 5-shot terpadu pada semua model setelah divisi acak.

hasil

Berikut adalah hasil tes.

Model	Rata-rata
Bloomz-7b	28.72
Llama-7b	27.81
Bloom-7b	26.96
Tigerbot-7b-base	25.94
Falcon-7b	23.98
Ziya-llama-13b-pretrain	23.17
Chatglm-6b	21.41
Open-llama-V2-pretrain	21.41
Aquila-7b ^*	24.39
Baichuan-7b	36.24

Ageval

Ageval bertujuan untuk mengevaluasi kemampuan umum model dalam tugas kognitif dan pemecahan masalah. Kami hanya mempertahankan empat dari mereka dan melakukan tes 5-shot terpadu pada semua model setelah divisi acak.

hasil

Model	Rata-rata
Bloomz-7b	30.27
Llama-7b	28.17
Ziya-llama-13b-pretrain	27.64
Falcon-7b	27.18
Bloom-7b	26.55
Aquila-7b ^*	25.58
Tigerbot-7b-base	25.19
Chatglm-6b	23.49
Open-llama-V2-pretrain	23.49
Baichuan-7b	34.44

^* Model Aquila berasal dari situs web resmi Zhiyuan (https://model.baai.ac.cn/model-detail/100098) hanya untuk referensi referensi

Daftar bahasa Inggris

Selain Cina, Baichuan-7b juga menguji pengaruh model dalam bahasa Inggris. Kami mengadopsi skema evaluasi sumber terbuka, dan hasil 5-shot akhir adalah sebagai berikut:

hasil

Model	Sastra	Ilmu sosial	TANGKAI	Lainnya	Rata-rata
Chatglm-6b ⁰	35.4	41.0	31.3	40.5	36.9
Bloomz-7b ⁰	31.3	42.1	34.4	39.0	36.1
MPT-7B ¹	-	-	-	-	35.6
Llama-7b ²	34.0	38.3	30.5	38.1	35.1
Falcon-7b ¹	-	-	-	-	35.0
Moss-Moon-003-SFT (16B) ⁰	30.5	33.8	29.3	34.4	31.9
Bloom-7b ⁰	25.0	24.4	26.5	26.4	25.5
Moss-moon-003-base (16b) ⁰	24.2	22.8	22.4	24.4	23.6
Baichuan-7b ⁰	38.4	48.9	35.6	48.1	42.3

^{0: Airilahkan}
^{1: https://huggingface.co/spaces/huggingfaceH4/open_llm_leaderboard}
^{2: https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu}

Metode reproduksi

git clone https://github.com/hendrycks/test
cd test
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
mkdir results
cp ../evaluate_mmlu.py .
python evaluate_mmlu.py -m /path/to/Baichuan-7B

Indikator rinci spesifik dari 57 tugas pada MMLU adalah sebagai berikut:

Indikator setiap disiplin adalah sebagai berikut:

Metode penalaran

Kode alasan sudah ada di perpustakaan pelukan resmi

 from transformers import AutoModelForCausalLM , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( "baichuan-inc/Baichuan-7B" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "baichuan-inc/Baichuan-7B" , device_map = "auto" , trust_remote_code = True )
inputs = tokenizer ( '登鹳雀楼->王之涣n夜雨寄北->' , return_tensors = 'pt' )
inputs = inputs . to ( 'cuda:0' )
pred = model . generate ( ** inputs , max_new_tokens = 64 , repetition_penalty = 1.1 )
print ( tokenizer . decode ( pred . cpu ()[ 0 ], skip_special_tokens = True ))

data

Data asli mencakup data open source China dan Inggris dan data internet Cina yang dirangkak sendiri, serta beberapa data pengetahuan berkualitas tinggi.
Saat bekerja dengan mengacu pada data yang relevan, frekuensi dan kualitas adalah dua dimensi yang difokuskan dalam proses pemrosesan data. Kami memfilter bab dan kalimat granularitas dari dataset asli berdasarkan aturan heuristik dan penilaian model kualitas. Pada data lengkap, metode hashing sensitif lokal digunakan untuk menyaring granularitas bab dan kalimat.

Proses keseluruhannya adalah sebagai berikut:

Setelah penyesuaian terus menerus dan beberapa putaran pengujian, rasio Cina-Inggris yang berkinerja terbaik dalam tugas hilir akhirnya dikonfirmasi.
Kami menggunakan strategi pembobotan data berdasarkan pembelajaran otomatis untuk proporsi berbagai kategori data.

Partisip

Kami merujuk pada solusi akademik untuk menggunakan encoding-pair encoding (BPE) dalam kalimat sebagai algoritma segmentasi kata dan melakukan optimasi berikut:

Saat ini, sebagian besar model open source terutama didasarkan pada optimasi bahasa Inggris, jadi ada masalah efisiensi rendah untuk corpus Cina. Kami menggunakan 20 juta model Segmentasi Kata Pelatihan Corpus Multilingual Berbasis Corpus untuk secara signifikan meningkatkan tingkat kompresi untuk orang Cina.
Untuk bidang matematika, kami merujuk pada skema di Llama dan Galactica, memisahkan setiap digit angka secara terpisah untuk menghindari masalah inkonsistensi dalam jumlah, yang penting untuk meningkatkan kemampuan matematika.
Untuk kata-kata langka (seperti simbol khusus, dll.), Pengkodean byte karakter UTF-8 didukung, sehingga liputan penuh dari kata-kata yang tidak diketahui tercapai.
Kami menganalisis rasio kompresi dari berbagai kata partisipan terhadap corpus, seperti yang ditunjukkan pada tabel di bawah ini, yang menunjukkan bahwa kata participle kami secara signifikan lebih baik daripada model open source seperti Llama dan Falcon, dan dibandingkan dengan kata partisipasi kata Cina lainnya, pelatihan dan efisiensi penalaran lebih tinggi daripada partisipasi kata Cina lainnya.

Model	Baichuan-7b	Llama	Elang	MPT-7B	Chatglm	Moss-Moon-003
Laju kompres	0.737	1.312	1.049	1.206	0.631	0.659
Ukuran Vocab	64.000	32.000	65.024	50.254	130.344	106.029

Struktur model

Model keseluruhan didasarkan pada struktur transformator standar, dan kami mengadopsi desain model yang sama dengan llama.

POSISI POSISI: Rotary-Embedding adalah skema pengkodean posisi yang diadopsi oleh sebagian besar model pada tahap ini, dengan efek epitaks yang lebih baik. Meskipun panjang maksimum selama pelatihan adalah 4096, model dapat diperluas dengan baik ke 5000 token dalam pengujian aktual, seperti yang ditunjukkan pada gambar di bawah ini:

Lapisan Aktivasi: Swiglu, Perubahan FeedForward menjadi 8/3 kali ukuran lapisan tersembunyi, mis. 11.008
Lapisan-Normalisasi: Pra-normalisasi berdasarkan RMSNorm

Stabilitas dan throughput pelatihan

Kami membuat banyak modifikasi pada kerangka kerja LLAMA asli untuk meningkatkan throughput selama pelatihan, termasuk:

Teknologi Optimasi Operator: Mengadopsi operator yang lebih efisien, seperti flash-perhatian, nvidia apex rmsnorm, dll.
Teknologi Segmentasi Operator: Segmen bagian dari operator perhitungan untuk mengurangi puncak memori.
Teknologi Akurasi Hibrida: Mengurangi percepatan proses perhitungan tanpa kehilangan akurasi model.
Teknologi Pemulihan Bencana Pelatihan: Optimalisasi Bersama Platform Pelatihan dan Kerangka Pelatihan, IAAS + PaaS menyadari lokasi kesalahan tingkat menit dan pemulihan tugas.
Teknologi Optimalisasi Komunikasi, khususnya termasuk:
1. Algoritma komunikasi ansambel topologi-sadar diadopsi untuk menghindari masalah kemacetan jaringan dan meningkatkan efisiensi komunikasi.
2. Setel ukuran bucket secara adaptif sesuai dengan jumlah kartu untuk meningkatkan pemanfaatan bandwidth.
3. Menurut model dan lingkungan cluster, waktu pemicu primitif komunikasi disetel untuk tumpang tindih perhitungan dan komunikasi.

Berdasarkan teknologi optimasi di atas, kami telah mencapai throughput 7b model 182 TFLOPS pada kartu grafis Kilocard A800, dan tingkat pemanfaatan daya komputasi puncak GPU setinggi 58,3%.

Kerugian akhir adalah seperti yang ditunjukkan di bawah ini:

Metode pelatihan

Ketergantungan Instalasi

pip install -r requirements.txt

Menyiapkan data

Pengguna secara merata membagi korpus pelatihan menjadi beberapa file teks UTF-8 sesuai dengan kelipatan dari jumlah total peringkat dan menempatkannya di direktori corpus (default adalah data_dir ). Setiap proses peringkat akan membaca file yang berbeda di direktori corpus, dan setelah semua memuatnya ke dalam memori, itu akan memulai proses pelatihan berikutnya. Di atas adalah proses demonstrasi yang disederhanakan. Disarankan agar pengguna menyesuaikan logika produksi data sesuai dengan kebutuhan mereka selama tugas pelatihan formal.

Unduh model tokenizer

Unduh file model tokenizer Tokenizer.model dan letakkan di direktori proyek.

Konfigurasikan Deepspeed

Kode demonstrasi ini dilatih menggunakan kerangka kerja Deepspeed. Pengguna perlu memodifikasi config/hostfile sesuai dengan situasi cluster. Untuk detailnya, silakan merujuk pada instruksi Deeppeed resmi.

Melakukan pelatihan

 scripts / train . sh

protokol

Penggunaan kode sumber repositori ini tunduk pada perjanjian lisensi sumber terbuka Apache 2.0.

Baichuan-7b tersedia secara komersial. Jika model Baichuan-7b atau derivatifnya digunakan untuk tujuan komersial, silakan hubungi pemberi lisensi sebagai berikut untuk mendaftar dan mengajukan permohonan otorisasi tertulis dari Lisensi: Hubungi Email: [email protected].

Sumber Daya Pihak Ketiga

Llama Tuning Efisien Mendukung Baichuan-7B untuk Finetune Menggunakan Qlora, Mendukung RLHF, dan Mendukung WebDemo. Lihat Hiyouga/Baichuan-7b-SFT untuk menggunakan model SFT.
Fireballoon/Baichuan-Vicuna-Chinese-7b menggunakan Sharegpt, Sharegpt-Zh, Cot & Cot-ZH, Leetcode, Dummy dan model lainnya untuk memasukkan data Cina dan Inggris, dan merujuk ke Fastchat untuk kode pelatihan.
Fireballoon/Baichuan-Vicuna-7b menggunakan Sharegpt, Cot dan LeetCode dan data lainnya untuk mencampur model Finetune, dan merujuk ke FastChat untuk kode pelatihan.
Efisien-tuning-llms mendukung Baichuan-7B untuk inferensi Finetune dan 4bit menggunakan Qlora.
Fastllm Fastllm adalah implementasi C ++ murni, tanpa ketergantungan pihak ketiga, dan mendukung Baichuan-7b untuk dijalankan di ponsel.
Thebloke/Baichuan-7b-GPTQ Kuantifikasi 4bit dari Baichuan-7b.

Sejarah Bintang

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-05
ukuran 940.56KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua