Baichuan 7B Download - Baichuan 7B Quellcode Download

Baichuan 7B

Anderer Quellcode

1.0.0

Herunterladen

Baichuan-7b

?

Chinesisch |

Informationen aktualisieren

[2023.09.06] Wir haben eine neue Generation von Open -Source -Modell Baichuan 2 veröffentlicht, einschließlich 7B- und 13B -Größen

einführen

Baichuan-7b ist ein im Handel erhältlicher Open-Source-Modell, das von Baichuan Intelligent entwickelt wurde. Basierend auf der Transformatorstruktur unterstützt das 7 -Milliarden -Parametermodell, das auf ungefähr 1,2 Billionen Token ausgebildet ist, die zweisprachigen chinesischen und englischen und die Kontextfensterlänge 4096. Die besten Ergebnisse in der gleichen Größe werden sowohl für die chinesische als auch für englische Benchmark (C-Eval/MMLU) erzielt.

Öffentliche Benchmark -Liste

Chinesische Bewertung

C-Eval

Der C-Eval-Datensatz ist ein umfassender Datensatz für chinesische Basismodellbewertungen, der 52 Disziplinen und vier Schwierigkeitsgrade abdeckt. Wir haben den Dev-Set dieses Datensatzes als Quelle für wenige Schüsse verwendet und einen 5-shot -Test für den Testsatz durchgeführt. Führen Sie den folgenden Befehl durch Ausführung aus:

 cd evaluation
python evaluate_zh.py --model_name_or_path ' your/model/path '

Ergebnis

Modell 5-Shot	Durchschnitt	Avg (hart)	STÄNGEL	Sozialwissenschaften	Geisteswissenschaften	Andere
GPT-4	68,7	54.9	67.1	77,6	64,5	67,8
Chatgpt	54.4	41,4	52.9	61,8	50.9	53.6
Claude-V1.3	54.2	39.0	51.9	61.7	52.1	53.7
Claude-Instant-V1.0	45,9	35.5	43.1	53,8	44,2	45,4
Bloomz-7b	35.7	25.8	31.3	43,5	36.6	35.6
Chatglm-6b	34.5	23.1	30.4	39.6	37,4	34.5
Ziya-LLLAMA-13B-Vorstrain	30.2	22.7	27.7	34.4	32.0	28.9
Moos-Moon-003-Base (16b)	27.4	24.5	27.0	29.1	27.2	26.9
LAMA-7B-HF	27.1	25.9	27.1	26.8	27.9	26.3
Falcon-7b	25.8	24.3	25.8	26.0	25.8	25.6
Tigerbot-7b-Base	25.7	27.0	27.3	24.7	23.4	26.1
Aquila-7b ^*	25,5	25.2	25.6	24.6	25.2	26.6
Open-LLAMA-V2-Vorstrain (7B)	24.0	22.5	23.1	25.3	25.2	23.2
Bloom-7b	22.8	20.2	21.8	23.3	23.9	23.3
Baichuan-7b	42,8	31.5	38.2	52.0	46,2	39.3

Gaokao

Gaokao ist ein Datensatz, der Fragen zur Prüfung der chinesischen Hochschulen als Datensatz verwendet, um die Fähigkeit großer Sprachmodelle zu bewerten, die Sprachfähigkeit und die logische Argumentationsfähigkeit des Modells zu bewerten. Wir behielten nur die Fragen der Einzelauswahl bei und führten nach der zufälligen Aufteilung einen einheitlichen 5-shot -Test für alle Modelle durch.

Ergebnis

Hier sind die Ergebnisse des Tests.

Modell	Durchschnitt
Bloomz-7b	28.72
Lama-7b	27.81
Bloom-7b	26.96
Tigerbot-7b-Base	25.94
Falcon-7b	23.98
Ziya-LLLAMA-13B-Vorstrain	23.17
Chatglm-6b	21.41
Open-LLAMA-V2-Vorstrain	21.41
Aquila-7b ^*	24.39
Baichuan-7b	36.24

Agieval

Agieval zielt darauf ab, die allgemeinen Fähigkeiten des Modells bei kognitiven und Problemlösungsaufgaben zu bewerten. Wir haben nur vier davon beibehalten und nach der zufälligen Division einen einheitlichen 5-shot -Test für alle Modelle durchgeführt.

Ergebnis

Modell	Durchschnitt
Bloomz-7b	30.27
Lama-7b	28.17
Ziya-LLLAMA-13B-Vorstrain	27.64
Falcon-7b	27.18
Bloom-7b	26.55
Aquila-7b ^*	25.58
Tigerbot-7b-Base	25.19
Chatglm-6b	23.49
Open-LLAMA-V2-Vorstrain	23.49
Baichuan-7b	34.44

^* Das Aquila-Modell stammt von der offiziellen Website von Zhiyuan (https://model.baai.ac.cn/model-detail/100098) nur als Referenz

Englische Liste

Zusätzlich zu Chinesen hat Baichuan-7b die Wirkung des Modells in englischer Sprache getestet. Wir haben ein Open-Source-Bewertungsschema übernommen, und die endgültigen 5-shot -Ergebnisse sind wie folgt:

Ergebnis

Modell	Geisteswissenschaften	Sozialwissenschaften	STÄNGEL	Andere	Durchschnitt
Chatglm-6b ⁰	35.4	41.0	31.3	40.5	36.9
Bloomz-7b ⁰	31.3	42.1	34.4	39.0	36.1
MPT-7B ¹	- -	- -	- -	- -	35.6
Lama-7b ²	34.0	38.3	30,5	38.1	35.1
Falcon-7b ¹	- -	- -	- -	- -	35.0
Moss-moon-003-sft (16b) ⁰	30,5	33.8	29.3	34.4	31.9
Bloom-7b ⁰	25.0	24.4	26,5	26.4	25,5
Moss-Moon-003-Base (16B) ⁰	24.2	22.8	22.4	24.4	23.6
Baichuan-7b ⁰	38,4	48,9	35.6	48.1	42.3

^{0: Wieder auftauchen}
^{1: https://huggingface.co/spaces/huggingfaceH4/open_llm_leaderboard}
^{2: https://paperswithcode.com/sota/multi-task-language-verstand-on-mmlu}

Reproduktionsmethode

git clone https://github.com/hendrycks/test
cd test
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
mkdir results
cp ../evaluate_mmlu.py .
python evaluate_mmlu.py -m /path/to/Baichuan-7B

Die spezifischen detaillierten Indikatoren der 57 Aufgaben auf MMLU sind wie folgt:

Die Indikatoren für jede Disziplin sind wie folgt:

Argumentationsmethoden

Der Argumentationscode befindet sich bereits in der offiziellen Umarmungsbibliothek

 from transformers import AutoModelForCausalLM , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( "baichuan-inc/Baichuan-7B" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "baichuan-inc/Baichuan-7B" , device_map = "auto" , trust_remote_code = True )
inputs = tokenizer ( '登鹳雀楼->王之涣n夜雨寄北->' , return_tensors = 'pt' )
inputs = inputs . to ( 'cuda:0' )
pred = model . generate ( ** inputs , max_new_tokens = 64 , repetition_penalty = 1.1 )
print ( tokenizer . decode ( pred . cpu ()[ 0 ], skip_special_tokens = True ))

Daten

Die ursprünglichen Daten umfassen chinesische und englische Open-Source-Daten und selbsternte chinesische Internetdaten sowie einige qualitativ hochwertige Wissensdaten.
Bei der Arbeit mit Bezug auf relevante Daten sind Häufigkeit und Qualität zwei Dimensionen, auf die sich im Datenverarbeitungsprozess konzentrieren. Wir filtern das Kapitel und die Satzgranularität des ursprünglichen Datensatzes basierend auf heuristischen Regeln und Qualitätsmodellbewertungen. Bei den vollständigen Daten wird die lokale sensible Hashing -Methode verwendet, um die Granularität des Kapitels und der Sätze zu filtern.

Der Gesamtprozess ist wie folgt:

Nach kontinuierlichen Anpassungen und mehreren Testrunden wurde schließlich ein chinesisch-englisches Verhältnis bestätigt, das in nachgeschalteten Aufgaben am besten abschneidet.
Wir verwenden eine Datengewichtungsstrategie, die auf automatischem Lernen basiert, um verschiedene Datenkategorien zu proportionieren.

Partizip

Wir beziehen uns auf die akademische Lösung, um die Byte-Pair-Codierung (BPE) im Satzstück als Word-Segmentierungsalgorithmus zu verwenden und die folgenden Optimierungen durchzuführen:

Gegenwärtig basieren die meisten Open -Source -Modelle hauptsächlich auf der englischen Optimierung, sodass ein Problem mit geringer Effizienz für den chinesischen Korpus besteht. Wir haben 20 Millionen mehrsprachige Korpus-basierte mehrsprachige Corpus-Trainingsword-Segmentierungsmodelle verwendet, um die Kompressionsrate für Chinesen erheblich zu verbessern.
Für das Gebiet der Mathematik beziehen wir uns auf die Programme in Lama und Galactica und trennen jede Ziffer der Zahl getrennt, um das Problem der Inkonsistenzen in Zahlen zu vermeiden, was für die Verbesserung der mathematischen Fähigkeiten wichtig ist.
Für seltene Wörter (wie besondere Symbole usw.) wird die Byte-Codierung von UTF-8-Zeichen unterstützt, sodass die vollständige Abdeckung unbekannter Wörter erreicht wird.
Wir haben das Komprimierungsverhältnis verschiedener Wortpartizipien zum Korpus analysiert, wie in der folgenden Tabelle gezeigt, was zeigt, dass unser Wort Partizip signifikant besser ist als Open -Source -Modelle wie LLAMA und Falcon, und im Vergleich zu anderen chinesischen Wortpartizipien ist die Ausbildung und die Argumentationseffizienz höher als die anderer chinesischer Wortpartner.

Modell	Baichuan-7b	Lama	Falke	MPT-7B	Chatglm	Moss-moon-003
Druckrate	0,737	1.312	1.049	1.206	0,631	0,659
Wortschatzgröße	64.000	32.000	65.024	50.254	130.344	106.029

Modellstruktur

Das Gesamtmodell basiert auf der Standard -Transformatorstruktur, und wir übernehmen das gleiche Modelldesign wie Lama.

Positionscodierung: Rotary-Embedding ist ein Positionscodierungsschema, das von den meisten Modellen zu diesem Zeitpunkt mit besseren Epitaxieneffekten angewendet wird. Obwohl die maximale Länge während des Trainings 4096 beträgt, kann das Modell bei tatsächlichen Tests auf 5000 Token erweitert werden, wie in der folgenden Abbildung gezeigt:

Aktivierungsschicht: Swiglu, Feedforward ändert sich auf das 8/3 -fache der Größe der versteckten Schicht, d. H. 11.008
Schicht-Normalisierung: Vornormalisierung basierend auf RMSNorm

Trainingsstabilität und Durchsatz

Wir haben viele Änderungen am ursprünglichen Lama -Framework vorgenommen, um den Durchsatz während des Trainings zu verbessern, einschließlich:

Bedieneroptimierungstechnologie: Effizientere Operatoren wie Flash-Assony, Nvidia Apex RMSNORM usw.
Operator -Segmentierungstechnologie: Segment Teil des Berechnungsoperators, um den Speicherspitzen zu reduzieren.
Hybridgenauigkeitstechnologie: Reduziert die Beschleunigung des Berechnungsprozesses, ohne die Modellgenauigkeit zu verlieren.
Training Disaster Recovery Technology: Die gemeinsame Optimierung der Trainingsplattform und des Trainingsrahmens und der IaaS + PaaS realisiert einen Fehlerstandort und die Wiederherstellung von Aufgaben.
Kommunikationsoptimierungstechnologie, insbesondere einschließlich:
1. Der topologiebewusste Ensemble-Kommunikationsalgorithmus wird angewendet, um Probleme mit der Netzwerküberlastung zu vermeiden und die Kommunikationseffizienz zu verbessern.
2. Setzen Sie die Bucket -Größe adaptiv nach der Anzahl der Karten, um die Bandbreitenauslastung zu verbessern.
3. Gemäß der Modell- und Clusterumgebung wird der Auslöser des Zeitpunkts der Kommunikationsprimitiven so eingestellt, dass sie die Berechnung und Kommunikation überlappen.

Basierend auf den oben genannten Optimierungstechnologien haben wir den Durchsatz von 7B -Modell 182 TFLOPS auf der Kilocard A800 -Grafikkarte erreicht, und die Peak -Rechennutzungsrate von GPU beträgt 58,3%.

Der endgültige Verlust ist wie unten gezeigt:

Trainingsmethode

Installationsabhängigkeiten

pip install -r requirements.txt

Daten vorbereiten

Der Benutzer unterteilt das Trainingskorpus gleichmäßig in mehrere UTF-8-Textdateien gemäß den Multiplikaten der Gesamtrangnummer und platziert ihn in das Corpus-Verzeichnis (Standard ist data_dir ). In jedem Rangprozess werden verschiedene Dateien im Corpus -Verzeichnis gelesen und schließlich in den Speicher geladen, den nachfolgenden Trainingsprozess. Das obige ist ein vereinfachter Demonstrationsprozess.

Laden Sie das Tokenizer -Modell herunter

Laden Sie den Tokenizer Model Datei Tokenizer.model herunter und platzieren Sie sie in das Projektverzeichnis.

Deepspeed konfigurieren

Dieser Demonstrationscode wird mit dem DeepSpeed -Framework trainiert. Benutzer müssen config/hostfile gemäß der Cluster-Situation ändern. Weitere Informationen finden Sie in den offiziellen Anweisungen für Deepspeed.

Training durchführen

 scripts / train . sh

Protokoll

Die Verwendung dieses Repository -Quellcodes unterliegt der Open -Source -Lizenzvereinbarung Apache 2.0.

Baichuan-7b ist im Handel erhältlich. Wenn das Baichuan-7b-Modell oder seine Derivate für kommerzielle Zwecke verwendet werden, wenden Sie sich bitte an den Lizenzgeber, um sich vom Lizenzgeber zu registrieren und eine schriftliche Genehmigung zu beantragen.

Ressourcen von Drittanbietern

Lama Efficient Tuning unterstützt Baichuan-7b für Finetune mit Qlora, unterstützt RLHF und unterstützt WebDemo. Siehe Hiyouga/Baichuan-7b-SFT zur Verwendung des SFT-Modells.
Feuereballoon/Baichuan-Vicuna-Chinese-7b-Sharegpt, Sharegpt-Zh, Cot & Cot-Zh, Leetcode, Dummy und andere Modelle, um chinesische und englische Daten einzubeziehen, und finden Sie Fastchat für Trainingscode.
Feuereballoon/Baichuan-Vicuna-7b verwendet Sharegpt, COT und Leetcode und andere Daten, um Fellune-Modelle zu mischen, und siehe Fastchat für Trainingscode.
Effiziente Tuning-LLLMs unterstützt Baichuan-7b für Fonetune- und 4-Bit-Inferenz unter Verwendung von Qlora.
Fastllm Fastllm ist eine reine C ++-Implementierung ohne Abhängigkeiten von Drittanbietern und unterstützt Baichuan-7b auf dem Mobiltelefon.
THEBLOKE/BAICHUAN-7B-GPTQ 4-BIT-Quantifizierung von Baichuan-7b.

Sterngeschichte

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-03-05
Größe 940.56KB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01