Baichuan 7B Téléchargement - Baichuan 7B Code source Télécharger

Baichuan 7B

Autre code source

1.0.0

Télécharger

Baichuan-7b

? Embrasser le modèle •?

Chinois |

Mettre à jour les informations

[2023.09.06] Nous avons publié une nouvelle génération de modèle open source Baichuan 2, y compris les tailles 7b et 13b

introduire

Baichuan-7b est un modèle de langue pré-formé à grande échelle disponible dans le commerce open source développé par Baichuan Intelligent. Sur la base de la structure du transformateur, le modèle de paramètres de 7 milliards formé sur environ 1,2 billion de jetons prend en charge le bilingue chinois et anglais, et la longueur de la fenêtre de contexte est 4096. Les meilleurs résultats de la même taille sont obtenus à la fois sur la référence chinoise et anglaise standard (C-Eval / MMLU).

Liste de référence publique

Revue chinoise

C-Eval

L'ensemble de données C-Eval est un ensemble complet de données d'évaluation du modèle de base chinois couvrant 52 disciplines et quatre niveaux de difficulté. Nous avons utilisé l'ensemble de développement de cet ensemble de données comme source de quelques tirs et effectué un test 5-shot sur l'ensemble de tests. Exécutez la commande suivante en exécutant:

 cd evaluation
python evaluate_zh.py --model_name_or_path ' your/model/path '

résultat

Modèle 5-Shot	Moyenne	AVG (dur)	TIGE	Sciences sociales	Sciences humaines	Autres
Gpt-4	68.7	54.9	67.1	77.6	64.5	67.8
Chatte	54.4	41.4	52.9	61.8	50.9	53.6
Claude-V1.3	54.2	39.0	51.9	61.7	52.1	53.7
Claude-Instant-V1.0	45.9	35,5	43.1	53.8	44.2	45.4
Bloomz-7b	35.7	25.8	31.3	43.5	36.6	35.6
Chatglm-6b	34.5	23.1	30.4	39.6	37.4	34.5
Ziya-lelama-13b-prétraitement	30.2	22.7	27.7	34.4	32.0	28.9
Moss-moon-003-base (16b)	27.4	24.5	27.0	29.1	27.2	26.9
Lama-7b-hf	27.1	25.9	27.1	26.8	27.9	26.3
Falcon-7B	25.8	24.3	25.8	26.0	25.8	25.6
Tigerbot-7b-base	25.7	27.0	27.3	24.7	23.4	26.1
Aquila-7b ^*	25.5	25.2	25.6	24.6	25.2	26.6
Open-Llama-V2-prétraigne (7b)	24.0	22.5	23.1	25.3	25.2	23.2
Bloom-7b	22.8	20.2	21.8	23.3	23.9	23.3
Baichuan-7b	42.8	31.5	38.2	52.0	46.2	39.3

Gaokao

Gaokao est un ensemble de données qui utilise des questions d'examen de l'entrée du collège chinois comme ensemble de données pour évaluer la capacité des modèles de grande langue à évaluer la capacité linguistique et la capacité de raisonnement logique du modèle. Nous n'avons conservé les questions à choix unique et effectué un test unifié 5-shot sur tous les modèles après une division aléatoire.

résultat

Voici les résultats du test.

Modèle	Moyenne
Bloomz-7b	28.72
Lama-7b	27.81
Bloom-7b	26.96
Tigerbot-7b-base	25.94
Falcon-7B	23.98
Ziya-lelama-13b-prétraitement	23.17
Chatglm-6b	21.41
Open-Llama-V2-prétraitement	21.41
Aquila-7b ^*	24.39
Baichuan-7b	36.24

Agié

Agieval vise à évaluer les capacités générales du modèle dans les tâches cognitives et de résolution de problèmes. Nous n'avons conservé que quatre d'entre eux et effectué un test unifié 5-shot sur tous les modèles après une division aléatoire.

résultat

Modèle	Moyenne
Bloomz-7b	30.27
Lama-7b	28.17
Ziya-lelama-13b-prétraitement	27.64
Falcon-7B	27.18
Bloom-7b	26.55
Aquila-7b ^*	25.58
Tigerbot-7b-base	25.19
Chatglm-6b	23.49
Open-Llama-V2-prétraitement	23.49
Baichuan-7b	34.44

^* Le modèle Aquila provient du site officiel de Zhiyuan (https://model.baai.ac.cn/model-detail/100098) pour référence uniquement

Liste anglaise

En plus du chinois, Baichuan-7b a également testé l'effet du modèle en anglais. Nous avons adopté un schéma d'évaluation open source et les résultats finaux 5-shot sont les suivants:

résultat

Modèle	Sciences humaines	Sciences sociales	TIGE	Autre	Moyenne
Chatglm-6b ⁰	35.4	41.0	31.3	40.5	36.9
Bloomz-7b ⁰	31.3	42.1	34.4	39.0	36.1
MPT-7B ¹	-	-	-	-	35.6
Lama-7b ²	34.0	38.3	30.5	38.1	35.1
Falcon-7b ¹	-	-	-	-	35.0
moss-moon-003-sft (16b) ⁰	30.5	33.8	29.3	34.4	31.9
Bloom-7b ⁰	25.0	24.4	26.5	26.4	25.5
Moss-moon-003-base (16b) ⁰	24.2	22.8	22.4	24.4	23.6
Baichuan-7b ⁰	38.4	48.9	35.6	48.1	42.3

^{0: réapparaître}
^{1: https://huggingface.co/spaces/huggingfaceh4/open_llm_leaderboard}
^{2: https://paperswithcode.com/sota/multi-task-language-udgetanding-on-mmlu}

Méthode de reproduction

git clone https://github.com/hendrycks/test
cd test
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
mkdir results
cp ../evaluate_mmlu.py .
python evaluate_mmlu.py -m /path/to/Baichuan-7B

Les indicateurs détaillés spécifiques des 57 tâches sur MMLU sont les suivants:

Les indicateurs de chaque discipline sont les suivants:

Méthodes de raisonnement

Le code de raisonnement est déjà dans la bibliothèque officielle des étreintes

 from transformers import AutoModelForCausalLM , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( "baichuan-inc/Baichuan-7B" , trust_remote_code = True )
model = AutoModelForCausalLM . from_pretrained ( "baichuan-inc/Baichuan-7B" , device_map = "auto" , trust_remote_code = True )
inputs = tokenizer ( '登鹳雀楼->王之涣n夜雨寄北->' , return_tensors = 'pt' )
inputs = inputs . to ( 'cuda:0' )
pred = model . generate ( ** inputs , max_new_tokens = 64 , repetition_penalty = 1.1 )
print ( tokenizer . decode ( pred . cpu ()[ 0 ], skip_special_tokens = True ))

données

Les données originales comprennent des données chinoises et anglaises open source et des données Internet chinoises autopriques, ainsi que certaines données de connaissances de haute qualité.
Lorsque vous travaillez en référence aux données pertinentes, la fréquence et la qualité sont deux dimensions axées sur le processus de traitement des données. Nous filtrons la granularité du chapitre et de la phrase de l'ensemble de données d'origine basé sur les règles heuristiques et la notation du modèle de qualité. Sur les données complètes, la méthode de hachage sensible local est utilisée pour filtrer la granularité du chapitre et des phrases.

Le processus global est le suivant:

Après des ajustements continus et plusieurs cycles de test, un rapport chinois-anglais qui a fonctionné le mieux dans les tâches en aval a finalement été confirmé.
Nous utilisons une stratégie de pondération des données basée sur l'apprentissage automatique pour proportionner différentes catégories de données.

Participe

Nous nous référons à la solution académique pour utiliser le codage des paires d'octets (BPE) dans la phrase comme algorithme de segmentation de mots et effectuer les optimisations suivantes:

À l'heure actuelle, la plupart des modèles open source sont principalement basés sur l'optimisation de l'anglais, il y a donc un problème de faible efficacité pour le corpus chinois. Nous avons utilisé 20 millions de modèles de segmentation des mots de formation de corpus multilingues multilingues à base de corpus pour améliorer considérablement le taux de compression pour le chinois.
Pour le domaine des mathématiques, nous nous référons aux schémas de Llama et Galactica, séparons chaque chiffre séparément pour éviter le problème des incohérences en nombre, ce qui est important pour améliorer la capacité mathématique.
Pour les mots rares (tels que les symboles spéciaux, etc.), le codage d'octets des caractères UTF-8 est pris en charge, donc une couverture complète des mots inconnus est obtenue.
Nous avons analysé le ratio de compression de différents participes de mots avec le corpus, comme le montre le tableau ci-dessous, qui montre que notre participe de mot est nettement meilleur que les modèles open source tels que Llama et Falcon, et comparé à d'autres participations de mots chinois, l'efficacité de formation et de raisonnement est plus élevée que celle des autres participes de mots chinois.

Modèle	Baichuan-7b	Lama	Faucon	MPT-7B	Chatglm	Moss-moon-003
Taux de compression	0,737	1.312	1.049	1.206	0,631	0,659
Taille du vocab	64 000	32 000	65 024	50 254	130 344	106 029

Structure du modèle

Le modèle global est basé sur la structure du transformateur standard, et nous adoptons le même modèle de conception que LLAMA.

Codage de position: le rotation-incliné est un schéma de codage de position adopté par la plupart des modèles à ce stade, avec de meilleurs effets d'épitaxie. Bien que la longueur maximale pendant l'entraînement soit 4096, le modèle peut être bien étendu à 5000 jetons dans les tests réels, comme le montre la figure ci-dessous:

Couche d'activation: Swiglu, les changements de FeedForward à 8/3 fois la taille de la couche cachée, c'est-à-dire 11 008
Normalisation de couche: pré-normalisation basée sur rmsnorm

Stabilité et débit de formation

Nous avons apporté de nombreuses modifications au cadre original de lama pour améliorer le débit pendant la formation, notamment:

Technologie d'optimisation des opérateurs: adopter des opérateurs plus efficaces, tels que la flash-attention, le nvidia apex rmsnorm, etc.
Technologie de segmentation de l'opérateur: partie du segment de l'opérateur de calcul pour réduire le pic de mémoire.
Technologie de précision hybride: réduit l'accélération du processus de calcul sans perdre la précision du modèle.
Training Techning Technology Recovery: Optimisation conjointe de la plate-forme de formation et du cadre de formation, IaaS + PaaS réalise l'emplacement des défauts au niveau minutieux et la récupération des tâches.
Technologie d'optimisation des communications, notamment en particulier:
1. L'algorithme de communication de l'ensemble de topologie est adopté pour éviter les problèmes de congestion du réseau et améliorer l'efficacité de la communication.
2. Définissez la taille de seau de manière adaptative en fonction du nombre de cartes pour améliorer l'utilisation de la bande passante.
3. Selon le modèle et l'environnement de cluster, le timing de déclenchement des primitives de communication est réglé pour chevaucher le calcul et la communication.

Sur la base des technologies d'optimisation ci-dessus, nous avons atteint le débit de TFLOP 7B modèle 182 sur la carte graphique Kilocard A800, et le taux d'utilisation de puissance de calcul de pointe du GPU est élevé que 58,3%.

La perte finale est comme indiqué ci-dessous:

Méthode de formation

Dépendances d'installation

pip install -r requirements.txt

Préparer les données

L'utilisateur divise uniformément le corpus de formation en plusieurs fichiers texte UTF-8 en fonction des multiples du numéro de rang total et le place dans le répertoire Corpus (la valeur par défaut est data_dir ). Chaque processus de classement lira différents fichiers dans le répertoire Corpus, et après tout les charger en mémoire, il commencera le processus de formation ultérieur. Ce qui précède est un processus de démonstration simplifié.

Téléchargez le modèle de tokenizer

Téléchargez le fichier Tokenizer Fichier Tokenizer.Model et placez-le dans le répertoire du projet.

Configurer Deeppeed

Ce code de démonstration est formé à l'aide du cadre Deeppeed. Les utilisateurs doivent modifier config/hostfile en fonction de la situation du cluster. Pour plus de détails, veuillez vous référer aux instructions officielles Deeppeed.

Effectuer une formation

 scripts / train . sh

protocole

L'utilisation de ce code source de référentiel est soumise au contrat de licence open source Apache 2.0.

Baichuan-7b est disponible dans le commerce. Si le modèle Baichuan-7B ou ses dérivés sont utilisés à des fins commerciales, veuillez contacter le concédant de licence comme suit pour s'inscrire et demander l'autorisation écrite du concédant: Contactez Email: [email protected].

Ressources tierces

LLAMA Le réglage efficace prend en charge Baichuan-7b pour Finetune en utilisant Qlora, prend en charge RLHF et prend en charge WebDemo. Voir hiyouga / baichuan-7b-sft pour utiliser le modèle SFT.
Fireball / Baichuan-vicuna-chinois-7b utilise Sharegpt, Sharegpt-Zh, Cot & Cot-Zh, Leetcode, Dummy et d'autres modèles pour inclure des données chinoises et anglaises, et se référer à FastChat pour le code de formation.
Fireball / Baichuan-vicuna-7b utilise Sharegpt, Cot et Leetcode et d'autres données pour mélanger les modèles FineTune, et se référer à FastChat pour le code de formation.
Efficient-Tuning-LLMS prend en charge Baichuan-7b pour la finetune et l'inférence 4 bits en utilisant Qlora.
FastLLM FastLLM est une implémentation C ++ pure, sans dépendances tierces, et prend en charge Baichuan-7b pour fonctionner sur le téléphone mobile.
THEBOKE / BAICHUAN-7B-GPTQ 4 bits Quantification de Baichuan-7b.

Histoire des étoiles

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-05
taille 940.56KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout