Téléchargement Chinese Mixtral - Téléchargement du code source Chinese Mixtral

Chinese Mixtral

Autre code source

v1.2

Télécharger

Ce projet est développé sur la base du modèle Mixtral publié par Mistral.ai, qui utilise l'architecture MOE clairsemée. Ce projet utilise des données chinoises sans étiquettes chinoises à grande échelle pour effectuer une formation incrémentielle chinoise pour obtenir le modèle de base chinois Mixtral , et utilise en outre un ajustement fin des instructions pour obtenir le modèle d'instruction chinois de mixtral-instruct . Le modèle prend en charge le contexte 32k (testé jusqu'à 128k) , qui peut traiter efficacement le texte long, et en même temps d'améliorer des améliorations de performances significatives dans le raisonnement mathématique, la génération de code, etc. Lorsque vous utilisez Llama.cpp pour le raisonnement quantitatif, il ne faut que la mémoire 16G (ou la mémoire vidéo).

Rapport technique : [Cui et Yao, 2024] Repenser l'adaptation du langage LLM: une étude de cas sur le mixtral chinois [Interprétation du papier]

Contenu principal de ce projet

Modèle de base chinois mixtral chinois open source, qui est basé sur le mixtral-8x7b-v0.1 et est une formation incrémentielle en chinois.
Modèle d'instructions de mixtral chinois chinois open source, qui effectue en outre des instructions ajustées en fonction du mixtral chinois
Scripts de pré-formation open source et scripts affinés d'instructions, les utilisateurs peuvent former ou affiner le modèle au besoin.
Fournit des tutoriels pour quantifier et déployer rapidement des modèles à grande échelle localement à l'aide d'un CPU d'ordinateur personnel / GPU
Prend en charge l'écologie mixtrale telle que Transformers, Llama.cpp, la génération de texte-webui, Langchain, PrivateGpt, Vllm, etc.

nouvelles

[2024/04/30] Chinese-Llama-Alpaca-3 a été officiellement publié, Open Source Llama-3-Chinese-8b et Llama-3-Chinese-8b-instruct basé sur Llama-3, veuillez vous référer à: https://gihub.com/ymcui/chinese-lama-alpaca-3

[2024/03/27] Ajouter une version quantitative 1 bits / 2 bits / 3 bits du modèle GGUF: [? HF]; Dans le même temps, ce projet a été déployé au cœur de Machine Sota! Plateforme modèle, bienvenue à suivre: https://sota.jiqizhixin.com/project/chinese-mixtral

[2024/03/26] Ajoutez un mode de déploiement de l'API Mimic OpenAI. Afficher les détails: V1.2 Journal de publication de la version

[2024/03/05] Formation du modèle open source et code de réglage fin, publier des rapports techniques. Afficher les détails: V1.1 Version du journal de publication

[2024/01/29] a officiellement publié le chinois-mixtral (modèle de base) et l'instruct chinois-mixtral (modèle d'instruction / chat). Afficher les détails: V1.0 Version du journal de publication

Guidance de contenu

chapitre	décrire
?? ‍️ Model Introduction	Introduire brièvement les caractéristiques techniques des modèles pertinents de ce projet
Téléchargement du modélisation	Adresse de téléchargement du modèle mixtral chinois
Raisonnement et déploiement	Présente comment quantifier les modèles et déployer et découvrir de grands modèles à l'aide d'un ordinateur personnel
? Effet du modèle	L'effet du modèle sur certaines tâches est introduit
Formation et affine	Introduire comment former et affiner le modèle de mixtral chinois
❓faq	Réponses à certaines FAQ

Introduction du modèle

Ce projet open source chinois mixtral et chinois des modèles d'instruments mixtraux développés sur la base du modèle mixtral, et ses principales caractéristiques sont les suivantes:

Modèle d'experts hybrides clairsemé

Mixtral est un modèle expert hybride clairsemé. Ce modèle a des différences significatives par rapport aux modèles à grande échelle traditionnels précédents tels que LLAMA, qui se reflète principalement dans les points suivants:

Chaque couche FFN contient 8 "experts" différents (couches de connexion complètes), et les 2 optimaux sont sélectionnés en fonction de la valeur de la porte pour l'activation.
Chaque jeton dans la séquence d'entrée sélectionnera les experts indépendamment, plutôt qu'un groupe d'experts dans toute la séquence.
La quantité réelle du paramètre est d'environ 46,7b et la quantité de paramètre activée pendant l'inférence est d'environ 13B.

Ce qui suit est un diagramme structurel dans le papier mixtral:

? Supporte nativement le contexte de 32k (en fait des supports testés 128K)

Contrairement aux projets chinois-llama-alpaca et chinois-llama-alpaca-2, le modèle mixtral soutient nativement le contexte 32k (la mesure réelle peut atteindre 128k). Les utilisateurs peuvent utiliser un seul modèle pour résoudre diverses tâches de différentes longueurs.

Téléchargement du modèle

Directives de sélection du modèle

Ce qui suit est une comparaison du modèle de ce projet et des scénarios d'utilisation recommandés. Pour l'interaction de chat, sélectionnez Instruct Version.

Articles de comparaison	Mixtral chinois	Mixtral-instruct chinois
Type de modèle	Modèle de base	Directive / Chat Modèle (classe Chatgpt)
Taille du modèle	8x7b (réellement activé environ 13B)	8x7b (réellement activé environ 13B)
Nombre d'experts	8 (réellement activé 2)	8 (réellement activé 2)
Type de formation	Causal-LM (CLM)	Instruction Fine ajustement
Méthode de formation	Qlora + montant complet EMB / LM-Head	Qlora + montant complet EMB / LM-Head
Quel modèle à former	Mixtral-8x7b-V0.1 d'origine	Mixtral chinois
Matériel de formation	Essai général non marqué	Données d'instructions étiquetées
Taille de vocabulaire	Liste de vocabulaire originale, 32000	Liste de vocabulaire originale, 32000
Prend en charge la longueur du contexte	32k (en fait mesuré jusqu'à 128k)	32k (en fait mesuré jusqu'à 128k)
Modèle d'entrée	inutile	Besoin d'appliquer le modèle d'instruct mixtral
Scénarios applicables	Continuation du texte: Compte tenu du texte ci-dessus, laissez le modèle générer le texte suivant	Compréhension des commandes: Q&R, écriture, chat, interaction, etc.

Adresse de téléchargement

Voici 3 types de modèles différents:

Version complète du modèle : il peut être utilisé directement sans d'autres étapes de fusion. Il est recommandé pour les utilisateurs avec une bande passante réseau suffisante;
Modèle de version LORA : ne peut pas être utilisé seul. Il doit être fusionné avec le mixtral-8x7b-v0.1 d'origine pour être converti en modèle de version complète. Il est recommandé que les utilisateurs qui ont une bande passante réseau insuffisante et aient le mixtral original en cours. Pour la méthode de fusion, veuillez vous référer à: Modèles étapes de fusion
Modèle de version GGUF : modèle de version quantitative GGUF compatible avec llama.cpp et autres outils. Il est recommandé de télécharger des utilisateurs qui n'ont besoin que de faire un déploiement d'inférence.

Nom du modèle	taper	Spécification	Version complète (87 Go)	Version LORA (2,4 Go)	Version GGUF
Chinois-mixtral	Modèle de base	8x7b	[Baidu] [? Hf] [? Modelscope]	[Baidu] [? Hf] [? Modelscope]	[? Hf]
Instruct chinois	Modèle d'instruction	8x7b	[Baidu] [? Hf] [? Modelscope]	[Baidu] [? Hf] [? Modelscope]	[? Hf]

Note

Si vous ne pouvez pas accéder à HF, vous pouvez considérer certains sites de miroir (tels que hf-mirror.com). Veuillez trouver et résoudre les méthodes spécifiques vous-même.

Raisonnement et déploiement

Les modèles pertinents de ce projet soutiennent principalement les méthodes de quantification, de raisonnement et de déploiement suivantes. Pour plus de détails, veuillez consulter le tutoriel correspondant.

outil	Caractéristiques	Processeur	GPU	Quantification	Gui	API	vllm	Tutoriel
lama.cpp	Riches options quantitatives et raisonnement local efficace	✅	✅	✅		✅		[lien]
? Transformers	Interface d'inférence des transformateurs natifs	✅	✅	✅	✅		✅	[lien]
Imitation des appels d'API openai	Démo de serveur qui émule l'interface API OpenAI	✅	✅	✅		✅	✅	[lien]
Génération de texte-webui	Comment déployer l'interface Interface Web frontale	✅	✅	✅	✅	✅		[lien]
Lubriole	Framework open source pour une application à grande échelle adaptée au développement secondaire	✅	✅	✅				[lien]
privé	Cadre de questions et réponses locales à plusieurs documents	✅	✅	✅				[lien]
Studio LM	Logiciel de chat multiplateforme (avec interface)	✅	✅	✅	✅	✅		[lien]

Effet de modèle

Afin d'évaluer les effets des modèles connexes, ce projet a effectué respectivement l'évaluation des effets génératifs et l'évaluation des effets objectifs (classe NLU) et a évalué le grand modèle sous différents angles. Il est recommandé que les utilisateurs testent sur les tâches qui les préoccupent et sélectionnent des modèles qui s'adaptent aux tâches connexes.

Générer une évaluation des effets

Ce projet a lancé une plate-forme de bataille de modèles en ligne modélisée d'après Fastchat Chatbot Arena, qui peut parcourir et évaluer la qualité des réponses du modèle. La plate-forme de bataille fournit des indicateurs d'évaluation tels que le taux gagnant et le score ELO, et peut afficher les résultats du taux gagnant du modèle de paire à porte. ⚔️ Arena modèle: http://llm-arena.ymcui.com
Le répertoire des exemples fournit les exemples de sortie d'instruct chinois-mixtral et chinois-alpaca-2-13b, et le score est comparé à GPT-4. Le score moyen de l'instruct chinois-mixtral est de 8,20 et le score moyen de Chinese-Alpaca-2-13b est de 7,05 . ? Comparaison des échantillons de sortie: exemples

Évaluation de l'effet objectif

C-Eval

C-Eval est une suite complète d'évaluation de modèle de base chinois, dans laquelle l'ensemble de vérification et l'ensemble de test contiennent des questions de 1K et 12,3k à choix multiples, couvrant 52 sujets, respectivement. Veuillez vous référer à ce projet pour C-Eval Inference Code: GitHub Wiki

Modèles	taper	Valide (0-shot)	VALIDE (5-Shot)	Test (0-shot)	Test (5-shot)
Instruct chinois	instruction	51.7	55.0	50.0	51.5
Chinois-mixtral	Piédestal	45.8	54.2	43.1	49.1
Mixtral-8x7b-instruct-v0.1	instruction	51.6	54.0	48.7	50.7
Mixtral-8x7b-v0.1	Piédestal	47.3	54.6	46.1	50.3
Chinois-alpaca-2-13b	instruction	44.3	45.9	42.6	44.0
Chinois-llama-2-13b	Piédestal	40.6	42.7	38.0	41.6

Cmmlu

CMMLU est un autre ensemble de données d'évaluation chinois complet, spécifiquement utilisé pour évaluer les connaissances et la capacité de raisonnement des modèles de langage dans le contexte chinois, couvrant 67 sujets des sujets de base au niveau professionnel avancé, avec un total de 11,5k à choix multiple. Veuillez vous référer à ce projet pour CMMLU Inference Code: GitHub Wiki

Modèles	taper	Test (0-shot)	Test (5-shot)
Instruct chinois	instruction	50.0	53.0
Chinois-mixtral	Piédestal	42.5	51.0
Mixtral-8x7b-instruct-v0.1	instruction	48.2	51.6
Mixtral-8x7b-v0.1	Piédestal	44.3	51.6
Chinois-alpaca-2-13b	instruction	43.2	45,5
Chinois-llama-2-13b	Piédestal	38.9	42.5

MMLU

MMLU est un ensemble de données d'évaluation en anglais pour évaluer la capacité de compréhension du langage naturel. C'est l'un des principaux ensembles de données utilisés pour évaluer les grandes capacités de modèle aujourd'hui. L'ensemble de vérification et le jeu de test contiennent respectivement des questions de 1K et 14,1k à choix multiples couvrant 57 sujets. Veuillez vous référer à ce projet pour le code d'inférence MMLU: GitHub Wiki

Modèles	taper	Valide (0-shot)	VALIDE (5-Shot)	Test (0-shot)	Test (5-shot)
Instruct chinois	instruction	65.1	69.6	67.5	69.8
Chinois-mixtral	Piédestal	63.2	67.1	65,5	68.3
Mixtral-8x7b-instruct-v0.1	instruction	68.5	70.4	68.2	70.2
Mixtral-8x7b-v0.1	Piédestal	64.9	69.0	67.0	69.5
Chinois-alpaca-2-13b	instruction	49.6	53.2	50.9	53.5
Chinois-llama-2-13b	Piédestal	46.8	50.0	46.6	51.8

Secouer

Longbench est une référence pour évaluer la capacité de compréhension du texte long d'un grand modèle. Il se compose de 6 catégories grandes et de 20 tâches différentes. La durée moyenne de la plupart des tâches se situe entre 5k et 15k et contient environ 4,75k de données de test. Ce qui suit est l'effet d'évaluation de ce modèle de projet sur cette tâche chinoise (y compris les tâches de code). Veuillez vous référer à ce projet pour le code d'inférence Longbench: GitHub Wiki

Modèles	Document unique QA	QA multi-documents	résumé	Apprentissage FS	Achèvement du code	Tâche de synthèse	moyenne
Instruct chinois	50.3	34.2	16.4	42.0	56.1	89.5	48.1
Chinois-mixtral	32.0	23.7	0.4	42.5	27.4	14.0	23.3
Mixtral-8x7b-instruct-v0.1	56.5	35.7	15.4	46.0	63.6	98.0	52.5
Mixtral-8x7b-v0.1	35,5	9.5	16.4	46.5	57.2	83.5	41.4
Chinois-alpaca-2-13b-16k	47.9	26.7	13.0	22.3	46.6	21.5	29.7
Chinois-llama-2-13b-16k	36.7	17.7	3.1	29.8	13.8	3.0	17.3
Chinois-alpaca-2-7b-64k	44.7	28.1	14.4	39.0	44.6	5.0	29.3
Chinois-Llama-2-7B-64K	27.2	16.4	6.5	33.0	7.8	5.0	16.0

Évaluation des effets quantitatifs

Sous Llama.cpp, les performances du modèle de version quantitative chinoise-Mixtral ont été testées, comme indiqué dans le tableau suivant.

	F16	Q8_0	Q6_K	Q5_K	Q5_0	Q4_K	Q4_0	Q3_K	Iq3_xxs	Q2_K	Iq2_xs	Iq2_xx
Taille (GB)	87.0	46.2	35.7	30.0	30.0	24.6	24.6	19.0	17.1	16.1	12.7	11.4
BPW	16.0	8.50	6.57	5.69	5.52	4.87	4.53	3.86	3.14	2.96	2.34	2.10
Ppl	-	4.4076	4.4092	4.4192	4.4224	4.4488	4.4917	4.5545	4.5990	5.1846	6.9784	8.5981
M3 SPEXE MAX	-	-	36.0	36.9	35.7	31.2	27.8	37.6	-	29.1	-	-
A100 vitesse	-	-	29.9	22.6	20.5	21.7	17.1	21.7	20.6	20.3	23.7	22.5

Note

Taille du modèle: unité GB
BPW (bits par poids): bits des paramètres unitaires, par exemple, la précision moyenne réelle de Q6_K est de 6,57
Ppl (confusion): mesuré dans un contexte 4K, plus la valeur est faible, mieux
Vitesse de génération: fournit la vitesse de production (unité MS / jeton) d'Apple M3 Max (métal) et NVIDIA A100 (40G). Plus la valeur est faible, mieux

Prenant l'exemple du chinois-mixtral-Q4_0, la figure ci-dessous montre la tendance du changement de PPL sous différentes longueurs de contexte, et deux ensembles différents de données de texte brut ont été sélectionnés. Les résultats expérimentaux montrent que la longueur de contexte soutenue par le modèle Mixtral a dépassé le 32k nominal, et il a toujours de bonnes performances dans le cadre du contexte de 64k + (en fait mesuré jusqu'à 128k).

Formation et affine

Pré-formation

Sur la base du mixtral original, des données sans étiquette à grande échelle sont utilisées pour une formation incrémentielle pour obtenir le modèle de piédestal chinois-mixtral
Les données de formation utilisent des données cohérentes avec le modèle de version de base dans le projet chinois-llama-alpaca, avec un total d'environ 20 g de fichiers texte brut.
Code de formation et tutoriel d'utilisation: Wiki de script pré-formation

Instruction Fine ajustement

Sur la base du chinois-mixtral, le modèle d'instruction chinois-mixtral-instruct est obtenu par un autre réglage fin à l'aide de données d'instructions étiquetées pour obtenir le modèle d'instruction chinois-mixtral-instruit
Les données de formation utilisent les données d'instructions utilisées dans le projet chinois-llama-alpaca-2, avec un total d'environ 5 millions de données d'instruction.
Code de formation et didacticiel d'utilisation: instruction Wiki script à réglage fin de l'instruction

Modèle directif:

 <s> [INST] Instruction [/INST] Model answer</s> [INST] Follow-up instruction [/INST]

Remarque: <s> et </s> sont des jetons spéciaux représentant le début et la fin d'une séquence, tandis que [INST] et [/INST] sont des chaînes ordinaires.

Questions fréquemment posées

Veuillez vérifier si la solution existe déjà dans la FAQ avant de mentionner le problème. Pour des questions et réponses spécifiques, veuillez vous référer à ce projet Wiki GitHub

问题1：后续会不会用更多数据进行训练？会不会做RLHF/DPO对齐？
问题2：为什么本次的模型没有做中文词表扩展？
问题3：是否支持Mixtral的下游生态？

Citation

@article{chinese-mixtral,
      title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral}, 
      author={Cui, Yiming and Yao, Xin},
      journal={arXiv preprint arXiv:2403.01851},
      url={https://arxiv.org/abs/2403.01851},
      year={2024}
}

Clause de non-responsabilité

Ce projet est développé sur la base du modèle Mixtral publié par Mistral.ai. Veuillez respecter strictement le contrat de licence Open Source Mixtral pendant l'utilisation. Si l'utilisation du code tiers est impliquée, assurez-vous de respecter le contrat de licence open source pertinent. Le contenu généré par le modèle peut affecter sa précision en raison des méthodes de calcul, des facteurs aléatoires et des pertes de précision quantitative. Par conséquent, ce projet ne garantit aucune garantie de l'exactitude de la sortie du modèle, et il sera responsable des pertes causées par l'utilisation des ressources pertinentes et des résultats de sortie. Si les modèles pertinents de ce projet sont utilisés à des fins commerciales, le développeur doit respecter les lois et réglementations locales pour garantir le respect du contenu de sortie du modèle. Ce projet ne sera pas responsable des produits ou services qui en ont été dérivés.

Remettre en question des commentaires

Si vous avez des questions, veuillez la soumettre dans le problème de GitHub. Posez des questions poliment et construisez une communauté de discussion harmonieuse.

Avant de soumettre la question, veuillez vérifier si la FAQ peut résoudre le problème. Il est également recommandé de vérifier si le problème précédent peut résoudre votre problème.
Pour soumettre une question, veuillez utiliser le modèle de problème défini par ce projet pour aider à localiser rapidement des questions spécifiques.
La répétition et les problèmes non liés à ce projet seront traités par STABLE-BOT. Veuillez comprendre.

Développer

Informations supplémentaires

Version v1.2
Type Autre code source
Date de mise à jour 2025-04-16
taille 454.47KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Version officielle du code source du projet de jeux DOS chinois (jeux DOS chinois dans le navigateur)

2022-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout