Téléchargement Chinese LLaMA Alpaca 3 - Chinese LLaMA Alpaca 3 Code source Téléchargement

Chinese LLaMA Alpaca 3

Autre code source

v3.0

Télécharger

? Visage étreint •? Modelcope •? ️ Machine Heart Sota! Modèle • ? WiseModel •? Démo en ligne

Ce projet est développé sur la base de la nouvelle génération de modèle open source LLAMA-3, qui est la troisième phase de la série de projets chinois-llama-alpaca liés au modèle open source (phase I et phase II). Ce projet Open Source Chinese Llama-3 Base Model and Chinese Llama-3-Istruct Instruct Instruction Fineding Model . Ces modèles utilisent des données chinoises à grande échelle pour la pré-formation incrémentielle basée sur le LLAMA-3 d'origine, et utilisent des données d'instruction sélectionnées pour un ajustement fin, l'amélioration des capacités de base de la sémantique chinoise et de la compréhension des instructions et de l'obtention des améliorations de performances significatives par rapport aux modèles liés à la deuxième génération.

Contenu principal

Modèle de quai open source LLAMA-3-Chinese et modèle d'instructions d'instruments LLAMA-3-Chinese (V1, V2, V3)
Scripts de pré-formation open source et scripts affinés d'instructions, les utilisateurs peuvent former ou affiner le modèle au besoin.
Open source alpaca_zh_51k, STEM_ZH_INSTRUCTION, RUOZHIBA_GPT4 (4O / 4T) Instruction Données de réglage
Fournit des tutoriels pour quantifier et déployer rapidement des modèles à grande échelle localement à l'aide d'un CPU d'ordinateur personnel / GPU
Soutient l'écologie de la lama-3 tels que Transformers, Llama.Cpp, Text-Generation-Webui, Vllm, Olllama, etc.

nouvelles

[2024/05/30] a publié le modèle d'instruction LLAMA-3-Chinese-8B-Instruct-V3, qui a permis d'améliorer des tâches en aval par rapport à V1 / V2. Afficher les détails: Journal de publication de la version V3.0

[2024/05/08] Libérez le modèle d'instruction LLAMA-3-Chinese-8B-Instruct-V2, en utilisant directement 5 millions de données d'instructions pour l'affiner sur Meta-Llama-3-8B-Istruct. Afficher les détails: Journal de publication de la version v2.0

[2024/05/07] Ajoutez des scripts de pré-formation et des scripts de réglage fin de l'instruction. Afficher les détails: V1.1 Version du journal de publication

[2024/04/30] Libérez le modèle de base LLAMA-3-Chinese-8b et le modèle d'instruction LLAMA-3-Chinese-8B-Istruct. Afficher les détails: V1.0 Version du journal de publication

[2024/04/19] Lancez officiellement le projet Chinese-Llama-Alpaca-3

Guidance de contenu

chapitre	décrire
?? ‍️ Model Introduction	Introduire brièvement les caractéristiques techniques des modèles pertinents de ce projet
Téléchargement du modélisation	Adresse de téléchargement de Big Model Chinese Llama-3
Raisonnement et déploiement	Présente comment quantifier les modèles et déployer et découvrir de grands modèles à l'aide d'un ordinateur personnel
? Effet du modèle	L'effet du modèle sur certaines tâches est introduit
Formation et affine	Présentation de la façon de s'entraîner et de régler le modèle chinois Llama-3
❓faq	Réponses à certaines FAQ

Introduction du modèle

Ce projet lance le modèle open source chinois LLAMA-3-Chinese et Llama-3-Chinese-Istruct basé sur Meta Llama-3. Les principales caractéristiques sont les suivantes:

Utilisez la liste des mots originaux LLAMA-3

Par rapport à ses deux générations précédentes, LLAMA-3 a considérablement élargi la taille du vocabulaire, de 32k à 128k, et a été changée en liste de vocabulaire BPE.
Des expériences préliminaires ont révélé que l'efficacité de codage de la liste des mots lama-3 est comparable à celle de notre liste de vocabulaire étendue, avec une efficacité d'environ 95% de la liste des mots chinois (basée sur le test d'efficacité de codage sur les données Wikipedia)
Sur la base de notre expérience pertinente dans le mixtral chinois et les conclusions expérimentales ¹ , nous n'avons pas ajouté de vocabulaire supplémentaire

? Une longue durée de contexte est passée de 4k à 8k dans la deuxième génération

LLAMA-3 augmente la longueur de fenêtre de contexte natif de 4k à 8k, permettant un traitement ultérieur d'informations de contexte plus longues
Les utilisateurs peuvent également étendre le modèle avec un contexte long via PI, NTK, fil et autres méthodes pour prendre en charge le traitement des textes plus longs.

⚡ Utiliser le regroupement pour interroger le mécanisme d'attention

LLAMA-3 adopte le mécanisme d'attention de la requête (GQA) appliquée à la version à grand paramètre dans LLAMA-2, ce qui peut encore améliorer l'efficacité du modèle.

? Nouveau modèle de commande

LLAMA-3-INSTRUCT adopte un tout nouveau modèle d'instructions, qui est incompatible avec LLAMA-2-CHAT. Il doit suivre le modèle d'instruction officiel lors de l'utilisation (voir modèle d'instruction)

Téléchargement du modèle

Directives de sélection du modèle

Ce qui suit est une comparaison du modèle de ce projet et des scénarios d'utilisation recommandés. Pour l'interaction de chat, sélectionnez Instruct Version.

Articles de comparaison	Lama-3-chinois-8b	Llama-3-Chinese-8b-Instruct
Type de modèle	Modèle de base	Directive / Chat Modèle (classe Chatgpt)
Taille du modèle	8b	8b
Type de formation	Causal-LM (CLM)	Instruction Fine ajustement
Méthode de formation	LORA + MOMMANDE EMB / LM-Head	LORA + MOMMANDE EMB / LM-Head
Initialiser le modèle	Méta-llama original-3-8b	v1: lama-3-chinois-8b V2: Meta-Lama-3-8b d'origine V3: Mélange d'inst / inst-v2 / inst-meta
Matériel de formation	Corpus universel non marqué (environ 120 Go)	Données d'instructions marquées (environ 5 millions de pièces)
Taille de vocabulaire	Vocabulaire original (128 256)	Vocabulaire original (128 256)
Prend en charge la longueur du contexte	8K	8K
Modèle d'entrée	inutile	Besoin d'appliquer le modèle LLAMA-3-INSTRUCT
Scénarios applicables	Continuation du texte: Compte tenu du texte ci-dessus, laissez le modèle générer le texte suivant	Compréhension des commandes: Q&R, écriture, chat, interaction, etc.

Ce qui suit est une comparaison entre les versions Instruct. S'il n'y a pas de préférence claire, veuillez donner la priorité à la version instruct-V3.

Articles de comparaison	Instruct-v1	Instruct-v2	Instruct-v3
Temps de libération	2024/4/30	2024/5/8	2024/5/30
Modèle de base	Méta-llama original-3-8b	Meta-Lama-3-8b d'origine	(Voir méthode de formation)
Méthode de formation	Phase 1: 120G Corpus chinois Pré-formation Phase 2: 5 millions de données d'instruction ajustement fin	Utilisez directement 5 millions de données d'instruction pour affiner	La fusion du modèle est effectuée en utilisant Inst-V1, Inst-V2 et Inst-Meta, et elle est obtenue par un réglage fin d'une petite quantité de données d'instructions (~ 5k pièces)
Capacité chinoise ^[1]	49.3 / 51.5	51.6 / 51.6	55.2 / 54.8 ??
Maîtrise de l'anglais ^[1]	63.21	66.68	66.81 ??
Capacité de texte longue ^[1]	29.6	46.4 ??	40.5
Mockup Arena Win Rate / Elo Rating ^[2]	49,4% / 1430	66,1% / 1559	83,6% / 1627 ??

Note

[1] L'effet de capacité chinoise provient de C-Eval (valide); L'effet de capacité anglaise provient du classement Open LLM (AVG); La longue capacité de texte provient de Longbench (AVG); Veuillez vous référer à la section sur l'effet du modèle pour plus de détails. [2] Le temps d'acquisition de l'effet de Big Model Arena: 2024/5/30, pour référence uniquement.

Adresse de téléchargement

Nom du modèle	Version complète	Version Lora	Version GGUF
LLAMA-3-Chinese-8b-Instruct-V3 (Modèle d'instruction)	[? Emballage Face] [? Modelscope] [? WiseModel]	N / A	[? Emballage Face] [? Modelscope]
Llama-3-chinois-8b-instruct-v2 (Modèle d'instruction)	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope]
Llama-3-Chinese-8b-Instruct (Modèle d'instruction)	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope]
Lama-3-chinois-8b (Modèle de piédestal)	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope] [? WiseModel]	[? Emballage Face] [? Modelscope]

DESCRIPTION DE TYPE DE MODÈLE:

Modèle complet : peut être utilisé directement pour la formation et le raisonnement sans étapes de fusion supplémentaires
Modèle LORA : il doit être fusionné avec le modèle de base avant de pouvoir être converti en une version complète du modèle. Méthode de fusion: étapes de fusion du modèle
- V1 Modèle de base: méta-llama original-3-8b
- V2 Modèle de base: Meta-Lama-3-8b-8b
Modèle GGUF : Le format de quantification lancé par LLAMA.CPP est adapté aux outils d'inférence communs tels que Olllama. Il est recommandé de télécharger des utilisateurs qui n'ont besoin que de faire un déploiement d'inférence; Le suffixe du nom du modèle est -im qui signifie que la matrice d'importance est utilisée pour la quantification, généralement avec des PPL inférieurs, et il est recommandé d'utiliser (l'utilisation est la même que la version ordinaire)

Note

Si vous ne pouvez pas accéder à HF, vous pouvez considérer certains sites de miroir (tels que hf-mirror.com). Veuillez trouver et résoudre les méthodes spécifiques vous-même.

Raisonnement et déploiement

Les modèles pertinents de ce projet soutiennent principalement les méthodes de quantification, de raisonnement et de déploiement suivantes. Pour plus de détails, veuillez consulter le tutoriel correspondant.

outil	Caractéristiques	Processeur	GPU	Quantification	Gui	API	vllm	Tutoriel
lama.cpp	Riches options de quantification GGUF et raisonnement local efficace	✅	✅	✅	✅	✅		[lien]
? Transformers	Interface d'inférence des transformateurs natifs	✅	✅	✅	✅		✅	[lien]
Imitation des appels d'API openai	Démo de serveur qui émule l'interface API OpenAI	✅	✅	✅		✅	✅	[lien]
Génération de texte-webui	Comment déployer l'interface Interface Web frontale	✅	✅	✅	✅	✅		[lien]
Studio LM	Logiciel de chat multiplateforme (avec interface)	✅	✅	✅	✅	✅		[lien]
Ollla	Raisonnement de modèle de maquette d'exécution localement	✅	✅	✅		✅		[lien]

Effet de modèle

Afin d'évaluer les effets des modèles connexes, ce projet a effectué respectivement l'évaluation des effets génératifs et l'évaluation des effets objectifs (classe NLU) et a évalué le grand modèle sous différents angles. Il est recommandé que les utilisateurs testent sur les tâches qui les préoccupent et sélectionnent des modèles qui s'adaptent aux tâches connexes.

Générer une évaluation des effets

Ce projet a lancé une plate-forme de bataille de modèles en ligne modélisée d'après Fastchat Chatbot Arena, qui peut parcourir et évaluer la qualité des réponses du modèle. La plate-forme de bataille fournit des indicateurs d'évaluation tels que le taux gagnant et le score ELO, et peut afficher les résultats du taux gagnant du modèle de paire à porte. ⚔️ Arena modèle: http://llm-arena.ymcui.com
Le répertoire des exemples fournit des échantillons de sortie de l'instruct de lama-3-chinois-8b et de l'instruct chinois-mixtral, et les comparaisons de score sont effectuées via GPT-4-turbo. Le score moyen de l'instruct de LLAMA-3-Chinois-8B est de 8,1 et le score moyen d'instruct chinois-mixtral est de 7,8 . ? Comparaison des échantillons de sortie: exemples
Ce projet a été transféré dans la machine Heart Sota! Plateforme modèle, et l'expérience en ligne sera réalisée dans la dernière étape: https://sota.jiqizhixin.com/project/chinese-llama-alpaca-3

Évaluation de l'effet objectif

C-Eval

C-Eval est une suite complète d'évaluation de modèle de base chinois, dans laquelle l'ensemble de vérification et l'ensemble de test contiennent des questions de 1K et 12,3k à choix multiples, couvrant 52 sujets, respectivement. Veuillez vous référer à ce projet pour C-Eval Inference Code: GitHub Wiki

Modèles	Valide (0-shot)	VALIDE (5-Shot)	Test (0-shot)	Test (5-shot)
LLAMA-3-Chinese-8b-Instruct-V3	55.2	54.8	52.1	52.4
Llama-3-chinois-8b-instruct-v2	51.6	51.6	49.7	49.8
Llama-3-Chinese-8b-Instruct	49.3	51.5	48.3	49.4
Lama-3-chinois-8b	47.0	50.5	46.1	49.0
Méta-llama-3-8b-instruit	51.3	51.3	49.5	51.0
Méta-llama-3-8b	49.3	51.2	46.1	49.4
Instructe chinois-mixtral (8x7b)	51.7	55.0	50.0	51.5
Chinois-mixtral (8x7b)	45.8	54.2	43.1	49.1
Chinois-alpaca-2-13b	44.3	45.9	42.6	44.0
Chinois-llama-2-13b	40.6	42.7	38.0	41.6

Cmmlu

CMMLU est un autre ensemble de données d'évaluation chinois complet, spécifiquement utilisé pour évaluer les connaissances et la capacité de raisonnement des modèles de langage dans le contexte chinois, couvrant 67 sujets des sujets de base au niveau professionnel avancé, avec un total de 11,5k à choix multiple. Veuillez vous référer à ce projet pour CMMLU Inference Code: GitHub Wiki

Modèles	Test (0-shot)	Test (5-shot)
LLAMA-3-Chinese-8b-Instruct-V3	54.4	54.8
Llama-3-chinois-8b-instruct-v2	51.8	52.4
Llama-3-Chinese-8b-Instruct	49.7	51.5
Lama-3-chinois-8b	48.0	50.9
Méta-llama-3-8b-instruit	53.0	53.5
Méta-llama-3-8b	47.8	50.8
Instructe chinois-mixtral (8x7b)	50.0	53.0
Chinois-mixtral (8x7b)	42.5	51.0
Chinois-alpaca-2-13b	43.2	45,5
Chinois-llama-2-13b	38.9	42.5

MMLU

MMLU est un ensemble de données d'évaluation en anglais pour évaluer la capacité de compréhension du langage naturel. C'est l'un des principaux ensembles de données utilisés pour évaluer les grandes capacités de modèle aujourd'hui. L'ensemble de vérification et le jeu de test contiennent respectivement des questions de 1K et 14,1k à choix multiples couvrant 57 sujets. Veuillez vous référer à ce projet pour le code d'inférence MMLU: GitHub Wiki

Modèles	Valide (0-shot)	VALIDE (5-Shot)	Test (0-shot)	Test (5-shot)
LLAMA-3-Chinese-8b-Instruct-V3	64.7	65.0	64.8	65.9
Llama-3-chinois-8b-instruct-v2	62.1	63.9	62.6	63.7
Llama-3-Chinese-8b-Instruct	60.1	61.3	59.8	61.8
Lama-3-chinois-8b	55,5	58.5	57.3	61.1
Méta-llama-3-8b-instruit	63.4	64.8	65.1	66.4
Méta-llama-3-8b	58.6	62.5	60,5	65.0
Instructe chinois-mixtral (8x7b)	65.1	69.6	67.5	69.8
Chinois-mixtral (8x7b)	63.2	67.1	65,5	68.3
Chinois-alpaca-2-13b	49.6	53.2	50.9	53.5
Chinois-llama-2-13b	46.8	50.0	46.6	51.8

Secouer

Longbench est une référence pour évaluer la capacité de compréhension du texte long d'un grand modèle. Il se compose de 6 catégories grandes et de 20 tâches différentes. La durée moyenne de la plupart des tâches se situe entre 5k et 15k et contient environ 4,75k de données de test. Ce qui suit est l'effet d'évaluation de ce modèle de projet sur cette tâche chinoise (y compris les tâches de code). Veuillez vous référer à ce projet pour le code d'inférence Longbench: GitHub Wiki

Modèles	Document unique QA	QA multi-documents	résumé	Apprentissage FS	Code	synthèse	moyenne
LLAMA-3-Chinese-8b-Instruct-V3	20.3	28.8	24.5	28.1	59.4	91.9	40.5
Llama-3-chinois-8b-instruct-v2	57.3	27.1	13.9	30.3	60.6	89.5	46.4
Llama-3-Chinese-8b-Instruct	44.1	24.0	12.4	33.5	51.8	11.5	29.6
Lama-3-chinois-8b	16.4	19.3	4.3	28.7	14.3	4.6	14.6
Méta-llama-3-8b-instruit	55.1	15.1	0.1	24.0	51.3	94.5	40.0
Méta-llama-3-8b	21.2	22.9	2.7	35.8	65.9	40.8	31.6
Instructe chinois-mixtral (8x7b)	50.3	34.2	16.4	42.0	56.1	89.5	48.1
Chinois-mixtral (8x7b)	32.0	23.7	0.4	42.5	27.4	14.0	23.3
Chinois-alpaca-2-13b-16k	47.9	26.7	13.0	22.3	46.6	21.5	29.7
Chinois-llama-2-13b-16k	36.7	17.7	3.1	29.8	13.8	3.0	17.3
Chinois-alpaca-2-7b-64k	44.7	28.1	14.4	39.0	44.6	5.0	29.3
Chinois-Llama-2-7B-64K	27.2	16.4	6.5	33.0	7.8	5.0	16.0

LA LABEAL LLM OUVERT

Open LLM Leadboard est un grand modèle Benchmark d'évaluation des capacités complets (anglais) initiée par l'équipe HuggingFaceH4, dont 6 tests uniques, dont ARC, Hellaswag, MMLU, Vérirorqa, Winograde, GSM8K. Ce qui suit est l'effet d'évaluation de ce modèle de projet sur cette liste.

Modèles	ARC	Enfer	MMLU	TQA	Winog	GSM8K	moyenne
LLAMA-3-Chinese-8b-Instruct-V3	63.40	80.51	67,90	53,57	76.24	59.21	66.81
Llama-3-chinois-8b-instruct-v2	62.63	79.72	66.48	53,93	76.72	60,58	66.68
Llama-3-Chinese-8b-Instruct	61.26	80.24	63.10	55.15	75.06	44.43	63.21
Lama-3-chinois-8b	55,88	79.53	63.70	41.14	77.03	37,98	59.21
Méta-llama-3-8b-instruit	60,75	78,55	67.07	51,65	74.51	68,69	66.87
Méta-llama-3-8b	59.47	82.09	66.69	43.90	77.35	45,79	62.55
Instructe chinois-mixtral (8x7b)	67.75	85,67	71,53	57.46	83.11	55.65	70.19
Chinois-mixtral (8x7b)	67,58	85.34	70.38	46.86	82.00	0,00	58,69

Remarque: La principale raison de la différence entre les résultats de MMLU est que les scripts d'évaluation sont différents.

Évaluation des effets quantitatifs

Sous Llama.cpp, la performance quantitative de LLAMA-3-Chinese-8b (modèle de base) a été testée comme indiqué dans le tableau ci-dessous. La vitesse de test réelle est légèrement plus lente que le LLAMA-2-7B de deuxième génération.

	F16	Q8_0	Q6_K	Q5_K	Q5_0	Q4_K	Q4_0	Q3_K	Q2_K
Taille (GB)	14.97	7.95	6.14	5.34	5.21	4.58	4.34	3.74	2.96
BPW	16h00	8.50	6.56	5.70	5.57	4.89	4.64	4.00	3.16
Ppl	5.130	5.135	5.148	5.181	5.222	5.312	5.549	5.755	11.859
Vitesse pp	5.99	6.10	7.17	7.34	6.65	6.38	6.00	6.85	6.43
TG Speed	44.03	26.08	21.61	22.33	20.93	18.93	17.09	22.50	19.21

Note

Taille du modèle: unité GB
BPW (bits par poids): bits des paramètres unitaires, par exemple, la précision moyenne réelle de Q8_0 est de 8,50
Ppl (confusion): mesuré dans un contexte 8K (longueur de support native), plus la valeur est faible, mieux
PP / TG Speed: Fournit la vitesse de production de traitement des instructions (PP) et de génération de texte (TG) d'Apple M3 Max (métal), unité MS / jeton, plus la valeur est faible, plus il est rapide.

Formation et affine

Formation manuelle et ajustement fin

Pré-formation avec des données non marquées: Wiki de script pré-formation
Utilisez des données étiquetées pour l'instruction Fine ajustement: instruction Wiki script de réglage fin

Modèle directif

Ce projet LLAMA-3-CHINEIS-INSTRUCT continue d'utiliser le modèle d'instruction d'origine LLAMA-3-INSTRUCT. Voici un ensemble d'exemples de conversation:

<| début_of_text |> <| start_header_id |> Système <| end_header_id | >>
Vous êtes un assistant serviable. <| eot_id |> <| start_header_id |> utilisateur <| end_header_id | >>
Bonjour <| eot_id |> <| start_header_id |> Assistant <| end_header_id | >>
Bonjour! Y a-t-il quelque chose qui peut vous aider? <| eot_id |>

Données d'instructions

Voici quelques-unes des données d'instructions open source de ce projet. Pour plus de détails, veuillez vérifier: données de commande

Nom de données	illustrer	quantité
alpaca_zh_51k	Données alpaga traduites à l'aide de GPT-3.5	51k
STEM_ZH_INSTRUCTION	Les données STEM ont rampé à l'aide de GPT-3.5, y compris la physique, la chimie, la médecine, la biologie et les sciences de la Terre	256K
ruozhiba_gpt4	Données de questions et réponses Ruozhiba obtenues à l'aide de GPT-4O et GPT-4T	2449

Questions fréquemment posées

Assurez-vous de vérifier si la solution existe déjà dans la FAQ avant de soumettre le problème. Pour des questions et réponses spécifiques, veuillez vous référer à ce projet Wiki GitHub

问题1：为什么没有像一期、二期项目一样做词表扩充？
问题2：会有70B版本发布吗？
问题3：为什么指令模型不叫Alpaca了？
问题4：本仓库模型能否商用？
问题5：为什么不对模型做全量预训练而是用LoRA？
问题6：为什么Llama-3-Chinese对话效果不好？
问题7：为什么指令模型会回复说自己是ChatGPT？
问题8：Instruct模型的v1（原版）和v2有什么区别？

Citation

Si vous avez utilisé des ressources pertinentes pour ce projet, veuillez vous référer au rapport technique citant ce projet: https://arxiv.org/abs/2304.08177

 @article{chinese-llama-alpaca,
    title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
    author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
    journal={arXiv preprint arXiv:2304.08177},
    url={https://arxiv.org/abs/2304.08177},
    year={2023}
}

Pour analyser s'il faut étendre la liste des mots, veuillez vous référer à la citation: https://arxiv.org/abs/2403.01851

 @article{chinese-mixtral,
      title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral}, 
      author={Cui, Yiming and Yao, Xin},
      journal={arXiv preprint arXiv:2403.01851},
      url={https://arxiv.org/abs/2403.01851},
      year={2024}
}

Clause de non-responsabilité

Ce projet est développé sur la base du modèle LLAMA-3 publié par Meta. Veuillez respecter strictement l'accord de licence open source de LLAMA-3 pendant l'utilisation. Si l'utilisation du code tiers est impliquée, assurez-vous de respecter le contrat de licence open source pertinent. Le contenu généré par le modèle peut affecter sa précision en raison des méthodes de calcul, des facteurs aléatoires et des pertes de précision quantitative. Par conséquent, ce projet ne garantit aucune garantie de l'exactitude de la sortie du modèle, et il sera responsable des pertes causées par l'utilisation des ressources pertinentes et des résultats de sortie. Si les modèles pertinents de ce projet sont utilisés à des fins commerciales, le développeur doit respecter les lois et réglementations locales pour garantir le respect du contenu de sortie du modèle. Ce projet ne sera pas responsable des produits ou services qui en ont été dérivés.

Remettre en question des commentaires

Si vous avez des questions, veuillez la soumettre dans le problème de GitHub. Posez des questions poliment et construisez une communauté de discussion harmonieuse.

Avant de soumettre la question, veuillez vérifier si la FAQ peut résoudre le problème. Il est également recommandé de vérifier si le problème précédent peut résoudre votre problème.
Pour soumettre une question, veuillez utiliser le modèle de problème défini par ce projet pour aider à localiser rapidement des questions spécifiques.
La répétition et les problèmes non liés à ce projet seront traités par STABLE-BOT. Veuillez comprendre.

Cui et Yao, 2024. Repenser l'adaptation du langage LLM: une étude de cas sur le mixtral chinois ↩

Développer

Informations supplémentaires

Version v3.0
Type Autre code source
Date de mise à jour 2025-04-16
taille 1.56MB
Provenant de Github

Applications connexes

node llama cpp

2024-11-11
llama models

2024-11-10
LLaMA Factory

2024-11-02
Code Lama

2023-10-30
Lama 2

2023-08-17
Balle d'alpaga : Allstars

2022-08-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout

Chinese LLaMA Alpaca 3

Contenu principal

nouvelles

Guidance de contenu

Introduction du modèle

Utilisez la liste des mots originaux LLAMA-3

? Une longue durée de contexte est passée de 4k à 8k dans la deuxième génération

⚡ Utiliser le regroupement pour interroger le mécanisme d'attention

? Nouveau modèle de commande

Téléchargement du modèle

Directives de sélection du modèle

Adresse de téléchargement

Raisonnement et déploiement

Effet de modèle

Générer une évaluation des effets

Évaluation de l'effet objectif

C-Eval

Cmmlu

MMLU

Secouer

LA LABEAL LLM OUVERT

Évaluation des effets quantitatifs

Formation et affine

Formation manuelle et ajustement fin

Modèle directif

Données d'instructions

Questions fréquemment posées

Citation

Clause de non-responsabilité

Remettre en question des commentaires

Notes de bas de page