?? chino | Inglés | Documentos/documentos | ❓ Preguntas/problemas | Discusiones/discusiones | ⚔️ Arena/Arena

? Cara abrazada •? Modelscope •? ️ Machine Heart Sota! Modelo • ? Wisemodel •? Demostración en línea
Este proyecto se desarrolla en base a la nueva generación del modelo de código abierto LLAMA-3, que es la tercera fase de la serie de proyectos chinos-llama-alpaca relacionados con el modelo de código abierto (Fase I y Fase II). Este modelo de código abierto de código abierto-3 Base Modelo y Chinese Llama-3-Instructo Instrucción Modelo de ajuste fino . Estos modelos utilizan datos chinos a gran escala para el pre-entrenamiento incremental basado en el LLAMA-3 original, y utilizan datos de instrucciones seleccionados para un ajuste fino, mejorando aún más las capacidades básicas de la semántica china y la comprensión de la instrucción, y obteniendo mejoras de rendimiento significativas en comparación con los modelos relacionados con la segunda generación.
Maqueta mixtral china | Maqueta china Llama-2 y Alpaca-2 | Mockup de Llama y Alpaca | Multimodal chino Llama y maqueta de alpaca | VLE multimodal | Minirbt chino | Lert chino | Inglés chino Pert | Macbert chino | Electra chino | Chino xlnet | Bert chino | Herramienta de destilación de conocimiento TextBrewer | Modelo de herramienta de recorte Textpruner | Destilación y corte de grano integrado
[2024/05/30] lanzó el modelo de instrucción LLAMA-3-CHINESE-8B-INSTRUCT-V3, que ha logrado mejoras significativas en las tareas posteriores en comparación con V1/V2. Ver detalles: registro de lanzamiento de la versión v3.0
[2024/05/08] Lanze el modelo de instrucciones LLAMA-3-CHINESE-8B-INSTRUCT-V2, directamente utilizando 5 millones de datos de instrucciones para ajustarlo en Meta-Llama-3-8B-Instructo. Ver Detalles: Registro de lanzamiento de la versión v2.0
[2024/05/07] Agregue scripts de pre-entrenamiento e instrucción Scripts de ajuste fino. Ver detalles: V1.1 REGISTRO DE VERSIÓN
[2024/04/30] Lanza el modelo base LLAMA-3-Chinese-8B y el modelo de instrucciones de instrucciones LLAMA-3-Chinese-8B-Instructo. Ver Detalles: Registro de lanzamiento de la versión V1.0
[2024/04/19] Lanza oficialmente el proyecto chino-llama-alpaca-3
| capítulo | describir |
|---|---|
| ? | Introducir brevemente las características técnicas de los modelos relevantes de este proyecto |
| ⏬ Descarga del modelo | Dirección de descarga del modelo chino-3-3 |
| Razonamiento e implementación | Presenta cómo cuantificar modelos e implementar y experimentar modelos grandes utilizando una computadora personal |
| ? Efecto de modelo | Se introduce el efecto del modelo en algunas tareas |
| Entrenamiento y melodía | Introducir cómo entrenar y ajustar el modelo chino Llama-3 |
| ❓faq | Responde a algunas preguntas frecuentes |
Este proyecto lanza el modelo de código abierto chino Llama-3-Chinese y Llama-3-Chinese-Instructo basado en Meta Llama-3. Las características principales son las siguientes:
La siguiente es una comparación del modelo de este proyecto y los escenarios de uso recomendados. Para la interacción de chat, seleccione Instruir la versión.
| Elementos de comparación | Llama-3-Chinese-8b | Llama-3-chinese-8b-instructo |
|---|---|---|
| Tipo de modelo | Modelo base | Modelo de directiva/chat (chatgpt de clase) |
| Tamaño del modelo | 8b | 8b |
| Tipo de entrenamiento | Causal-LM (CLM) | Instrucción Ajuste fino |
| Método de entrenamiento | Lora + cantidad completa EMB/lm-cabeza | Lora + cantidad completa EMB/lm-cabeza |
| Inicializar el modelo | Meta-llama-3-8b original | V1: Llama-3-Chinese-8B V2: Meta-llama-3-8B-Instructo original V3: mezcla de inst/inst-v2/inst-meta |
| Materiales de capacitación | Corpus Universal sin marcar (aproximadamente 120 GB) | Datos de instrucción marcados (aproximadamente 5 millones de piezas) |
| Tamaño de vocabulario | Vocabulario original (128,256) | Vocabulario original (128,256) |
| Admite la longitud del contexto | 8k | 8k |
| Plantilla de entrada | innecesario | Necesita aplicar la plantilla de instrucciones LLAMA-3 |
| Escenarios aplicables | Continuación del texto: dado el texto anterior, deje que el modelo genere el siguiente texto | Comprensión del comando: preguntas y respuestas, escritura, chat, interacción, etc. |
La siguiente es una comparación entre las versiones de instructos. Si no hay una preferencia clara, da prioridad a la versión Instruct-V3.
| Elementos de comparación | Instruct-v1 | Instruct-v2 | Instructo-v3 |
|---|---|---|---|
| Tiempo de lanzamiento | 2024/4/30 | 2024/5/8 | 2024/5/30 |
| Modelo básico | Meta-llama-3-8b original | Meta-llama-3-8B-Instructo original | (Ver método de entrenamiento) |
| Método de entrenamiento | Fase 1: 120G Corpus Chino Corpus Fase 2: 5 millones Datos de instrucción Ajuste de multa | Use directamente 5 millones de datos de instrucciones para ajustar | Model Fusion se realiza utilizando inst-v1, inst-v2 e inst-meta, y se obtiene mediante el ajuste de una pequeña cantidad de datos de instrucciones (~ 5k piezas) |
| Habilidad china [1] | 49.3 / 51.5 | 51.6 / 51.6 | 55.2 / 54.8 ?? |
| Competencia de inglés [1] | 63.21 | 66.68 | 66.81 ?? |
| Capacidad de texto largo [1] | 29.6 | 46.4 ?? | 40.5 |
| Mockup Arena Win tasa/Clasificación ELO [2] | 49.4% / 1430 | 66.1% / 1559 | 83.6% / 1627 ?? |
Nota
[1] El efecto de habilidad chino proviene de C-EVAL (válido); El efecto de habilidad en inglés proviene de la clasificación Open LLM (AVG); La larga habilidad de texto proviene de Longbench (AVG); Consulte la sección sobre el efecto del modelo para obtener más detalles. [2] El tiempo de adquisición del Big Model Arena Effect: 2024/5/30, solo para referencia.
| Nombre del modelo | Versión completa | Versión de Lora | Versión de Gguf |
|---|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 (Modelo de instrucciones) | [? Cara abrazada] [? Modelscope] [? Wisemodel] | N / A | [? Cara abrazada] [? Modelscope] |
| Llama-3-Chinese-8B-Instructo-V2 (Modelo de instrucciones) | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] |
| Llama-3-chinese-8b-instructo (Modelo de instrucciones) | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] |
| Llama-3-Chinese-8b (Modelo de pedestal) | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] [? Wisemodel] | [? Cara abrazada] [? Modelscope] |
Descripción del tipo de modelo:
-im eso significa que la matriz de importancia se usa para la cuantización, generalmente con personas más bajas, y se recomienda usar (el uso es el mismo que la versión regular) Nota
Si no puede acceder a HF, puede considerar algunos sitios de espejo (como HF-Mirror.com). Encuentre y resuelva los métodos específicos usted mismo.
Los modelos relevantes en este proyecto admiten principalmente los siguientes métodos de cuantificación, razonamiento e implementación. Para más detalles, consulte el tutorial correspondiente.
| herramienta | Características | UPC | GPU | Cuantificación | Guía | API | vllm | Tutorial |
|---|---|---|---|---|---|---|---|---|
| llama.cpp | Opciones de cuantización de Gguf Rich y razonamiento local eficiente | ✅ | ✅ | ✅ | ✅ | ✅ | [enlace] | |
| ? Transformadores | Interfaz de inferencia de transformadores nativos | ✅ | ✅ | ✅ | ✅ | ✅ | [enlace] | |
| Imitación de llamadas de API de Operai | Demostración del servidor que emula la interfaz API de OpenAI | ✅ | ✅ | ✅ | ✅ | ✅ | [enlace] | |
| Webui de texto de texto | Cómo implementar la interfaz de interfaz de usuario web front-end | ✅ | ✅ | ✅ | ✅ | ✅ | [enlace] | |
| LM Studio | Software de chat multiplataforma (con interfaz) | ✅ | ✅ | ✅ | ✅ | ✅ | [enlace] | |
| Ollama | Razonamiento del modelo de maqueta de ejecución local | ✅ | ✅ | ✅ | ✅ | [enlace] |
Para evaluar los efectos de los modelos relacionados, este proyecto realizó la evaluación del efecto generativo y la evaluación del efecto objetivo (clase NLU) respectivamente, y evaluó el modelo grande desde diferentes ángulos. Se recomienda que los usuarios prueben en las tareas que les preocupa y seleccione modelos que se adapten a las tareas relacionadas.
C-EVAL es un conjunto integral de evaluación del modelo básico chino, en el que el conjunto de verificación y el conjunto de pruebas contienen preguntas de opción múltiple 1.3k y 12.3k, que cubren 52 sujetos, respectivamente. Consulte este proyecto para el código de inferencia C-EVAL: GitHub Wiki
| Modelos | Válido (0-shot) | Válido (5-shot) | Prueba (0-shot) | Prueba (5-shot) |
|---|---|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 | 55.2 | 54.8 | 52.1 | 52.4 |
| Llama-3-Chinese-8B-Instructo-V2 | 51.6 | 51.6 | 49.7 | 49.8 |
| Llama-3-chinese-8b-instructo | 49.3 | 51.5 | 48.3 | 49.4 |
| Llama-3-Chinese-8b | 47.0 | 50.5 | 46.1 | 49.0 |
| Meta-llama-3-8B-Instructo | 51.3 | 51.3 | 49.5 | 51.0 |
| Meta-llama-3-8b | 49.3 | 51.2 | 46.1 | 49.4 |
| INSTRUPO MEXIMA CHINO (8X7B) | 51.7 | 55.0 | 50.0 | 51.5 |
| Chino-mixtral (8x7b) | 45.8 | 54.2 | 43.1 | 49.1 |
| Chino-alpaca-2-13b | 44.3 | 45.9 | 42.6 | 44.0 |
| Chino-llama-2-13b | 40.6 | 42.7 | 38.0 | 41.6 |
CMMLU es otro conjunto de datos de evaluación chino integral, utilizado específicamente para evaluar el conocimiento y la capacidad de razonamiento de los modelos de idiomas en el contexto chino, que cubre 67 temas de sujetos básicos a nivel profesional avanzado, con un total de 11.5k preguntas de opción múltiple. Consulte este proyecto para el código de inferencia CMMLU: GitHub Wiki
| Modelos | Prueba (0-shot) | Prueba (5-shot) |
|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 | 54.4 | 54.8 |
| Llama-3-Chinese-8B-Instructo-V2 | 51.8 | 52.4 |
| Llama-3-chinese-8b-instructo | 49.7 | 51.5 |
| Llama-3-Chinese-8b | 48.0 | 50.9 |
| Meta-llama-3-8B-Instructo | 53.0 | 53.5 |
| Meta-llama-3-8b | 47.8 | 50.8 |
| INSTRUPO MEXIMA CHINO (8X7B) | 50.0 | 53.0 |
| Chino-mixtral (8x7b) | 42.5 | 51.0 |
| Chino-alpaca-2-13b | 43.2 | 45.5 |
| Chino-llama-2-13b | 38.9 | 42.5 |
MMLU es un conjunto de datos de evaluación en inglés para evaluar la capacidad de comprensión del lenguaje natural. Es uno de los principales conjuntos de datos utilizados para evaluar las grandes capacidades del modelo hoy. El conjunto de verificación y el conjunto de pruebas contienen preguntas de opción múltiple 1.5k y 14.1k, respectivamente, que cubren 57 sujetos. Consulte este proyecto para el código de inferencia MMLU: GitHub Wiki
| Modelos | Válido (0-shot) | Válido (5-shot) | Prueba (0-shot) | Prueba (5-shot) |
|---|---|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 | 64.7 | 65.0 | 64.8 | 65.9 |
| Llama-3-Chinese-8B-Instructo-V2 | 62.1 | 63.9 | 62.6 | 63.7 |
| Llama-3-chinese-8b-instructo | 60.1 | 61.3 | 59.8 | 61.8 |
| Llama-3-Chinese-8b | 55.5 | 58.5 | 57.3 | 61.1 |
| Meta-llama-3-8B-Instructo | 63.4 | 64.8 | 65.1 | 66.4 |
| Meta-llama-3-8b | 58.6 | 62.5 | 60.5 | 65.0 |
| INSTRUPO MEXIMA CHINO (8X7B) | 65.1 | 69.6 | 67.5 | 69.8 |
| Chino-mixtral (8x7b) | 63.2 | 67.1 | 65.5 | 68.3 |
| Chino-alpaca-2-13b | 49.6 | 53.2 | 50.9 | 53.5 |
| Chino-llama-2-13b | 46.8 | 50.0 | 46.6 | 51.8 |
Longbench es un punto de referencia para evaluar la capacidad de comprensión de texto largo de un modelo grande. Consiste en 6 categorías principales y 20 tareas diferentes. La longitud promedio de la mayoría de las tareas es entre 5K-15K, y contiene aproximadamente 4.75k datos de prueba. El siguiente es el efecto de evaluación de este modelo de proyecto en esta tarea china (incluidas las tareas del código). Consulte este proyecto para el código de inferencia de Longbench: GitHub Wiki
| Modelos | QA de documento único | QA multi-documento | resumen | Aprendizaje de FS | Código | síntesis | promedio |
|---|---|---|---|---|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 | 20.3 | 28.8 | 24.5 | 28.1 | 59.4 | 91.9 | 40.5 |
| Llama-3-Chinese-8B-Instructo-V2 | 57.3 | 27.1 | 13.9 | 30.3 | 60.6 | 89.5 | 46.4 |
| Llama-3-chinese-8b-instructo | 44.1 | 24.0 | 12.4 | 33.5 | 51.8 | 11.5 | 29.6 |
| Llama-3-Chinese-8b | 16.4 | 19.3 | 4.3 | 28.7 | 14.3 | 4.6 | 14.6 |
| Meta-llama-3-8B-Instructo | 55.1 | 15.1 | 0.1 | 24.0 | 51.3 | 94.5 | 40.0 |
| Meta-llama-3-8b | 21.2 | 22.9 | 2.7 | 35.8 | 65.9 | 40.8 | 31.6 |
| INSTRUPO MEXIMA CHINO (8X7B) | 50.3 | 34.2 | 16.4 | 42.0 | 56.1 | 89.5 | 48.1 |
| Chino-mixtral (8x7b) | 32.0 | 23.7 | 0.4 | 42.5 | 27.4 | 14.0 | 23.3 |
| Chino-alpaca-2-13b-16k | 47.9 | 26.7 | 13.0 | 22.3 | 46.6 | 21.5 | 29.7 |
| Chino-llama-2-13b-16k | 36.7 | 17.7 | 3.1 | 29.8 | 13.8 | 3.0 | 17.3 |
| Chino-alpaca-2-7b-64k | 44.7 | 28.1 | 14.4 | 39.0 | 44.6 | 5.0 | 29.3 |
| Chino-llama-2-7B-64K | 27.2 | 16.4 | 6.5 | 33.0 | 7.8 | 5.0 | 16.0 |
Open LLM Roadboard es un gran modelo de evaluación de capacidades integral de modelo (inglés) iniciado por el equipo Huggingfaceh4, que incluye 6 pruebas individuales que incluyen ARC, HellaSwag, MMLU, Lucinffulqa, Winograde, GSM8K. El siguiente es el efecto de evaluación de este modelo de proyecto en esta lista.
| Modelos | ARCO | Hella | MMLU | TQA | Winog | GSM8K | promedio |
|---|---|---|---|---|---|---|---|
| Llama-3-Chinese-8B-Instructo-V3 | 63.40 | 80.51 | 67.90 | 53.57 | 76.24 | 59.21 | 66.81 |
| Llama-3-Chinese-8B-Instructo-V2 | 62.63 | 79.72 | 66.48 | 53.93 | 76.72 | 60.58 | 66.68 |
| Llama-3-chinese-8b-instructo | 61.26 | 80.24 | 63.10 | 55.15 | 75.06 | 44.43 | 63.21 |
| Llama-3-Chinese-8b | 55.88 | 79.53 | 63.70 | 41.14 | 77.03 | 37.98 | 59.21 |
| Meta-llama-3-8B-Instructo | 60.75 | 78.55 | 67.07 | 51.65 | 74.51 | 68.69 | 66.87 |
| Meta-llama-3-8b | 59.47 | 82.09 | 66.69 | 43.90 | 77.35 | 45.79 | 62.55 |
| INSTRUPO MEXIMA CHINO (8X7B) | 67.75 | 85.67 | 71.53 | 57.46 | 83.11 | 55.65 | 70.19 |
| Chino-mixtral (8x7b) | 67.58 | 85.34 | 70.38 | 46.86 | 82.00 | 0.00 | 58.69 |
Nota: La razón principal de la diferencia entre los resultados de MMLU es que los scripts de evaluación son diferentes.
Bajo LLAMA.CPP, el rendimiento cuantitativo de Llama-3-Chinese-8B (modelo base) se probó como se muestra en la tabla a continuación. La velocidad de prueba real es ligeramente más lenta que la LLAMA-2-7B de segunda generación.
| F16 | Q8_0 | Q6_K | Q5_K | Q5_0 | Q4_K | Q4_0 | Q3_K | Q2_K | |
|---|---|---|---|---|---|---|---|---|---|
| Tamaño (GB) | 14.97 | 7.95 | 6.14 | 5.34 | 5.21 | 4.58 | 4.34 | 3.74 | 2.96 |
| Bpw | 16.00 | 8.50 | 6.56 | 5.70 | 5.57 | 4.89 | 4.64 | 4.00 | 3.16 |
| Ppl | 5.130 | 5.135 | 5.148 | 5.181 | 5.222 | 5.312 | 5.549 | 5.755 | 11.859 |
| Velocidad de PP | 5.99 | 6.10 | 7.17 | 7.34 | 6.65 | 6.38 | 6.00 | 6.85 | 6.43 |
| Velocidad TG | 44.03 | 26.08 | 21.61 | 22.33 | 20.93 | 18.93 | 17.09 | 22.50 | 19.21 |
Nota
Este proyecto Llama-3-Chinese-Instructo continúa utilizando la plantilla de instrucción de instrucciones LLAMA-3 original. Aquí hay un conjunto de ejemplos de conversación:
<| begin_of_text |> <| start_header_id |> sistema <| end_header_id | >>
Eres un asistente útil. <| eot_id |> <| start_header_id |> user <| end_header_id | >>
Hola <| eot_id |> <| start_header_id |> Assistant <| end_header_id | >>
¡Hola! ¿Hay algo que pueda ayudarte? <| eot_id |>
Los siguientes son algunos de los datos de instrucciones de código abierto de este proyecto. Para obtener más detalles, verifique: datos de comando
| Nombre de datos | ilustrar | cantidad |
|---|---|---|
| alpaca_zh_51k | Datos de Alpaca traducidos usando GPT-3.5 | 51k |
| stem_zh_instruction | Los datos de STEM se arrastran con GPT-3.5, incluyendo física, química, medicina, biología y ciencias de la tierra | 256k |
| ruozhiba_gpt4 | Datos de preguntas y respuestas de Ruozhiba obtenidas utilizando GPT-4O y GPT-4T | 2449 |
Asegúrese de verificar si la solución ya existe en las preguntas frecuentes antes de enviar el problema. Para preguntas y respuestas específicas, consulte este proyecto Wiki Github
问题1:为什么没有像一期、二期项目一样做词表扩充?
问题2:会有70B版本发布吗?
问题3:为什么指令模型不叫Alpaca了?
问题4:本仓库模型能否商用?
问题5:为什么不对模型做全量预训练而是用LoRA?
问题6:为什么Llama-3-Chinese对话效果不好?
问题7:为什么指令模型会回复说自己是ChatGPT?
问题8:Instruct模型的v1(原版)和v2有什么区别?
Si ha utilizado recursos relevantes para este proyecto, consulte el informe técnico que cita este proyecto: https://arxiv.org/abs/2304.08177
@article{chinese-llama-alpaca,
title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
journal={arXiv preprint arXiv:2304.08177},
url={https://arxiv.org/abs/2304.08177},
year={2023}
}
Para el análisis de si se debe expandir la lista de palabras, consulte la cita: https://arxiv.org/abs/2403.01851
@article{chinese-mixtral,
title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral},
author={Cui, Yiming and Yao, Xin},
journal={arXiv preprint arXiv:2403.01851},
url={https://arxiv.org/abs/2403.01851},
year={2024}
}
Este proyecto se desarrolla basado en el modelo LLAMA-3 publicado por Meta. Por favor, cumpla estrictamente con el acuerdo de licencia de código abierto de LLAMA-3 durante el uso. Si se trata de usar código de terceros, asegúrese de cumplir con el acuerdo de licencia de código abierto correspondiente. El contenido generado por el modelo puede afectar su precisión debido a métodos de cálculo, factores aleatorios y pérdidas cuantitativas de precisión. Por lo tanto, este proyecto no proporciona ninguna garantía para la precisión de la salida del modelo, ni será responsable de las pérdidas causadas por el uso de recursos relevantes y resultados de salida. Si los modelos relevantes de este proyecto se utilizan con fines comerciales, el desarrollador cumplirá con las leyes y regulaciones locales para garantizar el cumplimiento del contenido de salida del modelo. Este proyecto no será responsable de ningún producto o servicio derivado de ellos.
Si tiene alguna pregunta, envíelo en el problema de GitHub. Haga preguntas cortésmente y cree una comunidad de discusión armoniosa.
Cui y Yao, 2024. Repensar la adaptación del lenguaje LLM: un estudio de caso sobre mixtral chino ↩