Download Chinese Mixtral - Download Chinese Mixtral

Chinese Mixtral

Outro código-fonte

v1.2

Baixar

Este projeto é desenvolvido com base no modelo mixtral lançado pelo Mistral.ai, que usa a arquitetura MOE esparsa. Este projeto utiliza dados sem rótulos chineses em larga escala para realizar treinamento incremental chinês para obter o modelo básico misto chinês e utilizar ainda mais a instrução ajuste fino para obter o modelo de instrução de instrução mixtral chinesa . O modelo suporta nativamente o contexto de 32k (testado até 128k) , que pode efetivamente processar texto longo e, ao mesmo tempo, obter melhorias significativas de desempenho no raciocínio matemático, geração de código etc. Ao usar llama.cpp para raciocínio quantitativo, ele só é de 16G de memória (ou memória de vídeo).

Relatório Técnico : [CUI e YAO, 2024] Repensando a adaptação ao idioma LLM: um estudo de caso sobre mixtral chinês [interpretação do papel]

Conteúdo principal deste projeto

O modelo básico mixtral chinês de código aberto, que é baseado no mixtral-8x7b-v0.1 e é um treinamento incremental em chinês.
Modelo de instrução de instrução mista chinesa de código aberto, que executa ainda mais a instrução de ajuste fino com base no mixtral chinês
Scripts de pré-treinamento de código aberto e scripts de ajuste fino, os usuários podem treinar ou ajustar ainda mais o modelo, conforme necessário.
Fornece tutoriais para quantificar e implantar rapidamente modelos de larga escala localmente usando CPU/GPU de computador pessoal
Suporta ecologia mista como Transformers, llama.cpp, geração de texto-webui, langchain, privategpt, vllm, etc.

notícias

[2024/04/30] Chinês-llama-alpaca-3 foi lançado oficialmente, Llama-3-Chinese-8b de código aberto e LLAMA-3-CHINES-8B-Instruct baseado em llama-3, consulte: https://github.com/ymcui/chinese-lama-alpaca-alpaca-lpaça-

[2024/03/27] Adicionar versão quantitativa de 1 bit/2 bits/3 bits do modelo GGUF: [? HF]; Ao mesmo tempo, este projeto foi implantado no coração da STATA SOTA! Modelo Plataforma, Bem-vindo a seguir: https://sota.jiqizhixin.com/project/chinese-mixtral

[2024/03/26] Adicione um modo de implantação MIMIC OpenAI API. View Detalhes: V1.2 Log de versão da versão

[2024/03/05] Treinamento de modelo de código aberto e código de ajuste fino, publique relatórios técnicos. View Detalhes: V1.1 Log de versão da versão

[2024/01/29] lançou oficialmente o chinês-mixtral (modelo básico) e a instrução chinesa-mixtral (modelo de instrução/bate-papo). View Detalhes: V1.0 Log de versão da versão

Orientação de conteúdo

capítulo	descrever
?? ‍♂️Model Introdução	Apresente brevemente as características técnicas dos modelos relevantes deste projeto
⏬Model Download	Endereço de download do modelo mixtral chinês
Raciocínio e implantação	Introduz como quantificar modelos e implantar e experimentar modelos grandes usando um computador pessoal
? Efeito do modelo	O efeito do modelo em algumas tarefas é introduzido
Treinamento e Tune Fine	Apresentando como treinar e ajustar o modelo mixtral chinês
❓faq	Respostas a algumas perguntas frequentes

Introdução ao modelo

Este projeto, os modelos Mixtral-Mixtral-Instruções Mixtral de código aberto desenvolvidas com base no modelo mixtral, e seus principais recursos são os seguintes:

Modelo de especialista híbrido esparso

Mixtral é um modelo de especialista híbrido esparso. Este modelo possui diferenças significativas em relação aos modelos anteriores em larga escala, como o LLAMA, que se reflete principalmente nos seguintes pontos:

Cada camada FFN contém 8 "especialistas" diferentes (camadas de conexão completa), e os 2 ótimos são selecionados de acordo com o valor do portão para ativação.
Cada token na sequência de entrada selecionará especialistas de forma independente, em vez de um grupo de especialistas em toda a sequência.
A quantidade real de parâmetro é de cerca de 46,7b e a quantidade de parâmetro ativada durante a inferência é de cerca de 13b.

A seguir, é apresentado um diagrama estrutural no papel mixtral:

? Suporta nativamente o contexto de 32k (na verdade testado suporta 128k)

Ao contrário dos projetos chineses-lama-alpaca e chinês-lama-alpaca-2, o modelo mixtral suporta nativamente o contexto de 32k (a medição real pode atingir 128k). Os usuários podem usar um único modelo para resolver várias tarefas de diferentes comprimentos.

Download do modelo

Diretrizes de seleção de modelos

A seguir, é apresentada uma comparação do modelo deste projeto e dos cenários de uso recomendado. Para interação de bate -papo, selecione a versão Instruct.

Itens de comparação	Mixtral chinês	Instrução mista chinesa
Tipo de modelo	Modelo base	Modelo de diretiva/bate -papo (classe chatgpt)
Tamanho do modelo	8x7b (na verdade ativado cerca de 13b)	8x7b (na verdade ativado cerca de 13b)
Número de especialistas	8 (na verdade ativado 2)	8 (na verdade ativado 2)
Tipo de treinamento	Causal-lm (CLM)	Instrução Ajuste fino
Método de treinamento	Qlora + quantidade completa emb/lm-cabeça	Qlora + quantidade completa emb/lm-cabeça
Que modelo para treinar	Mixtral-8x7b-v0.1 original	Mixtral chinês
Materiais de treinamento	Ensaio geral não marcado	Dados de instrução rotulados
Tamanho do vocabulário	Lista de vocabulário original, 32000	Lista de vocabulário original, 32000
Suporta o comprimento do contexto	32k (na verdade medido até 128k)	32k (na verdade medido até 128k)
Modelo de entrada	desnecessário	Precisa aplicar o modelo de instrução mixtral
Cenários aplicáveis	Continuação do texto: Dado o texto acima, deixe o modelo gerar o seguinte texto	Entendimento de comando: Perguntas e respostas, escrita, bate -papo, interação, etc.

Endereço para download

Aqui estão três tipos diferentes de modelos:

Versão completa do modelo : ele pode ser usado diretamente sem outras etapas de mesclagem. É recomendado para usuários com largura de banda de rede suficiente;
Lora Version Model : não pode ser usado sozinho. Ele deve ser mesclado com o mixtral-8x7b-v0.1 original para ser convertido no modelo de versão completa. Recomenda -se que os usuários que tenham largura de banda de rede insuficiente e tenham o mixtral original em mãos. Para o método de mesclagem, consulte: Modelo de etapas de mesclagem
Modelo de versão GGUF : Modelo de versão quantitativa GGUF compatível com llama.cpp e outras ferramentas. Recomenda -se baixar usuários que só precisam fazer implantação de inferência.

Nome do modelo	tipo	Especificação	Versão completa (87 GB)	Lora versão (2,4 GB)	Versão GGUF
Mixtral chinês	Modelo base	8x7b	[Baidu] [? HF] [? ModelsCope]	[Baidu] [? HF] [? ModelsCope]	[? HF]
Instrução chinesa-mixtral	Modelo de instrução	8x7b	[Baidu] [? HF] [? ModelsCope]	[Baidu] [? HF] [? ModelsCope]	[? HF]

Observação

Se você não puder acessar a HF, pode considerar alguns sites de espelho (como hf-mirror.com). Encontre e resolva os métodos específicos você mesmo.

Raciocínio e implantação

Os modelos relevantes deste projeto suportam principalmente os seguintes métodos de quantização, raciocínio e implantação. Para detalhes, consulte o tutorial correspondente.

ferramenta	Características	CPU	GPU	Quantificação	GUI	API	vllm	Tutorial
llama.cpp	Ricas opções quantitativas e raciocínio local eficiente	✅	✅	✅		✅		[link]
? Transformadores	Interface de inferência dos transformadores nativos	✅	✅	✅	✅		✅	[link]
Imitação de chamadas de API OpenAi	Demoção do servidor que emula a interface da API OpenAi	✅	✅	✅		✅	✅	[link]
GENERAÇÃO DE TEXTO-WEBUI	Como implantar a interface da interface do usuário do front-end	✅	✅	✅	✅	✅		[link]
Langchain	Estrutura de código aberto para aplicativos em larga escala adequados para desenvolvimento secundário	✅	✅	✅				[link]
privategpt	Multi-documenting Local Pergunta e estrutura de respostas	✅	✅	✅				[link]
LM Studio	Software de bate-papo com várias plataformas (com interface)	✅	✅	✅	✅	✅		[link]

Efeito do modelo

Para avaliar os efeitos de modelos relacionados, este projeto conduziu avaliação de efeitos generativos e avaliação de efeitos objetivos (classe NLU), respectivamente, e avaliou o grande modelo de diferentes ângulos. Recomenda -se que os usuários testem as tarefas com as quais se preocupem e selecione modelos que se adaptam às tarefas relacionadas.

Gerar avaliação de efeitos

Este projeto lançou uma plataforma de batalha de modelo on -line modelada após o FastChat Chatbot Arena, que pode navegar e avaliar a qualidade das respostas do modelo. A plataforma de batalha fornece indicadores de avaliação, como taxa de vitória e pontuação ELO, e pode ver os resultados da taxa de vitória do modelo par. Arena Model Arena: http://llm-arena.ymcui.com
O diretório de exemplos fornece os exemplos de saída de instrução chinesa-mixtral e chinês-alpaca-2-13b, e a pontuação é comparada com o GPT-4. A pontuação média da instrução chinesa-mixtral é de 8,20 e a pontuação média de chinês-alpaca-2-13b é de 7,05 . ? Comparação de amostra de saída: exemplos

Avaliação do efeito objetivo

C-EVAL

O C-EVAL é um conjunto abrangente de avaliação de modelo básico chinês, no qual o conjunto de verificação e o conjunto de testes contêm perguntas de 1,3 mil e 12,3k, cobrindo 52 indivíduos, respectivamente. Consulte este projeto para o código de inferência C-EVAL: Github Wiki

Modelos	tipo	Válido (0-shot)	Válido (5-shot)	Teste (0-shot)	Teste (5-shot)
Instrução chinesa-mixtral	instrução	51.7	55.0	50.0	51.5
Mixtral chinês	Pedestal	45.8	54.2	43.1	49.1
Mixtral-8x7b-Instruct-v0.1	instrução	51.6	54.0	48.7	50.7
Mixtral-8x7b-v0.1	Pedestal	47.3	54.6	46.1	50.3
Chinês-alpaca-2-13b	instrução	44.3	45.9	42.6	44.0
Chinês-llama-2-13b	Pedestal	40.6	42.7	38.0	41.6

Cmmlu

O CMMLU é outro conjunto de dados abrangente de avaliação chinesa, usado especificamente para avaliar o conhecimento e a capacidade de raciocínio dos modelos de linguagem no contexto chinês, cobrindo 67 tópicos de assuntos básicos a nível profissional avançado, com um total de 11,5 mil perguntas de múltipla escolha. Consulte este projeto para o Código de Inferência CMMLU: Github Wiki

Modelos	tipo	Teste (0-shot)	Teste (5-shot)
Instrução chinesa-mixtral	instrução	50.0	53.0
Mixtral chinês	Pedestal	42.5	51.0
Mixtral-8x7b-Instruct-v0.1	instrução	48.2	51.6
Mixtral-8x7b-v0.1	Pedestal	44.3	51.6
Chinês-alpaca-2-13b	instrução	43.2	45.5
Chinês-llama-2-13b	Pedestal	38.9	42.5

Mmlu

O MMLU é um conjunto de dados de avaliação em inglês para avaliar a capacidade de compreensão da linguagem natural. É um dos principais conjuntos de dados usados para avaliar hoje grandes recursos de modelo. O conjunto de verificação e o conjunto de testes contêm perguntas de 1,5 mil e 14,1k de múltipla escolha, respectivamente, cobrindo 57 indivíduos. Consulte este projeto para MMLU Código de Inferência: Github Wiki

Modelos	tipo	Válido (0-shot)	Válido (5-shot)	Teste (0-shot)	Teste (5-shot)
Instrução chinesa-mixtral	instrução	65.1	69.6	67.5	69.8
Mixtral chinês	Pedestal	63.2	67.1	65.5	68.3
Mixtral-8x7b-Instruct-v0.1	instrução	68.5	70.4	68.2	70.2
Mixtral-8x7b-v0.1	Pedestal	64.9	69.0	67.0	69.5
Chinês-alpaca-2-13b	instrução	49.6	53.2	50.9	53.5
Chinês-llama-2-13b	Pedestal	46.8	50.0	46.6	51.8

Longbench

O Longbench é uma referência para avaliar a capacidade de compreensão de texto longa de um modelo grande. Consiste em 6 categorias principais e 20 tarefas diferentes. O comprimento médio da maioria das tarefas está entre 5K-15k e contém cerca de 4,75k de dados de teste. A seguir, é apresentado o efeito de avaliação deste modelo de projeto nessa tarefa chinesa (incluindo tarefas de código). Consulte este projeto para o Código de Inferência de Longbench: Github Wiki

Modelos	QA de documento único	QA de vários documentos	resumo	Aprendizagem do FS	Conclusão do código	Tarefa de síntese	média
Instrução chinesa-mixtral	50.3	34.2	16.4	42.0	56.1	89.5	48.1
Mixtral chinês	32.0	23.7	0,4	42.5	27.4	14.0	23.3
Mixtral-8x7b-Instruct-v0.1	56.5	35.7	15.4	46.0	63.6	98.0	52.5
Mixtral-8x7b-v0.1	35.5	9.5	16.4	46.5	57.2	83.5	41.4
Chinês-alpaca-2-13b-16k	47.9	26.7	13.0	22.3	46.6	21.5	29.7
Chinês-llama-2-13b-16k	36.7	17.7	3.1	29.8	13.8	3.0	17.3
Chinês-alpaca-2-7b-64k	44.7	28.1	14.4	39.0	44.6	5.0	29.3
Chinês-llama-2-7b-64K	27.2	16.4	6.5	33.0	7.8	5.0	16.0

Avaliação de efeitos quantitativos

De acordo com o LLAMA.CPP, o desempenho do modelo de versão quantitativa chinês-mixtral foi testado, como mostrado na tabela a seguir.

	F16	Q8_0	Q6_K	Q5_K	Q5_0	Q4_K	Q4_0	Q3_K	Iq3_xxs	Q2_K	Iq2_xs	Iq2_xxs
Tamanho (GB)	87.0	46.2	35.7	30.0	30.0	24.6	24.6	19.0	17.1	16.1	12.7	11.4
BPW	16.0	8.50	6.57	5.69	5.52	4.87	4.53	3.86	3.14	2.96	2.34	2.10
Ppl	-	4.4076	4.4092	4.4192	4.4224	4.4488	4.4917	4.5545	4.5990	5.1846	6.9784	8.5981
M3 Velocidade máxima	-	-	36.0	36.9	35.7	31.2	27.8	37.6	-	29.1	-	-
A100 Velocidade	-	-	29.9	22.6	20.5	21.7	17.1	21.7	20.6	20.3	23.7	22.5

Observação

Tamanho do modelo: unidade GB
BPW (bits por peso): bits de parâmetros da unidade, por exemplo, a precisão média real de Q6_K é 6,57
Ppl (confusão): medido no contexto 4K, quanto menor o valor, melhor
Velocidade de geração: fornece a velocidade de geração (unidade MS/Token) do Apple M3 Max (Metal) e NVIDIA A100 (40G). Quanto menor o valor, melhor

Tomando chinês-mixtral-q4_0 como exemplo, a figura abaixo mostra a tendência de alteração de PPL sob diferentes comprimentos de contexto e dois conjuntos diferentes de dados de texto simples foram selecionados. Os resultados experimentais mostram que o comprimento do contexto suportado pelo modelo mixtral excedeu o nominal 32K e ainda tem um bom desempenho abaixo do contexto de 64k+ (na verdade medido até 128k).

Treinamento e Tune Fine

Pré-treinamento

Com base no mixtral original e em larga escala, dados são usados para treinamento incremental para obter o modelo de pedestal chinês-mixtral
Os dados de treinamento usam dados consistentes com o modelo de versão básica no projeto Chinês-Lama-Alpaca, com um total de cerca de 20g de arquivos de texto sem formatação.
Código de treinamento e tutorial de uso: wiki de script pré-treinamento

Instrução Ajuste fino

Baseado em chinês-mixtral, o modelo de instrução chinês-Mixtral-Instruct é obtido por mais ajuste fino usando dados de instrução marcados para obter o modelo de instrução de instrução chinês-mixtral
Os dados de treinamento usam os dados de instrução usados no projeto chinês-lama-alpaca-2, com um total de cerca de 5 milhões de dados de instruções.
Código de treinamento e tutorial de uso: Instruções Wiki de script de ajuste fino

Modelo de diretiva:

 <s> [INST] Instruction [/INST] Model answer</s> [INST] Follow-up instruction [/INST]

Nota: <s> e </s> são tokens especiais que representam o início e o fim de uma sequência, enquanto [INST] e [/INST] são seqüências comuns.

Perguntas frequentes

Verifique se a solução já existe nas perguntas frequentes antes de mencionar o problema. Para perguntas e respostas específicas, consulte este projeto Github Wiki

问题1：后续会不会用更多数据进行训练？会不会做RLHF/DPO对齐？
问题2：为什么本次的模型没有做中文词表扩展？
问题3：是否支持Mixtral的下游生态？

Citar

@article{chinese-mixtral,
      title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral}, 
      author={Cui, Yiming and Yao, Xin},
      journal={arXiv preprint arXiv:2403.01851},
      url={https://arxiv.org/abs/2403.01851},
      year={2024}
}

Isenção de responsabilidade

Este projeto é desenvolvido com base no modelo mixtral publicado pelo Mistral.ai. Por favor, respeite estritamente o contrato de licença de código aberto mixtral durante o uso. Se o uso de código de terceiros estiver envolvido, certifique-se de cumprir o contrato de licença de código aberto relevante. O conteúdo gerado pelo modelo pode afetar sua precisão devido a métodos de cálculo, fatores aleatórios e perdas de precisão quantitativa. Portanto, este projeto não fornece nenhuma garantia para a precisão da saída do modelo, nem será responsável por quaisquer perdas causadas pelo uso de recursos relevantes e resultados de saída. Se os modelos relevantes deste projeto forem usados para fins comerciais, o desenvolvedor deve cumprir as leis e regulamentos locais para garantir a conformidade com o conteúdo de saída do modelo. Este projeto não se responsabiliza por quaisquer produtos ou serviços derivados daí.

Pergunta feedback

Se você tiver alguma dúvida, envie -o no problema do GitHub. Faça perguntas educadamente e construa uma comunidade de discussão harmoniosa.

Antes de enviar a pergunta, verifique se as perguntas frequentes podem resolver o problema. Também é recomendável verificar se o problema anterior pode resolver seu problema.
Para enviar uma pergunta, use o modelo de problema definido por este projeto para ajudar a localizar rapidamente perguntas específicas.
Repita e os problemas não relacionados a este projeto serão processados pelo estábulo. Por favor, entenda.

Expandir

Informações adicionais

Versão v1.2
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 454.47KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Jogos DOS chineses (jogos DOS chineses no navegador) versão oficial do código-fonte do projeto

2022-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos