Chinese LLaMA Alpaca 3 download - Chinese LLaMA Alpaca 3 download de código fonte

Chinese LLaMA Alpaca 3

Outro código-fonte

v3.0

Baixar

? Abraçando o rosto •? Modelscope •? ️ Máquina coração SOTA! Modelo • ? WiseModel •? Demonstração online

Este projeto é desenvolvido com base na nova geração do modelo de código aberto LLAMA-3, que é a terceira fase da série de projetos chineses-lama-alpaca relacionados ao modelo de código aberto (Fase I e Fase II). Este projeto Open Open Chinese Llama-3 Base Model e Modelo de Ajuste de Instruções de Instrução Llama-3 Chinês . Esses modelos usam dados chineses em larga escala para pré-treinamento incremental com base no LLAMA-3 original e usam dados de instruções selecionadas para ajuste fino, melhorando ainda mais os recursos básicos de semântica e compreensão de instruções chinesas e obtendo melhorias significativas de desempenho em comparação com os modelos relacionados à segunda geração.

Conteúdo principal

Modelo de dock de llama-3-Chinese de código aberto e modelo de instrução llama-3-chinese-instruct (v1, v2, v3)
Scripts de pré-treinamento de código aberto e scripts de ajuste fino, os usuários podem treinar ou ajustar ainda mais o modelo, conforme necessário.
Open Source Alpaca_ZH_51K, STEM_ZH_INSTRUÇÃO, RUOZIBA_GPT4 (4O/4T) Dados de ajuste fino de instrução
Fornece tutoriais para quantificar e implantar rapidamente modelos de larga escala localmente usando CPU/GPU de computador pessoal
Suporta ecologia llama-3, como Transformers, llama.cpp, text-geração-webui, vllm, ollama, etc.

notícias

[2024/05/30] lançaram o modelo de instrução LLAMA-3-CHINESE-8B-Instrut-V3, que alcançou melhorias significativas nas tarefas a jusante em comparação com V1/V2. View Detalhes: V3.0 Log de versão da versão

[2024/05/08] Libere o modelo de instrução LLAMA-3-CHINESE-8B-Instrut-V2, usando diretamente 5 milhões de dados de instruções para ajustá-los no meta-lama-3-8b-instrução. View Detalhes: V2.0 Log de versão da versão

[2024/05/07] Adicione scripts de pré-treino e scripts de ajuste fino. View Detalhes: V1.1 Log de versão da versão

[2024/04/30] Libere o modelo de base LLAMA-3-CHINESE-8B e o modelo de instrução LLAMA-3-CHINESE-8B-INSTRUTA. View Detalhes: V1.0 Log de versão da versão

[2024/04/19] Lançar oficialmente o projeto chinês-lama-alpaca-3

Orientação de conteúdo

capítulo	descrever
?? ‍♂️Model Introdução	Apresente brevemente as características técnicas dos modelos relevantes deste projeto
⏬Model Download	Endereço de download do Big Modelo Lhama-3 Big Chinese
Raciocínio e implantação	Introduz como quantificar modelos e implantar e experimentar modelos grandes usando um computador pessoal
? Efeito do modelo	O efeito do modelo em algumas tarefas é introduzido
Treinamento e Tune Fine	Apresentando como treinar e ajustar o modelo chinês llama-3
❓faq	Respostas a algumas perguntas frequentes

Introdução ao modelo

Este projeto lança o modelo chinês de código aberto llama-3-chinese e llama-3-chinese-instruct baseado no meta llama-3. Os principais recursos são os seguintes:

Use a lista original de palavras llama-3

Comparado com suas duas gerações anteriores, o LLAMA-3 expandiu significativamente o tamanho do vocabulário, de 32K para 128K, e foi alterado para a lista de vocabulário do BPE.
Experimentos preliminares descobriram que a eficiência da codificação da lista de palavras llama-3 é comparável à de nossa lista de vocabulário prolongada, com uma eficiência de cerca de 95% da lista de palavras chinesa (com base no teste de eficiência de codificação nos dados da Wikipedia)
Com base em nossa experiência relevante em conclusões mixtrais e experimentais chinesas ¹ , não adicionamos vocabulário adicional

? O comprimento do contexto longo é expandido de 4k para 8k na segunda geração

LLAMA-3 Aumenta o comprimento da janela de contexto nativo de 4k para 8k, permitindo um processamento adicional de informações de contexto mais longas
Os usuários também podem estender o modelo com um contexto longo através do PI, NTK, YARN e outros métodos para apoiar o processamento de textos mais longos.

⚡ Use o agrupamento para consultar o mecanismo de atenção

O LLAMA-3 adota o mecanismo de atenção da consulta de agrupamento (GQA) aplicado à versão de grande parâmetro no llama-2, que pode melhorar ainda mais a eficiência do modelo.

? Novo modelo de comando

O LLAMA-3-Instruct adota um novo modelo de instrução, que é incompatível com o lhama-2-chat. Ele deve seguir o modelo de instrução oficial ao usá -lo (consulte o modelo de instrução)

Download do modelo

Diretrizes de seleção de modelos

A seguir, é apresentada uma comparação do modelo deste projeto e dos cenários de uso recomendado. Para interação de bate -papo, selecione a versão Instruct.

Itens de comparação	Llama-3-chinese-8b	LLAMA-3-CHINESE-8B-INSTRUTA
Tipo de modelo	Modelo base	Modelo de diretiva/bate -papo (classe chatgpt)
Tamanho do modelo	8b	8b
Tipo de treinamento	Causal-lm (CLM)	Instrução Ajuste fino
Método de treinamento	Lora + quantidade total de inc/lm-cabeça	Lora + quantidade total de inc/lm-cabeça
Inicialize o modelo	Meta-llama-3-8b original	v1: llama-3-chinese-8b V2: META-LLAMA-3-8B-INSTRUTA ORIGINAL v3: mistura de inst/inst-v2/inst-meta
Materiais de treinamento	Corpus universal não marcado (aproximadamente 120 GB)	Dados de instrução marcados (cerca de 5 milhões de peças)
Tamanho do vocabulário	Vocabulário original (128.256)	Vocabulário original (128.256)
Suporta o comprimento do contexto	8k	8k
Modelo de entrada	desnecessário	Precisa aplicar o modelo LLAMA-3-Instruct
Cenários aplicáveis	Continuação do texto: Dado o texto acima, deixe o modelo gerar o seguinte texto	Entendimento de comando: Perguntas e respostas, escrita, bate -papo, interação, etc.

A seguir, é apresentada uma comparação entre as versões de instrução. Se não houver preferência clara, dê prioridade à versão Instruct-V3.

Itens de comparação	Instruct-V1	Instruct-V2	Instruct-V3
Tempo de liberação	2024/4/30	2024/5/8	2024/5/30
Modelo básico	Meta-llama-3-8b original	META-LLAMA-3-8B ORIGINAL	(Consulte o método de treinamento)
Método de treinamento	Fase 1: 120G Corpus chinês Pré-treinamento Fase 2: 5 milhões de dados de instruções Ajuste fino	Use diretamente 5 milhões de dados de instruções para ajustar	A fusão do modelo é realizada usando Inst-V1, Inst-V2 e Inst-Meta, e é obtida por ajuste fino de uma pequena quantidade de dados de instruções (~ 5k peças)
Habilidade chinesa ^[1]	49.3 / 51.5	51.6 / 51.6	55.2 / 54.8 ??
Proficiência em inglês ^[1]	63.21	66.68	66,81 ??
Capacidade longa de texto ^[1]	29.6	46.4 ??	40.5
Rating de vitória/ELO da Arena Mockup ^[2]	49,4% / 1430	66,1% / 1559	83,6% / 1627 ??

Observação

[1] O efeito da habilidade chinês vem do C-EVAL (válido); O efeito da habilidade em inglês vem da tabela de classificação Open LLM (AVG); A habilidade de texto longa vem de Longbench (AVG); Consulte a seção sobre o efeito do modelo para obter detalhes. [2] O tempo de aquisição do grande efeito da arena do modelo: 2024/5/30, apenas para referência.

Endereço para download

Nome do modelo	Versão completa	Versão lora	Versão GGUF
Llama-3-chinese-8b-Instruct-v3 (Modelo de instrução)	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	N / D	[? Abraçando o rosto] [? ModelsCope]
Llama-3-chinese-8b-Instruct-v2 (Modelo de instrução)	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope]
LLAMA-3-CHINESE-8B-INSTRUTA (Modelo de instrução)	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope]
Llama-3-chinese-8b (Modelo Pedestal)	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope] [? WiseModel]	[? Abraçando o rosto] [? ModelsCope]

Descrição do tipo de modelo:

Modelo completo : pode ser usado diretamente para treinamento e raciocínio sem etapas adicionais de fusão
Modelo Lora : ele precisa ser mesclado com o modelo básico antes que ele possa ser convertido em uma versão completa do modelo. Método de mesclagem: Etapas de fusão de modelos
- V1 Modelo Básico: Meta-lama original-3-8b
- V2 Modelo Básico: META-LLAMA-3-8B-INSTRUTA ORIGINAL
Modelo GGUF : O formato de quantização lançado pelo llama.cpp é adaptado a ferramentas de inferência comum como o Ollama. Recomenda -se baixar usuários que só precisam fazer implantação de inferência; O sufixo do nome do modelo é -im o que significa que a matriz de importância é usada para quantização, geralmente com ppl inferior, e é recomendável usar (o uso é o mesmo que a versão regular)

Observação

Se você não puder acessar a HF, pode considerar alguns sites de espelho (como hf-mirror.com). Encontre e resolva os métodos específicos você mesmo.

Raciocínio e implantação

Os modelos relevantes deste projeto suportam principalmente os seguintes métodos de quantização, raciocínio e implantação. Para detalhes, consulte o tutorial correspondente.

ferramenta	Características	CPU	GPU	Quantificação	GUI	API	vllm	Tutorial
llama.cpp	Opções de quantização de GGUF ricas e raciocínio local eficiente	✅	✅	✅	✅	✅		[link]
? Transformadores	Interface de inferência dos transformadores nativos	✅	✅	✅	✅		✅	[link]
Imitação de chamadas de API OpenAi	Demoção do servidor que emula a interface da API OpenAi	✅	✅	✅		✅	✅	[link]
GENERAÇÃO DE TEXTO-WEBUI	Como implantar a interface da interface do usuário do front-end	✅	✅	✅	✅	✅		[link]
LM Studio	Software de bate-papo com várias plataformas (com interface)	✅	✅	✅	✅	✅		[link]
Ollama	Raciocínio de modelos de maquete de execução localmente	✅	✅	✅		✅		[link]

Efeito do modelo

Para avaliar os efeitos de modelos relacionados, este projeto conduziu avaliação de efeitos generativos e avaliação de efeitos objetivos (classe NLU), respectivamente, e avaliou o grande modelo de diferentes ângulos. Recomenda -se que os usuários testem as tarefas com as quais se preocupem e selecione modelos que se adaptam às tarefas relacionadas.

Gerar avaliação de efeitos

Este projeto lançou uma plataforma de batalha de modelo on -line modelada após o FastChat Chatbot Arena, que pode navegar e avaliar a qualidade das respostas do modelo. A plataforma de batalha fornece indicadores de avaliação, como taxa de vitória e pontuação ELO, e pode ver os resultados da taxa de vitória do modelo par. Arena Model Arena: http://llm-arena.ymcui.com
O diretório de exemplos fornece amostras de saída de llama-3-chinese-8b-instruct e instrução-mixtral chinês, e as comparações de pontuação são realizadas através do GPT-4-Turbo. A pontuação média da instrução LLama-3-Chinese-8B é de 8,1 e a pontuação média da instrução chinesa-mixtral é 7,8 . ? Comparação de amostra de saída: exemplos
Este projeto foi transferido para a máquina SOTA! A plataforma modelo e a experiência on-line serão realizadas no estágio posterior: https://sota.jiqizhixin.com/project/chinese-llama-alpaca-3

Avaliação do efeito objetivo

C-EVAL

O C-EVAL é um conjunto abrangente de avaliação de modelo básico chinês, no qual o conjunto de verificação e o conjunto de testes contêm perguntas de 1,3 mil e 12,3k, cobrindo 52 indivíduos, respectivamente. Consulte este projeto para o código de inferência C-EVAL: Github Wiki

Modelos	Válido (0-shot)	Válido (5-shot)	Teste (0-shot)	Teste (5-shot)
Llama-3-chinese-8b-Instruct-v3	55.2	54.8	52.1	52.4
Llama-3-chinese-8b-Instruct-v2	51.6	51.6	49.7	49.8
LLAMA-3-CHINESE-8B-INSTRUTA	49.3	51.5	48.3	49.4
Llama-3-chinese-8b	47.0	50.5	46.1	49.0
META-LLAMA-3-8B-INSTRUTA	51.3	51.3	49.5	51.0
Meta-llama-3-8b	49.3	51.2	46.1	49.4
Instrução chinesa-mixtral (8x7b)	51.7	55.0	50.0	51.5
Mixtral chinês (8x7b)	45.8	54.2	43.1	49.1
Chinês-alpaca-2-13b	44.3	45.9	42.6	44.0
Chinês-llama-2-13b	40.6	42.7	38.0	41.6

Cmmlu

O CMMLU é outro conjunto de dados abrangente de avaliação chinesa, usado especificamente para avaliar o conhecimento e a capacidade de raciocínio dos modelos de linguagem no contexto chinês, cobrindo 67 tópicos de assuntos básicos a nível profissional avançado, com um total de 11,5 mil perguntas de múltipla escolha. Consulte este projeto para o Código de Inferência CMMLU: Github Wiki

Modelos	Teste (0-shot)	Teste (5-shot)
Llama-3-chinese-8b-Instruct-v3	54.4	54.8
Llama-3-chinese-8b-Instruct-v2	51.8	52.4
LLAMA-3-CHINESE-8B-INSTRUTA	49.7	51.5
Llama-3-chinese-8b	48.0	50.9
META-LLAMA-3-8B-INSTRUTA	53.0	53.5
Meta-llama-3-8b	47.8	50.8
Instrução chinesa-mixtral (8x7b)	50.0	53.0
Mixtral chinês (8x7b)	42.5	51.0
Chinês-alpaca-2-13b	43.2	45.5
Chinês-llama-2-13b	38.9	42.5

Mmlu

O MMLU é um conjunto de dados de avaliação em inglês para avaliar a capacidade de compreensão da linguagem natural. É um dos principais conjuntos de dados usados para avaliar hoje grandes recursos de modelo. O conjunto de verificação e o conjunto de testes contêm perguntas de 1,5 mil e 14,1k de múltipla escolha, respectivamente, cobrindo 57 indivíduos. Consulte este projeto para MMLU Código de Inferência: Github Wiki

Modelos	Válido (0-shot)	Válido (5-shot)	Teste (0-shot)	Teste (5-shot)
Llama-3-chinese-8b-Instruct-v3	64.7	65.0	64.8	65.9
Llama-3-chinese-8b-Instruct-v2	62.1	63.9	62.6	63.7
LLAMA-3-CHINESE-8B-INSTRUTA	60.1	61.3	59.8	61.8
Llama-3-chinese-8b	55.5	58.5	57.3	61.1
META-LLAMA-3-8B-INSTRUTA	63.4	64.8	65.1	66.4
Meta-llama-3-8b	58.6	62.5	60.5	65.0
Instrução chinesa-mixtral (8x7b)	65.1	69.6	67.5	69.8
Mixtral chinês (8x7b)	63.2	67.1	65.5	68.3
Chinês-alpaca-2-13b	49.6	53.2	50.9	53.5
Chinês-llama-2-13b	46.8	50.0	46.6	51.8

Longbench

O Longbench é uma referência para avaliar a capacidade de compreensão de texto longa de um modelo grande. Consiste em 6 categorias principais e 20 tarefas diferentes. O comprimento médio da maioria das tarefas está entre 5K-15k e contém cerca de 4,75k de dados de teste. A seguir, é apresentado o efeito de avaliação deste modelo de projeto nessa tarefa chinesa (incluindo tarefas de código). Consulte este projeto para o Código de Inferência de Longbench: Github Wiki

Modelos	QA de documento único	QA de vários documentos	resumo	Aprendizagem do FS	Código	síntese	média
Llama-3-chinese-8b-Instruct-v3	20.3	28.8	24.5	28.1	59.4	91.9	40.5
Llama-3-chinese-8b-Instruct-v2	57.3	27.1	13.9	30.3	60.6	89.5	46.4
LLAMA-3-CHINESE-8B-INSTRUTA	44.1	24.0	12.4	33.5	51.8	11.5	29.6
Llama-3-chinese-8b	16.4	19.3	4.3	28.7	14.3	4.6	14.6
META-LLAMA-3-8B-INSTRUTA	55.1	15.1	0.1	24.0	51.3	94.5	40.0
Meta-llama-3-8b	21.2	22.9	2.7	35.8	65.9	40.8	31.6
Instrução chinesa-mixtral (8x7b)	50.3	34.2	16.4	42.0	56.1	89.5	48.1
Mixtral chinês (8x7b)	32.0	23.7	0,4	42.5	27.4	14.0	23.3
Chinês-alpaca-2-13b-16k	47.9	26.7	13.0	22.3	46.6	21.5	29.7
Chinês-llama-2-13b-16k	36.7	17.7	3.1	29.8	13.8	3.0	17.3
Chinês-alpaca-2-7b-64k	44.7	28.1	14.4	39.0	44.6	5.0	29.3
Chinês-llama-2-7b-64K	27.2	16.4	6.5	33.0	7.8	5.0	16.0

Tabela de classificação Open LLM

O Open LLM liderar Roberting é um grande modelo de avaliação de capacidade abrangente (inglês) iniciada pela equipe HuggingFaceH4, incluindo 6 testes únicos, incluindo ARC, Hellaswag, MMLU, Siginfulqa, Winogrado, GSM8K. A seguir, é apresentado o efeito de avaliação deste modelo de projeto nesta lista.

Modelos	ARCO	Hellas	Mmlu	TQA	Winog	GSM8K	média
Llama-3-chinese-8b-Instruct-v3	63.40	80.51	67.90	53.57	76.24	59.21	66.81
Llama-3-chinese-8b-Instruct-v2	62.63	79.72	66.48	53.93	76.72	60.58	66.68
LLAMA-3-CHINESE-8B-INSTRUTA	61.26	80.24	63.10	55.15	75.06	44.43	63.21
Llama-3-chinese-8b	55.88	79.53	63.70	41.14	77.03	37.98	59.21
META-LLAMA-3-8B-INSTRUTA	60,75	78.55	67.07	51.65	74.51	68.69	66.87
Meta-llama-3-8b	59.47	82.09	66.69	43.90	77.35	45.79	62.55
Instrução chinesa-mixtral (8x7b)	67.75	85.67	71.53	57.46	83.11	55.65	70.19
Mixtral chinês (8x7b)	67.58	85.34	70.38	46.86	82.00	0,00	58.69

Nota: O principal motivo da diferença entre os resultados da MMLU é que os scripts de avaliação são diferentes.

Avaliação de efeitos quantitativos

Sob o llama.cpp, o desempenho quantitativo do llama-3-chinese-8b (modelo básico) foi testado como mostrado na tabela abaixo. A velocidade real do teste é um pouco mais lenta que a llama de segunda geração-2-7b.

	F16	Q8_0	Q6_K	Q5_K	Q5_0	Q4_K	Q4_0	Q3_K	Q2_K
Tamanho (GB)	14.97	7.95	6.14	5.34	5.21	4.58	4.34	3.74	2.96
BPW	16.00	8.50	6.56	5.70	5.57	4.89	4.64	4.00	3.16
Ppl	5.130	5.135	5.148	5.181	5.222	5.312	5.549	5.755	11.859
Velocidade PP	5.99	6.10	7.17	7.34	6.65	6.38	6.00	6.85	6.43
Velocidade TG	44.03	26.08	21.61	22.33	20.93	18.93	17.09	22.50	19.21

Observação

Tamanho do modelo: unidade GB
BPW (bits por peso): bits de parâmetros da unidade, por exemplo, a precisão média real do Q8_0 é 8,50
Ppl (confusão): medido no contexto 8k (comprimento do suporte nativo), quanto menor o valor, melhor
Velocidade PP/TG: fornece a velocidade de processamento de instruções (PP) e geração de texto (TG) do max max (metal), ms/token da unidade, menor o valor, mais rápido ele.

Treinamento e Tune Fine

Treinamento manual e ajuste fino

Pré-treinamento com dados não marcados: wiki de script pré-treinamento
Use dados rotulados para instrução Ajuste fino: Instruções Wiki de script de ajuste fino

Modelo de diretiva

Este projeto llama-3-chinese-instruct continua a usar o modelo de instrução LLAMA-3-INSTRUTA original. Aqui está um conjunto de exemplos de conversação:

<| BEGIN_OF_TEXT |> <| start_header_id |> sistema <| end_header_id | >>
Você é um assistente útil. <| eot_id |> <| start_header_id |> usuário <| end_header_id | >>
Olá <| eot_id |> <| start_header_id |> assistente <| end_header_id | >>
Olá! Existe algo que possa ajudá -lo? <| eot_id |>

Dados de instruções

A seguir, alguns dos dados de instruções de código aberto deste projeto. Para detalhes, verifique: dados de comando

Nome de dados	ilustrar	quantidade
ALPACA_ZH_51K	Dados da ALPACA traduzidos usando GPT-3.5	51k
STEM_ZH_INSTRUÇÃO	Os dados do STEM se arrastaram usando o GPT-3.5, incluindo física, química, medicina, biologia e ciências da terra	256k
Ruozhiba_gpt4	Os dados de perguntas e respostas da Ruozhiba obtidos usando GPT-4O e GPT-4T	2449

Perguntas frequentes

Verifique se a solução já existe nas perguntas frequentes antes de enviar o problema. Para perguntas e respostas específicas, consulte este projeto Github Wiki

问题1：为什么没有像一期、二期项目一样做词表扩充？
问题2：会有70B版本发布吗？
问题3：为什么指令模型不叫Alpaca了？
问题4：本仓库模型能否商用？
问题5：为什么不对模型做全量预训练而是用LoRA？
问题6：为什么Llama-3-Chinese对话效果不好？
问题7：为什么指令模型会回复说自己是ChatGPT？
问题8：Instruct模型的v1（原版）和v2有什么区别？

Citar

Se você usou recursos relevantes para este projeto, consulte o relatório técnico citando este projeto: https://arxiv.org/abs/2304.08177

 @article{chinese-llama-alpaca,
    title={Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca},
    author={Cui, Yiming and Yang, Ziqing and Yao, Xin},
    journal={arXiv preprint arXiv:2304.08177},
    url={https://arxiv.org/abs/2304.08177},
    year={2023}
}

Para análise de expandir a lista de palavras, consulte a cotação: https://arxiv.org/abs/2403.01851

 @article{chinese-mixtral,
      title={Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral}, 
      author={Cui, Yiming and Yao, Xin},
      journal={arXiv preprint arXiv:2403.01851},
      url={https://arxiv.org/abs/2403.01851},
      year={2024}
}

Isenção de responsabilidade

Este projeto é desenvolvido com base no modelo LLAMA-3 lançado pela Meta. Por favor, respeite estritamente o contrato de licença de código aberto da LLAMA-3 durante o uso. Se o uso de código de terceiros estiver envolvido, certifique-se de cumprir o contrato de licença de código aberto relevante. O conteúdo gerado pelo modelo pode afetar sua precisão devido a métodos de cálculo, fatores aleatórios e perdas de precisão quantitativa. Portanto, este projeto não fornece nenhuma garantia para a precisão da saída do modelo, nem será responsável por quaisquer perdas causadas pelo uso de recursos relevantes e resultados de saída. Se os modelos relevantes deste projeto forem usados para fins comerciais, o desenvolvedor deve cumprir as leis e regulamentos locais para garantir a conformidade com o conteúdo de saída do modelo. Este projeto não se responsabiliza por quaisquer produtos ou serviços derivados daí.

Pergunta feedback

Se você tiver alguma dúvida, envie -o no problema do GitHub. Faça perguntas educadamente e construa uma comunidade de discussão harmoniosa.

Antes de enviar a pergunta, verifique se as perguntas frequentes podem resolver o problema. Também é recomendável verificar se o problema anterior pode resolver seu problema.
Para enviar uma pergunta, use o modelo de problema definido por este projeto para ajudar a localizar rapidamente perguntas específicas.
Repita e os problemas não relacionados a este projeto serão processados pelo estábulo. Por favor, entenda.

Cui e Yao, 2024. Repensando a adaptação da linguagem LLM: um estudo de caso sobre mixtral chinês ↩

Expandir

Informações adicionais

Versão v3.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 1.56MB
Vindo de Github

Aplicativos Relacionados

node llama cpp

2024-11-11
llama models

2024-11-10
LLaMA Factory

2024-11-02
Código Lhama

2023-10-30
Lhama 2

2023-08-17
Bola Alpaca: Allstars

2022-08-08

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos

Chinese LLaMA Alpaca 3

Conteúdo principal

notícias

Orientação de conteúdo

Introdução ao modelo

Use a lista original de palavras llama-3

? O comprimento do contexto longo é expandido de 4k para 8k na segunda geração

⚡ Use o agrupamento para consultar o mecanismo de atenção

? Novo modelo de comando

Download do modelo

Diretrizes de seleção de modelos

Endereço para download

Raciocínio e implantação

Efeito do modelo

Gerar avaliação de efeitos

Avaliação do efeito objetivo

C-EVAL

Cmmlu

Mmlu

Longbench

Tabela de classificação Open LLM

Avaliação de efeitos quantitativos

Treinamento e Tune Fine

Treinamento manual e ajuste fino

Modelo de diretiva

Dados de instruções

Perguntas frequentes

Citar

Isenção de responsabilidade

Pergunta feedback

Notas de rodapé