Download do bert4torch - bert4torch download de código fonte

bert4torch

Outro código-fonte

v0.5.4

Baixar

Bert4torch

Documentação | Torch4keras | Exemplos | build_minillm_from_scratch | Bert4Vector

Índice

Índice
1. Faça o download e instale
2. Função
3. Comece rapidamente
- 3.1 Comece a tutorial
- 3.2 Implante rapidamente grandes serviços de modelo na linha de comando
4. Histórico de versão e atualização
- Versão 4.1 História
- 4.2 Histórico de atualização
5. pesos pré-treinamento
6. Obrigado
7. Citação
8 outros

1. Faça o download e instale

Instale a versão estável

pip install bert4torch

Instale a versão mais recente

pip install git+https://github.com/Tongjilibo/bert4torch

Nota : A liberação dos pacotes PIP é mais lenta que a versão de desenvolvimento no Git. Preste atenção ao caminho de referência do clone git e preste atenção se o peso precisa ser convertido.
Caso de teste : git clone https://github.com/Tongjilibo/bert4torch , modifique o caminho de arquivo de modelo pré -terenciado e o caminho de dados no exemplo para iniciar o script
Auto-treinamento : modifique o bloco de código de processamento de dados correspondente para seus próprios dados
Ambiente de Desenvolvimento : Originalmente usado para se desenvolver com a versão torch==1.10 e agora mudou para o desenvolvimento torch2.0 . Se outras versões encontrarem desacordos, sinta -se à vontade para feedback.

2. Função

Modelo LLM : Carregar pesos de modelo aberto de código aberto, como ChatGlm, Llama, Baichuan, Ziya, Bloom, etc. para inferência e ajuste fino, e implante grandes modelos em uma linha na linha de comando.
Funções principais : Carregando pesos pré-treinamento como Bert, Roberta, Albert, XLNet, Nezha, Bart, ROFORMER, ROFORMER_V2, ELECTRA, GPT, GPT2, T5, Gau-Alpha, Ernie, etc. Continue Finetune e apoiando flexivelmente o seu próprio modelo baseado em Bert.
Exemplos ricos : incluindo LLM, Pretain, sentença_classification, sentença_embedding, sequence_labeling, Relationscraction, seq2seq, porção e outras soluções
Verificação experimental : a verificação experimental foi feita no conjunto de dados públicos, usando os seguintes exemplos de dados de dados e indicadores experimentais
Truque fácil de usar : integra truques comuns, plugue e reproduza
Outros recursos : carregue o modelo da biblioteca Transformers; O método de chamada é simples e eficiente; exibição dinâmica das barras de progresso do treinamento; Imprima o volume do parâmetro com Torchinfo; Logger e Tensorboard padrão são fáceis de gravar o processo de treinamento; Processo de ajuste personalizado para atender às necessidades de alto nível
Processo de treinamento :

Função	Bert4torch	transformadores	Observação
Barra de progresso de treinamento	✅	✅	A barra de progresso imprime perda e métricas definidas
Treinamento distribuído DP/DDP	✅	✅	Torch vem com DP/DDP
Vários retornos de chamada	✅	✅	Log/Tensorboard/EarlyStop/Wandb, etc.
Grande raciocínio de modelo, saída de fluxo/lote	✅	✅	Cada modelo é universal e não requer manutenção separada de scripts
Modelo Grande Tune Fine	✅	✅	Lora depende da biblioteca PEFT, PV2 vem com seu próprio
Truques ricos	✅		Truques plug e reproduzido contra treinamento e outros truques
O código é simples e fácil de entender, e o espaço personalizado é grande	✅		Reutilização de código alto, estilo de treinamento de código Keras
Capacidade/influência/uso/compatibilidade de manutenção do armazém		✅	Atualmente, manutenção pessoal do armazém
Implantação de um clique de grandes modelos

3. Comece rapidamente

3.1 Comece a tutorial

Start rápido
Tutoriais de início rápido, exemplos de tutoriais, exemplos práticos
Introdução ao Bert4torch (Zhihu), comece rapidamente com o Bert4Torch (Zhihu) e o Bert4torch foi atualizado novamente (Zhihu)

3.2 Implante rapidamente grandes serviços de modelo na linha de comando

Carregamento local/na Internet

 # 联网下载全部文件
bert4torch-llm-server --checkpoint_path Qwen2-0.5B-Instruct

# 加载本地大模型，联网下载bert4torch_config.json
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --config_path Qwen/Qwen2-0.5B-Instruct

# 加载本地大模型，且bert4torch_config.json已经下载并放于同名目录下
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct

Linha de comando/web webpage/openai_api

 # 命令行
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode cli

# gradio网页
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode gradio

# openai_api
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode openai

Exemplo de bate -papo de linha de comando

4. Histórico de versão e atualização

Versão 4.1 História

Data de atualização	Bert4torch	Torch4keras	Descrição da versão
20240928	0.5.4	0.2.7	[Novos recursos] Adicionar série Deepseek, Minicpm, Minicpmv, LLAMA3.2, QWEN2.5; Suporte Device_Map = Auto; [FIX] FIXT Batch_Generate e N> 1 Bugs
20240814	0.5.3	0.2.6	【Novos recursos】 Adicionar llama3.1/yi1.5; Selecione automaticamente o download do hfmirror; Parâmetros de linha de comando de suporte `bert4torch-llm-server`
20240801	0.5.2	0.2.5	[Nova função] A série ChatGlm/Qwen suporta chamadas de chamadas de função e adiciona a série InternLM2; [Pequena otimização] Simplifique a demonstração da chamada de bate -papo no pipeline, o elemento de token gerar é permitido ser uma lista, unificar o nome do parâmetro de corda e adicionar classes derivadas de corda; [Bug] Corrente flash_attn2 Bug de inferência, corrija o bug tie_word_wordding de Bart

Mais versões

4.2 Histórico de atualização

Mais história

5. pesos pré-treinamento

Modelos pré-treinados suportam vários métodos de carregamento de código

 from bert4torch . models import build_transformer_model

# 1. 仅指定config_path: 从头初始化模型结构, 不加载预训练模型
model = build_transformer_model ( './model/bert4torch_config.json' )

# 2. 仅指定checkpoint_path: 
## 2.1 文件夹路径: 自动寻找路径下的*.bin/*.safetensors权重文件 + 需把bert4torch_config.json下载并放于该目录下
model = build_transformer_model ( checkpoint_path = './model' )

## 2.2 文件路径/列表: 文件路径即权重路径/列表, bert4torch_config.json会从同级目录下寻找
model = build_transformer_model ( checkpoint_path = './pytorch_model.bin' )

## 2.3 model_name: hf上预训练权重名称, 会自动下载hf权重以及bert4torch_config.json文件
model = build_transformer_model ( checkpoint_path = 'bert-base-chinese' )

# 3. 同时指定config_path和checkpoint_path(本地路径名或model_name排列组合): 
#    本地路径从本地加载，pretrained_model_name会联网下载
config_path = './model/bert4torch_config.json'  # 或'bert-base-chinese'
checkpoint_path = './model/pytorch_model.bin'  # 或'bert-base-chinese'
model = build_transformer_model ( config_path , checkpoint_path )

Link de peso pré -levado e bert4torch_config.json

Classificação do modelo	Nome do modelo	Fonte de peso	Link de peso/ponto de verificação_Path	config_path
Bert	Bert-Base-Chinese	Google-Bert	`bert-base-chinese`	`bert-base-chinese`
	Chinês_L-12_H-768_A-12	Google	Peso TF `Tongjilibo/bert-chinese_L-12_H-768_A-12`
	Chinês-Bert-Wwm-EXT	Hfl	`hfl/chinese-bert-wwm-ext`	`hfl/chinese-bert-wwm-ext`
	Bert-base-multilíngue	Google-Bert	`bert-base-multilingual-cased`	`bert-base-multilingual-cased`
	MacBert	Hfl	`hfl/chinese-macbert-base` `hfl/chinese-macbert-large`	`hfl/chinese-macbert-base` `hfl/chinese-macbert-large`
	Wobert	Tecnologia Zhuyi	`junnyu/wobert_chinese_base` , `junnyu/wobert_chinese_plus_base`	`junnyu/wobert_chinese_base` `junnyu/wobert_chinese_plus_base`
Roberta	Chinês-Roberta-Wwm-Ext	Hfl	`hfl/chinese-roberta-wwm-ext` `hfl/chinese-roberta-wwm-ext-large` (O peso da MLM de grande é inicializado aleatoriamente)	`hfl/chinese-roberta-wwm-ext` `hfl/chinese-roberta-wwm-ext-large`
	Roberta-Small/Tiny	Tecnologia Zhuyi	`Tongjilibo/chinese_roberta_L-4_H-312_A-12` `Tongjilibo/chinese_roberta_L-6_H-384_A-12`
	Roberta-Base	Facebookai	`roberta-base`	`roberta-base`
	Guwenbert	Ethanyt	`ethanyt/guwenbert-base`	`ethanyt/guwenbert-base`
Albert	Albert_zh ALBERT_PYTORCH	Brightmart	`voidful/albert_chinese_tiny` `voidful/albert_chinese_small` `voidful/albert_chinese_base` `voidful/albert_chinese_large` `voidful/albert_chinese_xlarge` `voidful/albert_chinese_xxlarge`	`voidful/albert_chinese_tiny` `voidful/albert_chinese_small` `voidful/albert_chinese_base` `voidful/albert_chinese_large` `voidful/albert_chinese_xlarge` `voidful/albert_chinese_xxlarge`
Nezha	Nezha Nezha_chinese_pytorch	Huawei_noah	`sijunhe/nezha-cn-base` `sijunhe/nezha-cn-large` `sijunhe/nezha-base-wwm` `sijunhe/nezha-large-wwm`	`sijunhe/nezha-cn-base` `sijunhe/nezha-cn-large` `sijunhe/nezha-base-wwm` `sijunhe/nezha-large-wwm`
	nezha_gpt_dialog	Bojone	`Tongjilibo/nezha_gpt_dialog`
xlnet	Chinês-Xlnet	Hfl	`hfl/chinese-xlnet-base`	`hfl/chinese-xlnet-base`
	Transformer_xl	huggingface	`transfo-xl/transfo-xl-wt103`	`transfo-xl/transfo-xl-wt103`
Deberta	Erlangshen-Deberta-V2	IDEIA	`IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-Chinese` `IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese` `IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese`	`IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-Chinese` `IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese` `IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese`
Electra	ELECTRA-ELECTRA	Hfl	`hfl/chinese-electra-base-discriminator`	`hfl/chinese-electra-base-discriminator`
Ernie	Ernie	Baidu Wenxin	`nghuyong/ernie-1.0-base-zh` `nghuyong/ernie-3.0-base-zh`	`nghuyong/ernie-1.0-base-zh` `nghuyong/ernie-3.0-base-zh`
ROFORMER	ROFORMER	Tecnologia Zhuyi	`junnyu/roformer_chinese_base`	`junnyu/roformer_chinese_base`
	roformer_v2	Tecnologia Zhuyi	`junnyu/roformer_v2_chinese_char_base`	`junnyu/roformer_v2_chinese_char_base`
Simbert	Simbert	Tecnologia Zhuyi	`Tongjilibo/simbert-chinese-base` `Tongjilibo/simbert-chinese-small` `Tongjilibo/simbert-chinese-tiny`
	Simbert_v2/roformer-sim	Tecnologia Zhuyi	`junnyu/roformer_chinese_sim_char_base` , `junnyu/roformer_chinese_sim_char_ft_base` , `junnyu/roformer_chinese_sim_char_small` , `junnyu/roformer_chinese_sim_char_ft_small`	`junnyu/roformer_chinese_sim_char_base` `junnyu/roformer_chinese_sim_char_ft_base` `junnyu/roformer_chinese_sim_char_small` `junnyu/roformer_chinese_sim_char_ft_small`
gau	Gau-alfa	Tecnologia Zhuyi	`Tongjilibo/chinese_GAU-alpha-char_L-24_H-768`
Uie	Uie uie_pytorch	Baidu	`Tongjilibo/uie-base`
Gpt	CDIAL-GPT	Thu-Coai	`thu-coai/CDial-GPT_LCCC-base` `thu-coai/CDial-GPT_LCCC-large`	`thu-coai/CDial-GPT_LCCC-base` `thu-coai/CDial-GPT_LCCC-large`
	cmp_lm (2,6 bilhões)	Tsinghua	`TsinghuaAI/CPM-Generate`	`TsinghuaAI/CPM-Generate`
	nezha_gen	Huawei_noah	`Tongjilibo/chinese_nezha_gpt_L-12_H-768_A-12`
	Gpt2-Chinese-ClueCorpussmall	Uer	`uer/gpt2-chinese-cluecorpussmall`	`uer/gpt2-chinese-cluecorpussmall`
	GPT2-ML	imcaspar	Torrh Baiduyun (84DH)	`gpt2-ml_15g_corpus` `gpt2-ml_30g_corpus`
Bart	bart_base_chinese	FUDAN FNLP	`fnlp/bart-base-chinese` v1.0	`fnlp/bart-base-chinese` `fnlp/bart-base-chinese-v1.0`
T5	T5	Uer	`uer/t5-small-chinese-cluecorpussmall` `uer/t5-base-chinese-cluecorpussmall`	`uer/t5-base-chinese-cluecorpussmall` `uer/t5-small-chinese-cluecorpussmall`
	mt5	Google	`google/mt5-base`	`google/mt5-base`
	T5_PEGASUS	Tecnologia Zhuyi	`Tongjilibo/chinese_t5_pegasus_small` `Tongjilibo/chinese_t5_pegasus_base`
	Chatyuan	pista-ai	`ClueAI/ChatYuan-large-v1` `ClueAI/ChatYuan-large-v2`	`ClueAI/ChatYuan-large-v1` `ClueAI/ChatYuan-large-v2`
	PromptClue	pista-ai	`ClueAI/PromptCLUE-base`	`ClueAI/PromptCLUE-base`
chatglm	Chatglm-6b	Thudm	`THUDM/chatglm-6b` `THUDM/chatglm-6b-int8` `THUDM/chatglm-6b-int4` v0.1.0	`THUDM/chatglm-6b` `THUDM/chatglm-6b-int8` `THUDM/chatglm-6b-int4` `THUDM/chatglm-6b-v0.1.0`
	Chatglm2-6b	Thudm	`THUDM/chatglm2-6b` `THUDM/chatglm2-6b-int4` `THUDM/chatglm2-6b-32k`	`THUDM/chatglm2-6b` `THUDM/chatglm2-6b-int4` `THUDM/chatglm2-6b-32k`
	Chatglm3-6b	Thudm	`THUDM/chatglm3-6b` `THUDM/chatglm3-6b-32k`	`THUDM/chatglm3-6b` `THUDM/chatglm3-6b-32k`
	GLM4-9B	Thudm	`THUDM/glm-4-9b` `THUDM/glm-4-9b-chat` `THUDM/glm-4-9b-chat-1m`	`THUDM/glm-4-9b` `THUDM/glm-4-9b-chat` `THUDM/glm-4-9b-chat-1m`
lhama	lhama	Meta		`meta-llama/llama-7b` `meta-llama/llama-13b`
	lhama-2	Meta	meta-llama/llama-2-7b-hf meta-llama/llama-2-7b-chat-hf meta-llama/llama-2-13b-hf meta-llama/llama-2-13b-chat-hf	`meta-llama/Llama-2-7b-hf` `meta-llama/Llama-2-7b-chat-hf` `meta-llama/Llama-2-13b-hf` `meta-llama/Llama-2-13b-chat-hf`
	lhama-3	Meta	`meta-llama/Meta-Llama-3-8B` `meta-llama/Meta-Llama-3-8B-Instruct`	`meta-llama/Meta-Llama-3-8B` `meta-llama/Meta-Llama-3-8B-Instruct`
	LLAMA-3.1	Meta	`meta-llama/Meta-Llama-3.1-8B` `meta-llama/Meta-Llama-3.1-8B-Instruct`	`meta-llama/Meta-Llama-3.1-8B` `meta-llama/Meta-Llama-3.1-8B-Instruct`
	LLAMA-3.2	Meta	`meta-llama/Llama-3.2-1B` `meta-llama/Llama-3.2-1B-Instruct` `meta-llama/Llama-3.2-3B` `meta-llama/Llama-3.2-3B-Instruct`	`meta-llama/Llama-3.2-1B` `meta-llama/Llama-3.2-1B-Instruct` `meta-llama/Llama-3.2-3B` `meta-llama/Llama-3.2-3B-Instruct`
	Chinês-llama-alpaca	Hfl		`hfl/chinese_alpaca_plus_7b` `hfl/chinese_llama_plus_7b`
	Chinês-llama-alpaca-2	Hfl		A ser adicionado
	Chinês-llama-alpaca-3	Hfl		A ser adicionado
	Belle_llama	Lianjiatech	BELLEGROUP/BELLE-LLAMA-7B-2M-ENC	Instruções de síntese, `BelleGroup/BELLE-LLaMA-7B-2M-enc`
	Ziya	Idea-ccnl	IDEA-CCNL/ZIYA-LLAMA-13B-V1 IDEA-CCNL/ZIYA-LLAMA-13B-V1.1 IDEA-CCNL/ZIYA-LLAMA-13B-PRESTRAIN-V1	`IDEA-CCNL/Ziya-LLaMA-13B-v1` `IDEA-CCNL/Ziya-LLaMA-13B-v1.1`
	Vicuna	Lmsys	`lmsys/vicuna-7b-v1.5`	`lmsys/vicuna-7b-v1.5`
Baichuan	Baichuan	Baichuan-Inc	`baichuan-inc/Baichuan-7B` `baichuan-inc/Baichuan-13B-Base` `baichuan-inc/Baichuan-13B-Chat`	`baichuan-inc/Baichuan-7B` `baichuan-inc/Baichuan-13B-Base` `baichuan-inc/Baichuan-13B-Chat`
	Baichuan2	Baichuan-Inc	`baichuan-inc/Baichuan2-7B-Base` `baichuan-inc/Baichuan2-7B-Chat` `baichuan-inc/Baichuan2-13B-Base` `baichuan-inc/Baichuan2-13B-Chat`	`baichuan-inc/Baichuan2-7B-Base` `baichuan-inc/Baichuan2-7B-Chat` `baichuan-inc/Baichuan2-13B-Base` `baichuan-inc/Baichuan2-13B-Chat`
Yi	Yi	01-AI	`01-ai/Yi-6B` `01-ai/Yi-6B-200K` `01-ai/Yi-9B` `01-ai/Yi-9B-200K`	`01-ai/Yi-6B` `01-ai/Yi-6B-200K` `01-ai/Yi-9B` `01-ai/Yi-9B-200K`
	Yi-1.5	01-AI	`01-ai/Yi-1.5-6B` `01-ai/Yi-1.5-6B-Chat` `01-ai/Yi-1.5-9B` `01-ai/Yi-1.5-9B-32K` `01-ai/Yi-1.5-9B-Chat` `01-ai/Yi-1.5-9B-Chat-16K`	`01-ai/Yi-1.5-6B` `01-ai/Yi-1.5-6B-Chat` `01-ai/Yi-1.5-9B` `01-ai/Yi-1.5-9B-32K` `01-ai/Yi-1.5-9B-Chat` `01-ai/Yi-1.5-9B-Chat-16K`
florescer	florescer	Bigscience	`bigscience/bloom-560m` `bigscience/bloomz-560m`	`bigscience/bloom-560m` `bigscience/bloomz-560m`
Qwen	Qwen	Cloud Alibaba	`Qwen/Qwen-1_8B` `Qwen/Qwen-1_8B-Chat` `Qwen/Qwen-7B` `Qwen/Qwen-7B-Chat` `Qwen/Qwen-14B` `Qwen/Qwen-14B-Chat`	`Qwen/Qwen-1_8B` `Qwen/Qwen-1_8B-Chat` `Qwen/Qwen-7B` `Qwen/Qwen-7B-Chat` `Qwen/Qwen-14B` `Qwen/Qwen-14B-Chat`
	Qwen1.5	Cloud Alibaba	`Qwen/Qwen1.5-0.5B` `Qwen/Qwen1.5-0.5B-Chat` `Qwen/Qwen1.5-1.8B` `Qwen/Qwen1.5-1.8B-Chat` `Qwen/Qwen1.5-7B` `Qwen/Qwen1.5-7B-Chat` `Qwen/Qwen1.5-14B` `Qwen/Qwen1.5-14B-Chat`	`Qwen/Qwen1.5-0.5B` `Qwen/Qwen1.5-0.5B-Chat` `Qwen/Qwen1.5-1.8B` `Qwen/Qwen1.5-1.8B-Chat` `Qwen/Qwen1.5-7B` `Qwen/Qwen1.5-7B-Chat` `Qwen/Qwen1.5-14B` `Qwen/Qwen1.5-14B-Chat`
	Qwen2	Cloud Alibaba	`Qwen/Qwen2-0.5B` `Qwen/Qwen2-0.5B-Instruct` `Qwen/Qwen2-1.5B` `Qwen/Qwen2-1.5B-Instruct` `Qwen/Qwen2-7B` `Qwen/Qwen2-7B-Instruct`	`Qwen/Qwen2-0.5B` `Qwen/Qwen2-0.5B-Instruct` `Qwen/Qwen2-1.5B` `Qwen/Qwen2-1.5B-Instruct` `Qwen/Qwen2-7B` `Qwen/Qwen2-7B-Instruct`
	QWEN2-VL	Cloud Alibaba	`Qwen/Qwen2-VL-2B-Instruct` `Qwen/Qwen2-VL-7B-Instruct`	`Qwen/Qwen2-VL-2B-Instruct` `Qwen/Qwen2-VL-7B-Instruct`
	Qwen2.5	Cloud Alibaba	`Qwen/Qwen2.5-0.5B` `Qwen/Qwen2.5-0.5B-Instruct` `Qwen/Qwen2.5-1.5B` `Qwen/Qwen2.5-1.5B-Instruct` `Qwen/Qwen2.5-3B` `Qwen/Qwen2.5-3B-Instruct` `Qwen/Qwen2.5-7B` `Qwen/Qwen2.5-7B-Instruct` `Qwen/Qwen2.5-14B` `Qwen/Qwen2.5-14B-Instruct`	`Qwen/Qwen2.5-0.5B` `Qwen/Qwen2.5-0.5B-Instruct` `Qwen/Qwen2.5-1.5B` `Qwen/Qwen2.5-1.5B-Instruct` `Qwen/Qwen2.5-3B` `Qwen/Qwen2.5-3B-Instruct` `Qwen/Qwen2.5-7B` `Qwen/Qwen2.5-7B-Instruct` `Qwen/Qwen2.5-14B` `Qwen/Qwen2.5-14B-Instruct`
Internlm	Internlm	Laboratório de Inteligência Artificial de Xangai	`internlm/internlm-7b` `internlm/internlm-chat-7b`	`internlm/internlm-7b` `internlm/internlm-chat-7b`
	InternLM2	Laboratório de Inteligência Artificial de Xangai	`internlm/internlm2-1_8b` `internlm/internlm2-chat-1_8b` `internlm/internlm2-7b` `internlm/internlm2-chat-7b` `internlm/internlm2-20b` `internlm/internlm2-chat-20b`	`internlm/internlm2-1_8b` `internlm/internlm2-chat-1_8b` `internlm/internlm2-7b` `internlm/internlm2-chat-7b`
	Internlm2.5	Laboratório de Inteligência Artificial de Xangai	`internlm/internlm2_5-7b` `internlm/internlm2_5-7b-chat` `internlm/internlm2_5-7b-chat-1m`	`internlm/internlm2_5-7b` `internlm/internlm2_5-7b-chat` `internlm/internlm2_5-7b-chat-1m`
Falcão	Falcão	tiiuae	`tiiuae/falcon-rw-1b` `tiiuae/falcon-7b` `tiiuae/falcon-7b-instruct`	`tiiuae/falcon-rw-1b` `tiiuae/falcon-7b` `tiiuae/falcon-7b-instruct`
Deepseek	Deepseek-moe	Pesquisa aprofundada	`deepseek-ai/deepseek-moe-16b-base` `deepseek-ai/deepseek-moe-16b-chat`	`deepseek-ai/deepseek-moe-16b-base` `deepseek-ai/deepseek-moe-16b-chat`
	Deepseek-llm	Pesquisa aprofundada	`deepseek-ai/deepseek-llm-7b-base` `deepseek-ai/deepseek-llm-7b-chat`	`deepseek-ai/deepseek-llm-7b-base` `deepseek-ai/deepseek-llm-7b-chat`
	Deepseek-V2	Pesquisa aprofundada	`deepseek-ai/DeepSeek-V2-Lite` `deepseek-ai/DeepSeek-V2-Lite-Chat`	`deepseek-ai/DeepSeek-V2-Lite` `deepseek-ai/DeepSeek-V2-Lite-Chat`
	Deepseek-Coder	Pesquisa aprofundada	`deepseek-ai/deepseek-coder-1.3b-base` `deepseek-ai/deepseek-coder-1.3b-instruct` `deepseek-ai/deepseek-coder-6.7b-base` `deepseek-ai/deepseek-coder-6.7b-instruct` `deepseek-ai/deepseek-coder-7b-base-v1.5` `deepseek-ai/deepseek-coder-7b-instruct-v1.5`	`deepseek-ai/deepseek-coder-1.3b-base` `deepseek-ai/deepseek-coder-1.3b-instruct` `deepseek-ai/deepseek-coder-6.7b-base` `deepseek-ai/deepseek-coder-6.7b-instruct` `deepseek-ai/deepseek-coder-7b-base-v1.5` `deepseek-ai/deepseek-coder-7b-instruct-v1.5`
	Deepseek-Coder-V2	Pesquisa aprofundada	`deepseek-ai/DeepSeek-Coder-V2-Lite-Base` `deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct`	`deepseek-ai/DeepSeek-Coder-V2-Lite-Base` `deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct`
	Deepseek-math	Pesquisa aprofundada	`deepseek-ai/deepseek-math-7b-base` `deepseek-ai/deepseek-math-7b-instruct` `deepseek-ai/deepseek-math-7b-rl`	`deepseek-ai/deepseek-math-7b-base` `deepseek-ai/deepseek-math-7b-instruct` `deepseek-ai/deepseek-math-7b-rl`
Minicpm	Minicpm	OpenBMB	`openbmb/MiniCPM-2B-sft-bf16` `openbmb/MiniCPM-2B-dpo-bf16` `openbmb/MiniCPM-2B-128k` `openbmb/MiniCPM-1B-sft-bf16`	`openbmb/MiniCPM-2B-sft-bf16` `openbmb/MiniCPM-2B-dpo-bf16` `openbmb/MiniCPM-2B-128k` `openbmb/MiniCPM-1B-sft-bf16`
	Minicpm-v	OpenBMB	`openbmb/MiniCPM-V-2_6` `openbmb/MiniCPM-Llama3-V-2_5`	`openbmb/MiniCPM-V-2_6` `openbmb/MiniCPM-Llama3-V-2_5`
Incorporação	text2vec-bash-chinese	Shibing624	`shibing624/text2vec-base-chinese`	`shibing624/text2vec-base-chinese`
	m3e	Moka-AI	`moka-ai/m3e-base`	`moka-ai/m3e-base`
	bge	Baai	`BAAI/bge-large-en-v1.5` `BAAI/bge-large-zh-v1.5` `BAAI/bge-base-en-v1.5` `BAAI/bge-base-zh-v1.5` `BAAI/bge-small-en-v1.5` `BAAI/bge-small-zh-v1.5`	`BAAI/bge-large-en-v1.5` `BAAI/bge-large-zh-v1.5` `BAAI/bge-base-en-v1.5` `BAAI/bge-base-zh-v1.5` `BAAI/bge-small-en-v1.5` `BAAI/bge-small-zh-v1.5`
	gte	Thenlper	`thenlper/gte-large-zh` `thenlper/gte-base-zh`	`thenlper/gte-base-zh` `thenlper/gte-large-zh`

*Observação:

A representação do高亮格式(como bert-base-chinese ) pode ser diretamente build_transformer_model() para baixar online
Os sites de espelho doméstico são acelerados para baixar
- HF_ENDPOINT=https://hf-mirror.com python your_script.py
- export HF_ENDPOINT=https://hf-mirror.com antes de executar o código Python
- Definido o seguinte no início do código Python
```
 import os
os . environ [ 'HF_ENDPOINT' ] = "https://hf-mirror.com" 
```

6. Obrigado

Graças a Su Shen pelo Bet4keras implementado. Existem muitos lugares nesta implementação que se referem ao código -fonte do Bet4keras. Gostaria de agradecer sinceramente ao chefe por sua dedicação altruísta;
Em segundo lugar, graças ao projeto Bet4Pytorch e, sob a orientação deste projeto, dei -me as idéias e idéias de usar Pytorch para reproduzir o Bet4keras.

7. Citação

 @misc{bert4torch,
  title={bert4torch},
  author={Bo Li},
  year={2022},
  howpublished={url{https://github.com/Tongjilibo/bert4torch}},
}

8 outros

Gráfico de História do WeChat & Star
O número de grupos WeChat excede 200 (com restrições de convite), você pode adicionar grupos pessoais do WeChat

WeChat ID

Grupo WeChat

Gráfico de história da estrela

Expandir

Informações adicionais

Versão v0.5.4
Tipo Outro código-fonte
Data da Última Atualização 2025-04-19
tamanho 3.42MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos