
문서 | Torch4keras | 예 | build_minillm_from_scratch | Bert4vector
안정적인 버전을 설치하십시오
pip install bert4torch최신 버전을 설치하십시오
pip install git+https://github.com/Tongjilibo/bert4torchgit clone https://github.com/Tongjilibo/bert4torch , 예제에서 사전 취사 모델 파일 경로와 데이터 경로를 수정하여 스크립트를 시작하십시오.torch==1.10 버전으로 개발하는 데 사용되었으며 이제 torch2.0 개발로 전환되었습니다. 다른 버전에서 의견이 맞지 않으면 의견을 보내 주시기 바랍니다. LLM 모델 : 추론 및 미세 조정을 위해 ChatGlm, Llama, Baichuan, Ziya, Bloom 등과 같은 오픈 소스 큰 모델 가중치를로드하고 명령 줄에 한 줄에 큰 모델을 배포합니다.
핵심 기능 : Bert, Roberta, Albert, Albert, Xlnet, Nezha, Bart, Roformer, Roformer_v2, Electra, GPT, GPT2, T5, Gau-Alpha, Ernie 등과 같은 사전 훈련 가중치 로딩
풍부한 예 : LLM, Pretrain, sentence_classification, sentence_embedding, sequence_labeling, relationship_extraction, seq2seq, 서빙 및 기타 솔루션 포함
실험적 검증 : 다음 예제 데이터 세트 및 실험 지표를 사용하여 공개 데이터 세트에서 실험적 검증이 이루어졌습니다.
사용하기 쉬운 트릭 : 일반적인 트릭, 플러그 및 플레이를 통합합니다
기타 기능 : Transformers 라이브러리 모델을 함께로드하십시오. 통화 방법은 간단하고 효율적입니다. 훈련 진행 막대의 동적 디스플레이; Torchinfo를 사용하여 인쇄 매개 변수 볼륨; 기본 로거와 텐서 보드는 교육 프로세스를 쉽게 기록 할 수 있습니다. 높은 수준의 요구를 충족시키기위한 맞춤형 적합 프로세스
훈련 과정 :

| 기능 | Bert4Torch | 변압기 | 주목 |
|---|---|---|---|
| 훈련 진행률 바 | ✅ | ✅ | Progress Bar는 손실 및 정의 된 지표를 인쇄합니다 |
| 분산 교육 DP/DDP | ✅ | ✅ | 토치에는 DP/DDP가 제공됩니다 |
| 다양한 콜백 | ✅ | ✅ | 로그/Tensorboard/Earlystop/Wandb 등 |
| 큰 모델 추론, 스트림/배치 출력 | ✅ | ✅ | 각 모델은 보편적이며 스크립트의 별도의 유지 보수가 필요하지 않습니다. |
| 큰 모델 미세 튜닝 | ✅ | ✅ | Lora는 PEFT 라이브러리에 따라 다르고 PV2는 자체로 제공됩니다. |
| 풍부한 트릭 | ✅ | 트릭은 훈련 및 기타 트릭에 대한 플러그 앤 플레이입니다 | |
| 코드는 간단하고 이해하기 쉽고 사용자 정의 공간이 큽니다. | ✅ | 높은 코드 재사용, Keras 코드 교육 스타일 | |
| 창고 유지 보수 기능/영향/사용/호환성 | ✅ | 현재 창고의 개인 유지 보수 | |
| 대형 모델의 원 클릭 배포 |
# 联网下载全部文件
bert4torch-llm-server --checkpoint_path Qwen2-0.5B-Instruct
# 加载本地大模型,联网下载bert4torch_config.json
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --config_path Qwen/Qwen2-0.5B-Instruct
# 加载本地大模型,且bert4torch_config.json已经下载并放于同名目录下
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct # 命令行
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode cli
# gradio网页
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode gradio
# openai_api
bert4torch-llm-server --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode openai
| 업데이트 날짜 | Bert4Torch | Torch4keras | 버전 설명 |
|---|---|---|---|
| 20240928 | 0.5.4 | 0.2.7 | [새로운 기능] DeepSeek 시리즈, Minicpm, Minicpmv, Llama3.2, Qwen2.5; 지원 Device_map = 자동; [수정] batch_generate 및 n> 1 버그 수정 |
| 20240814 | 0.5.3 | 0.2.6 | 【새로운 기능】 LLAMA3.1/YI1.5 추가; hfmirror에서 자동으로 다운로드를 선택합니다. 지원 명령 줄 매개 변수 bert4torch-llm-server |
| 20240801 | 0.5.2 | 0.2.5 | [새 기능] ChatGlm/Qwen 시리즈는 기능 통화를 지원하고 InternLM2 시리즈를 추가합니다. [작은 최적화] 파이프 라인에서 채팅 데모의 호출을 단순화하고, 토큰 요소를 생성 할 수 있고, 로프 스케일 매개 변수 이름을 통합하고, 로프 파생 클래스를 추가합니다. [버그] Flash_ATTN2 추론 버그를 수정하고 BART의 tie_word_embedding 버그를 수정하십시오 |
더 많은 버전
더 많은 역사
미리 훈련 된 모델은 여러 코드 로딩 방법을 지원합니다
from bert4torch . models import build_transformer_model
# 1. 仅指定config_path: 从头初始化模型结构, 不加载预训练模型
model = build_transformer_model ( './model/bert4torch_config.json' )
# 2. 仅指定checkpoint_path:
## 2.1 文件夹路径: 自动寻找路径下的*.bin/*.safetensors权重文件 + 需把bert4torch_config.json下载并放于该目录下
model = build_transformer_model ( checkpoint_path = './model' )
## 2.2 文件路径/列表: 文件路径即权重路径/列表, bert4torch_config.json会从同级目录下寻找
model = build_transformer_model ( checkpoint_path = './pytorch_model.bin' )
## 2.3 model_name: hf上预训练权重名称, 会自动下载hf权重以及bert4torch_config.json文件
model = build_transformer_model ( checkpoint_path = 'bert-base-chinese' )
# 3. 同时指定config_path和checkpoint_path(本地路径名或model_name排列组合):
# 本地路径从本地加载,pretrained_model_name会联网下载
config_path = './model/bert4torch_config.json' # 或'bert-base-chinese'
checkpoint_path = './model/pytorch_model.bin' # 或'bert-base-chinese'
model = build_transformer_model ( config_path , checkpoint_path )사전에 사전 무게 링크 및 Bert4Torch_config.json
| 모델 분류 | 모델 이름 | 체중의 원천 | 가중치 링크/Checkpoint_Path | config_path |
|---|---|---|---|---|
| 버트 | 베르트-베이스-차이나 | Google-Bert | bert-base-chinese | bert-base-chinese |
| Chinese_L-12_H-768_A-12 | TF 무게Tongjilibo/bert-chinese_L-12_H-768_A-12 | |||
| 중국-베르트 WWM-EXT | HFL | hfl/chinese-bert-wwm-ext | hfl/chinese-bert-wwm-ext | |
| Bert-Base-Multingual-Cased | Google-Bert | bert-base-multilingual-cased | bert-base-multilingual-cased | |
| 맥버트 | HFL | hfl/chinese-macbert-basehfl/chinese-macbert-large | hfl/chinese-macbert-basehfl/chinese-macbert-large | |
| Wobert | Zhuyi 기술 | junnyu/wobert_chinese_base , junnyu/wobert_chinese_plus_base | junnyu/wobert_chinese_basejunnyu/wobert_chinese_plus_base | |
| 로베르타 | 중국-로버타 -WWM-EXT | HFL | hfl/chinese-roberta-wwm-exthfl/chinese-roberta-wwm-ext-large(대형 MLM 무게는 무작위로 초기화됩니다) | hfl/chinese-roberta-wwm-exthfl/chinese-roberta-wwm-ext-large |
| Roberta-Small/Tiny | Zhuyi 기술 | Tongjilibo/chinese_roberta_L-4_H-312_A-12Tongjilibo/chinese_roberta_L-6_H-384_A-12 | ||
| Roberta-Base | Facebookai | roberta-base | roberta-base | |
| 구웬 버트 | 윤리 | ethanyt/guwenbert-base | ethanyt/guwenbert-base | |
| 앨버트 | Albert_ZH Albert_pytorch | 브라이트 마트 | voidful/albert_chinese_tinyvoidful/albert_chinese_smallvoidful/albert_chinese_basevoidful/albert_chinese_largevoidful/albert_chinese_xlargevoidful/albert_chinese_xxlarge | voidful/albert_chinese_tinyvoidful/albert_chinese_smallvoidful/albert_chinese_basevoidful/albert_chinese_largevoidful/albert_chinese_xlargevoidful/albert_chinese_xxlarge |
| 네자 | 네자 nezha_chinese_pytorch | huawei_noah | sijunhe/nezha-cn-basesijunhe/nezha-cn-largesijunhe/nezha-base-wwmsijunhe/nezha-large-wwm | sijunhe/nezha-cn-basesijunhe/nezha-cn-largesijunhe/nezha-base-wwmsijunhe/nezha-large-wwm |
| nezha_gpt_dialog | 보온 | Tongjilibo/nezha_gpt_dialog | ||
| xlnet | 중국-XLNET | HFL | hfl/chinese-xlnet-base | hfl/chinese-xlnet-base |
| 변압기 _XL | 포옹 페이스 | transfo-xl/transfo-xl-wt103 | transfo-xl/transfo-xl-wt103 | |
| 디버타 | Erlangshen-Deberta-V2 | 아이디어 | IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-ChineseIDEA-CCNL/Erlangshen-DeBERTa-v2-320M-ChineseIDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese | IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-ChineseIDEA-CCNL/Erlangshen-DeBERTa-v2-320M-ChineseIDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese |
| 전자 | 중국-전자 | HFL | hfl/chinese-electra-base-discriminator | hfl/chinese-electra-base-discriminator |
| 어니 | 어니 | 바이두 웬신 | nghuyong/ernie-1.0-base-zhnghuyong/ernie-3.0-base-zh | nghuyong/ernie-1.0-base-zhnghuyong/ernie-3.0-base-zh |
| Roformer | Roformer | Zhuyi 기술 | junnyu/roformer_chinese_base | junnyu/roformer_chinese_base |
| Roformer_v2 | Zhuyi 기술 | junnyu/roformer_v2_chinese_char_base | junnyu/roformer_v2_chinese_char_base | |
| Simbert | Simbert | Zhuyi 기술 | Tongjilibo/simbert-chinese-baseTongjilibo/simbert-chinese-smallTongjilibo/simbert-chinese-tiny | |
| simbert_v2/roformer-sim | Zhuyi 기술 | junnyu/roformer_chinese_sim_char_base , junnyu/roformer_chinese_sim_char_ft_base , junnyu/roformer_chinese_sim_char_small , junnyu/roformer_chinese_sim_char_ft_small | junnyu/roformer_chinese_sim_char_basejunnyu/roformer_chinese_sim_char_ft_basejunnyu/roformer_chinese_sim_char_smalljunnyu/roformer_chinese_sim_char_ft_small | |
| 가우 | 가우 알파 | Zhuyi 기술 | Tongjilibo/chinese_GAU-alpha-char_L-24_H-768 | |
| uie | uie uie_pytorch | 바이두 | Tongjilibo/uie-base | |
| gpt | 분당 GPT | Thu-Coai | thu-coai/CDial-GPT_LCCC-basethu-coai/CDial-GPT_LCCC-large | thu-coai/CDial-GPT_LCCC-basethu-coai/CDial-GPT_LCCC-large |
| CMP_LM (26 억) | Tsinghua | TsinghuaAI/CPM-Generate | TsinghuaAI/CPM-Generate | |
| Nezha_gen | huawei_noah | Tongjilibo/chinese_nezha_gpt_L-12_H-768_A-12 | ||
| gpt2- 중국어 클루 코프 스마일 | uer | uer/gpt2-chinese-cluecorpussmall | uer/gpt2-chinese-cluecorpussmall | |
| GPT2-ML | imcaspar | 토르 Baiduyun (84dh) | gpt2-ml_15g_corpusgpt2-ml_30g_corpus | |
| 바트 | bart_base_chinese | 후단 fnlp | fnlp/bart-base-chinesev1.0 | fnlp/bart-base-chinesefnlp/bart-base-chinese-v1.0 |
| T5 | T5 | uer | uer/t5-small-chinese-cluecorpussmalluer/t5-base-chinese-cluecorpussmall | uer/t5-base-chinese-cluecorpussmalluer/t5-small-chinese-cluecorpussmall |
| MT5 | google/mt5-base | google/mt5-base | ||
| T5_pegasus | Zhuyi 기술 | Tongjilibo/chinese_t5_pegasus_smallTongjilibo/chinese_t5_pegasus_base | ||
| Chatyuan | 단서 | ClueAI/ChatYuan-large-v1ClueAI/ChatYuan-large-v2 | ClueAI/ChatYuan-large-v1ClueAI/ChatYuan-large-v2 | |
| PromptClue | 단서 | ClueAI/PromptCLUE-base | ClueAI/PromptCLUE-base | |
| chatglm | chatglm-6b | thudm | THUDM/chatglm-6bTHUDM/chatglm-6b-int8THUDM/chatglm-6b-int4v0.1.0 | THUDM/chatglm-6bTHUDM/chatglm-6b-int8THUDM/chatglm-6b-int4THUDM/chatglm-6b-v0.1.0 |
| chatglm2-6b | thudm | THUDM/chatglm2-6bTHUDM/chatglm2-6b-int4THUDM/chatglm2-6b-32k | THUDM/chatglm2-6bTHUDM/chatglm2-6b-int4THUDM/chatglm2-6b-32k | |
| chatglm3-6b | thudm | THUDM/chatglm3-6bTHUDM/chatglm3-6b-32k | THUDM/chatglm3-6bTHUDM/chatglm3-6b-32k | |
| GLM4-9B | thudm | THUDM/glm-4-9bTHUDM/glm-4-9b-chatTHUDM/glm-4-9b-chat-1m | THUDM/glm-4-9bTHUDM/glm-4-9b-chatTHUDM/glm-4-9b-chat-1m | |
| 야마 | 야마 | 메타 | meta-llama/llama-7bmeta-llama/llama-13b | |
| llama-2 | 메타 | 메타 롤라/라마 -2-7B-HF 메타 롤라/라마 -2-7B-Chat-HF 메타 롤라/라마 -2-13B-HF 메타 롤라/llama-2-13B-chat-HF | meta-llama/Llama-2-7b-hfmeta-llama/Llama-2-7b-chat-hfmeta-llama/Llama-2-13b-hfmeta-llama/Llama-2-13b-chat-hf | |
| llama-3 | 메타 | meta-llama/Meta-Llama-3-8Bmeta-llama/Meta-Llama-3-8B-Instruct | meta-llama/Meta-Llama-3-8Bmeta-llama/Meta-Llama-3-8B-Instruct | |
| llama-3.1 | 메타 | meta-llama/Meta-Llama-3.1-8Bmeta-llama/Meta-Llama-3.1-8B-Instruct | meta-llama/Meta-Llama-3.1-8Bmeta-llama/Meta-Llama-3.1-8B-Instruct | |
| llama-3.2 | 메타 | meta-llama/Llama-3.2-1Bmeta-llama/Llama-3.2-1B-Instructmeta-llama/Llama-3.2-3Bmeta-llama/Llama-3.2-3B-Instruct | meta-llama/Llama-3.2-1Bmeta-llama/Llama-3.2-1B-Instructmeta-llama/Llama-3.2-3Bmeta-llama/Llama-3.2-3B-Instruct | |
| 중국-알라 카카 | HFL | hfl/chinese_alpaca_plus_7bhfl/chinese_llama_plus_7b | ||
| 중국-알라마-아파카 -2 | HFL | 추가 할 | ||
| 중국-알라마 알파카 -3 | HFL | 추가 할 | ||
| Belle_llama | Lianjiatech | Bellegroup/Belle-llama-7b-2m-enc | 합성 지침, BelleGroup/BELLE-LLaMA-7B-2M-enc | |
| 지야 | 아이디어 -CCNL | Idea-CCNL/Ziya-Llama-13B-V1 Idea-CCNL/Ziya-Llama-13B-V1.1 Idea-CCNL/Ziya-Llama-13B-Pretrain-V1 | IDEA-CCNL/Ziya-LLaMA-13B-v1IDEA-CCNL/Ziya-LLaMA-13B-v1.1 | |
| 비쿠나 | lmsys | lmsys/vicuna-7b-v1.5 | lmsys/vicuna-7b-v1.5 | |
| Baichuan | Baichuan | Baichuan-inc | baichuan-inc/Baichuan-7Bbaichuan-inc/Baichuan-13B-Basebaichuan-inc/Baichuan-13B-Chat | baichuan-inc/Baichuan-7Bbaichuan-inc/Baichuan-13B-Basebaichuan-inc/Baichuan-13B-Chat |
| Baichuan2 | Baichuan-inc | baichuan-inc/Baichuan2-7B-Basebaichuan-inc/Baichuan2-7B-Chatbaichuan-inc/Baichuan2-13B-Basebaichuan-inc/Baichuan2-13B-Chat | baichuan-inc/Baichuan2-7B-Basebaichuan-inc/Baichuan2-7B-Chatbaichuan-inc/Baichuan2-13B-Basebaichuan-inc/Baichuan2-13B-Chat | |
| Yi | Yi | 01-AI | 01-ai/Yi-6B01-ai/Yi-6B-200K01-ai/Yi-9B01-ai/Yi-9B-200K | 01-ai/Yi-6B01-ai/Yi-6B-200K01-ai/Yi-9B01-ai/Yi-9B-200K |
| YI-1.5 | 01-AI | 01-ai/Yi-1.5-6B01-ai/Yi-1.5-6B-Chat01-ai/Yi-1.5-9B01-ai/Yi-1.5-9B-32K01-ai/Yi-1.5-9B-Chat01-ai/Yi-1.5-9B-Chat-16K | 01-ai/Yi-1.5-6B01-ai/Yi-1.5-6B-Chat01-ai/Yi-1.5-9B01-ai/Yi-1.5-9B-32K01-ai/Yi-1.5-9B-Chat01-ai/Yi-1.5-9B-Chat-16K | |
| 꽃 | 꽃 | 큰 과학 | bigscience/bloom-560mbigscience/bloomz-560m | bigscience/bloom-560mbigscience/bloomz-560m |
| Qwen | Qwen | 알리바바 클라우드 | Qwen/Qwen-1_8BQwen/Qwen-1_8B-ChatQwen/Qwen-7BQwen/Qwen-7B-ChatQwen/Qwen-14BQwen/Qwen-14B-Chat | Qwen/Qwen-1_8BQwen/Qwen-1_8B-ChatQwen/Qwen-7BQwen/Qwen-7B-ChatQwen/Qwen-14BQwen/Qwen-14B-Chat |
| Qwen1.5 | 알리바바 클라우드 | Qwen/Qwen1.5-0.5BQwen/Qwen1.5-0.5B-ChatQwen/Qwen1.5-1.8BQwen/Qwen1.5-1.8B-ChatQwen/Qwen1.5-7BQwen/Qwen1.5-7B-ChatQwen/Qwen1.5-14BQwen/Qwen1.5-14B-Chat | Qwen/Qwen1.5-0.5BQwen/Qwen1.5-0.5B-ChatQwen/Qwen1.5-1.8BQwen/Qwen1.5-1.8B-ChatQwen/Qwen1.5-7BQwen/Qwen1.5-7B-ChatQwen/Qwen1.5-14BQwen/Qwen1.5-14B-Chat | |
| Qwen2 | 알리바바 클라우드 | Qwen/Qwen2-0.5BQwen/Qwen2-0.5B-InstructQwen/Qwen2-1.5BQwen/Qwen2-1.5B-InstructQwen/Qwen2-7BQwen/Qwen2-7B-Instruct | Qwen/Qwen2-0.5BQwen/Qwen2-0.5B-InstructQwen/Qwen2-1.5BQwen/Qwen2-1.5B-InstructQwen/Qwen2-7BQwen/Qwen2-7B-Instruct | |
| QWEN2-VL | 알리바바 클라우드 | Qwen/Qwen2-VL-2B-InstructQwen/Qwen2-VL-7B-Instruct | Qwen/Qwen2-VL-2B-InstructQwen/Qwen2-VL-7B-Instruct | |
| qwen2.5 | 알리바바 클라우드 | Qwen/Qwen2.5-0.5BQwen/Qwen2.5-0.5B-InstructQwen/Qwen2.5-1.5BQwen/Qwen2.5-1.5B-InstructQwen/Qwen2.5-3BQwen/Qwen2.5-3B-InstructQwen/Qwen2.5-7BQwen/Qwen2.5-7B-InstructQwen/Qwen2.5-14BQwen/Qwen2.5-14B-Instruct | Qwen/Qwen2.5-0.5BQwen/Qwen2.5-0.5B-InstructQwen/Qwen2.5-1.5BQwen/Qwen2.5-1.5B-InstructQwen/Qwen2.5-3BQwen/Qwen2.5-3B-InstructQwen/Qwen2.5-7BQwen/Qwen2.5-7B-InstructQwen/Qwen2.5-14BQwen/Qwen2.5-14B-Instruct | |
| internlm | internlm | 상하이 인공 지능 연구소 | internlm/internlm-7binternlm/internlm-chat-7b | internlm/internlm-7binternlm/internlm-chat-7b |
| internlm2 | 상하이 인공 지능 연구소 | internlm/internlm2-1_8binternlm/internlm2-chat-1_8binternlm/internlm2-7binternlm/internlm2-chat-7binternlm/internlm2-20binternlm/internlm2-chat-20b | internlm/internlm2-1_8binternlm/internlm2-chat-1_8binternlm/internlm2-7binternlm/internlm2-chat-7b | |
| Internlm2.5 | 상하이 인공 지능 연구소 | internlm/internlm2_5-7binternlm/internlm2_5-7b-chatinternlm/internlm2_5-7b-chat-1m | internlm/internlm2_5-7binternlm/internlm2_5-7b-chatinternlm/internlm2_5-7b-chat-1m | |
| 매 | 매 | tiiuae | tiiuae/falcon-rw-1btiiuae/falcon-7btiiuae/falcon-7b-instruct | tiiuae/falcon-rw-1btiiuae/falcon-7btiiuae/falcon-7b-instruct |
| Deepseek | Deepseek-Moe | 심층적 인 검색 | deepseek-ai/deepseek-moe-16b-basedeepseek-ai/deepseek-moe-16b-chat | deepseek-ai/deepseek-moe-16b-basedeepseek-ai/deepseek-moe-16b-chat |
| Deepseek-llm | 심층적 인 검색 | deepseek-ai/deepseek-llm-7b-basedeepseek-ai/deepseek-llm-7b-chat | deepseek-ai/deepseek-llm-7b-basedeepseek-ai/deepseek-llm-7b-chat | |
| Deepseek-V2 | 심층적 인 검색 | deepseek-ai/DeepSeek-V2-Litedeepseek-ai/DeepSeek-V2-Lite-Chat | deepseek-ai/DeepSeek-V2-Litedeepseek-ai/DeepSeek-V2-Lite-Chat | |
| Deepseek 코더 | 심층적 인 검색 | deepseek-ai/deepseek-coder-1.3b-basedeepseek-ai/deepseek-coder-1.3b-instructdeepseek-ai/deepseek-coder-6.7b-basedeepseek-ai/deepseek-coder-6.7b-instructdeepseek-ai/deepseek-coder-7b-base-v1.5deepseek-ai/deepseek-coder-7b-instruct-v1.5 | deepseek-ai/deepseek-coder-1.3b-basedeepseek-ai/deepseek-coder-1.3b-instructdeepseek-ai/deepseek-coder-6.7b-basedeepseek-ai/deepseek-coder-6.7b-instructdeepseek-ai/deepseek-coder-7b-base-v1.5deepseek-ai/deepseek-coder-7b-instruct-v1.5 | |
| Deepseek-Coder-V2 | 심층적 인 검색 | deepseek-ai/DeepSeek-Coder-V2-Lite-Basedeepseek-ai/DeepSeek-Coder-V2-Lite-Instruct | deepseek-ai/DeepSeek-Coder-V2-Lite-Basedeepseek-ai/DeepSeek-Coder-V2-Lite-Instruct | |
| 깊은 군대 | 심층적 인 검색 | deepseek-ai/deepseek-math-7b-basedeepseek-ai/deepseek-math-7b-instructdeepseek-ai/deepseek-math-7b-rl | deepseek-ai/deepseek-math-7b-basedeepseek-ai/deepseek-math-7b-instructdeepseek-ai/deepseek-math-7b-rl | |
| minicpm | minicpm | OpenBMB | openbmb/MiniCPM-2B-sft-bf16openbmb/MiniCPM-2B-dpo-bf16openbmb/MiniCPM-2B-128kopenbmb/MiniCPM-1B-sft-bf16 | openbmb/MiniCPM-2B-sft-bf16openbmb/MiniCPM-2B-dpo-bf16openbmb/MiniCPM-2B-128kopenbmb/MiniCPM-1B-sft-bf16 |
| Minicpm-v | OpenBMB | openbmb/MiniCPM-V-2_6openbmb/MiniCPM-Llama3-V-2_5 | openbmb/MiniCPM-V-2_6openbmb/MiniCPM-Llama3-V-2_5 | |
| 임베딩 | text2vec-base-chinese | Shibing624 | shibing624/text2vec-base-chinese | shibing624/text2vec-base-chinese |
| M3E | 모카-아이 | moka-ai/m3e-base | moka-ai/m3e-base | |
| BGE | 바이 | BAAI/bge-large-en-v1.5BAAI/bge-large-zh-v1.5BAAI/bge-base-en-v1.5BAAI/bge-base-zh-v1.5BAAI/bge-small-en-v1.5BAAI/bge-small-zh-v1.5 | BAAI/bge-large-en-v1.5BAAI/bge-large-zh-v1.5BAAI/bge-base-en-v1.5BAAI/bge-base-zh-v1.5BAAI/bge-small-en-v1.5BAAI/bge-small-zh-v1.5 | |
| gte | thenlper | thenlper/gte-large-zhthenlper/gte-base-zh | thenlper/gte-base-zhthenlper/gte-large-zh |
*메모:
高亮格式(예 : bert-base-chinese )의 표현은 직접 build_transformer_model()HF_ENDPOINT=https://hf-mirror.com python your_script.pyexport HF_ENDPOINT=https://hf-mirror.com import os
os . environ [ 'HF_ENDPOINT' ] = "https://hf-mirror.com" @misc{bert4torch,
title={bert4torch},
author={Bo Li},
year={2022},
howpublished={url{https://github.com/Tongjilibo/bert4torch}},
}
![]() wechat id | ![]() WeChat 그룹 | 스타 역사 차트 |