LLM TPU 다운로드 LLM TPU 소스 코드 다운로드

LLM TPU

기타 소스코드

1.0.0

다운로드

소개하다

이 프로젝트는 주로 LLM을 계산하기위한 다양한 오픈 소스生成式AI模型의 배포를 인식합니다. 이 모델은 TPU-MLIR 컴파일러를 통해 Bmodel로 변환되고 C ++ 코드를 사용하여 PCIE 환경 또는 SOC 환경에 배포됩니다. Zhihu에 대한 설명을 썼고 ChatGLM2-6B 예로 들어 소스 코드 : ChatGLM2 프로세스 분석 및 TPU-MLIR 배포를 이해할 수 있도록했습니다.

모델 소개

배포 된 모델은 다음과 같습니다 (알파벳 순서로 배열) :

모델	int4	int8	FP16/BF16	포옹 페이스 링크
Baichuan2-7b		✅		링크
chatglm3-6b	✅	✅	✅	링크
chatglm4-9b	✅	✅	✅	링크
Codefuse-7b	✅	✅		링크
Deepseek-6.7b	✅	✅		링크
팔콘 -40b		✅	✅	링크
PHI-3-MINI-4K	✅	✅	✅	링크
Qwen-7b	✅	✅	✅	링크
Qwen-14b	✅	✅	✅	링크
Qwen-72b	✅			링크
Qwen1.5-0.5b	✅	✅	✅	링크
Qwen1.5-1.8b	✅	✅	✅	링크
Qwen1.5-7b	✅	✅	✅	링크
QWEN2-7B	✅	✅	✅	링크
Qwen2.5-7b	✅	✅	✅	링크
llama2-7b	✅	✅	✅	링크
llama2-13b	✅	✅	✅	링크
llama3-8b	✅	✅	✅	링크
llama3.1-8b	✅	✅	✅	링크
LWM-TEXT-Chat	✅	✅	✅	링크
Minicpm3-4b	✅	✅		링크
Mistral-7B- 비축	✅	✅		링크
안정적인 확산			✅	링크
안정적인 확산 XL			✅	링크
마법사 -15b	✅			링크
Yi-6B-Chat	✅	✅		링크
Yi-34B-Chat	✅	✅		링크
Qwen-VL-Chat	✅	✅		링크
QWEN2-VL-Chat	✅	✅		링크
Internvl2-4b	✅	✅		링크
Internvl2-2B	✅	✅		링크
Minicpm-V-2_6	✅	✅		링크
llama3.2-vision-11b	✅	✅	✅	링크

변환 세부 사항 및 소스 코드를 알고 싶다면이 프로젝트의 모델 하위 디렉토리로 이동하여 다양한 모델의 배포 세부 사항을 볼 수 있습니다.

칩에 관심이 있으시면 공식 웹 사이트 Sophgo를 통해 저희에게 연락 할 수도 있습니다.

빨리 시작하십시오

LLM-TPU 프로젝트를 복제하고 run.sh 스크립트를 실행하십시오

git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7b

자세한 내용은 빠른 시작을 참조하십시오

복제 다이어그램

실행 후 효과는 다음 그림에 표시됩니다.

명령 테이블

현재 데모에 사용되는 모델, 모든 명령은 다음 표에 나와 있습니다.

모델	사회	PCIE
chatglm3-6b	./run.sh-모델 Chatglm3-6b -arch soc	./run.sh-모델 chatglm3-6b -arch pcie
llama2-7b	./run.sh-- 모델 llama2-7b-아치 Soc	./run.sh-모델 llama2-7b-아치 pcie
llama3-7b	./run.sh-모델 llama3-7b -arch soc	./run.sh-모델 llama3-7b-아치 pcie
Qwen-7b	./run.sh-모델 Qwen-7b -arch Soc	./run.sh-모델 Qwen-7b-Arch Pcie
Qwen1.5-1.8b	./run.sh-모델 Qwen1.5-1.8b-아치 Soc	./run.sh-모델 qwen1.5-1.8b-아치 pcie
Qwen2.5-7b		./run.sh-모델 qwen2.5-7b -arch pcie
LWM-TEXT-Chat	./run.sh-모델 LWM-TEXT-Chat -arch Soc	./run.sh-모델 LWM-TEXT-CHAT -ARCH PCIE
마법사 -15b	./run.sh-- 모들 마법사-모더-15B -arch soc	./run.sh-- 모드 마법사 -15B-아치 PCIE
Internvl2-4b	./run.sh-모델 인턴 vl2-4b -arch soc	./run.sh-모델 인턴 vl2-4b -arch pcie
Minicpm-V-2_6	./run.sh-- 모드 minicv2_6 -arch soc	./run.sh -모드 minicmv2_6 -arch pcie

고급 기능

고급 기능 설명 :

기능	목차	기능 설명
멀티 코어	chatglm3/parallel_demo	chatglm3 2 코어 지원
	llama2/demo_parallel	llama2 4/6/8 코어를 지원합니다
	Qwen/demo_parallel	Qwen 4/6/8 코어 지원
	qwen1_5/demo_parallel	Qwen1_5 4/6/8 코어를 지원합니다
투기 샘플링	Qwen/Jacobi_demo	LookaheadDecoding
	QWEN1_5/SPECULATIVE_SALLE_DEMO	투기 샘플링
사전 재사용	qwen/prompt_cache_demo	일반적인 시퀀스 프리안 다중화
	qwen/share_cache_demo	일반적인 시퀀스 프리안 다중화
	qwen1_5/share_cache_demo	일반적인 시퀀스 프리안 다중화
모델 암호화	qwen/share_cache_demo	모델 암호화
	qwen1_5/share_cache_demo	모델 암호화