LLM TPU Скачать - LLM TPU Sourced Code скачать

LLM TPU

Другой исходный код

1.0.0

Скачать

представлять

Этот проект реализует развертывание различных生成式AI模型с открытым исходным кодом для вычисления чипов BM1684X, в основном LLM. Модель преобразуется в BModel через компилятор TPU-MLIR и развернута в среду PCIe или среду SOC с использованием кода C ++. Я написал объяснение на Zhihu, взяв в качестве примера ChatGLM2-6B , чтобы каждый мог понять исходный код: анализ процесса ChatGLM2 и развертывание TPU-MLIR

Введение модели

Развернутые модели следующие (расположенные в алфавитном порядке):

Модель	Int4	Int8	FP16/BF16	Ссылка на объятие
Baichuan2-7b		✅		СВЯЗЬ
Chatglm3-6b	✅	✅	✅	СВЯЗЬ
Chatglm4-9b	✅	✅	✅	СВЯЗЬ
CodeFuse-7b	✅	✅		СВЯЗЬ
DeepSeek-6.7b	✅	✅		СВЯЗЬ
Falcon-40b		✅	✅	СВЯЗЬ
PHI-3-MINI-4K	✅	✅	✅	СВЯЗЬ
Qwen-7b	✅	✅	✅	СВЯЗЬ
Qwen-14b	✅	✅	✅	СВЯЗЬ
QWEN-72B	✅			СВЯЗЬ
QWEN1.5-0.5b	✅	✅	✅	СВЯЗЬ
QWEN1.5-1.8b	✅	✅	✅	СВЯЗЬ
QWEN1.5-7B	✅	✅	✅	СВЯЗЬ
QWEN2-7B	✅	✅	✅	СВЯЗЬ
QWEN2.5-7B	✅	✅	✅	СВЯЗЬ
Llama2-7B	✅	✅	✅	СВЯЗЬ
Llama2-13b	✅	✅	✅	СВЯЗЬ
Llama3-8b	✅	✅	✅	СВЯЗЬ
Llama3.1-8b	✅	✅	✅	СВЯЗЬ
LWM-Text-Chat	✅	✅	✅	СВЯЗЬ
Minicpm3-4b	✅	✅		СВЯЗЬ
MISTRAL-7B-НАБЛЮДЕНИЕ	✅	✅		СВЯЗЬ
Стабильная диффузия			✅	СВЯЗЬ
Стабильная диффузия xl			✅	СВЯЗЬ
WizardCoder-15b	✅			СВЯЗЬ
Yi-6b-чат	✅	✅		СВЯЗЬ
Yi-34b-чат	✅	✅		СВЯЗЬ
Qwen-vl-чат	✅	✅		СВЯЗЬ
QWEN2-VL-Chat	✅	✅		СВЯЗЬ
Internvl2-4b	✅	✅		СВЯЗЬ
Internvl2-2b	✅	✅		СВЯЗЬ
Minicpm-v-2_6	✅	✅		СВЯЗЬ
Llama3.2-Vision-11b	✅	✅	✅	СВЯЗЬ

Если вы хотите узнать детали преобразования и исходный код, вы можете перейти к подкаталоге моделей этого проекта, чтобы просмотреть детали развертывания различных моделей.

Если вы заинтересованы в наших чипах, вы также можете связаться с нами через официальный сайт Sophgo.

Начните быстро

Клонировать проект LLM-TPU и выполнить сценарий run.sh

git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7b

Пожалуйста, обратитесь к быстрому началу для получения подробной информации

Диаграмма воспроизведения

Эффект после запуска показан на следующем рисунке

Командная таблица

Модели, используемые в настоящее время для демонстрации, все команды показаны в следующей таблице

Модель	Соц	PCIE
Chatglm3-6b	./run.sh-Model Chatglm3-6b-Arch Soc	./run.sh-Model Chatglm3-6b-Aarch Pcie
Llama2-7B	./run.sh-Model llama2-7b-Arch Soc	./run.sh-model llama2-7b-arch pcie
Лама3-7B	./run.sh-Model llama3-7b-Arch Soc	./run.sh-Model llama3-7b-Arch Pcie
Qwen-7b	./run.sh-модель Qwen-7b-Arch Soc	./run.sh-модель Qwen-7b-pcie
QWEN1.5-1.8b	./run.sh-model Qwen1.5-1.8b-Arch Soc	./run.sh-model qwen1.5-1.8b-arch pcie
QWEN2.5-7B		./run.sh-model qwen2.5-7b-arch pcie
LWM-Text-Chat	./run.sh-Model LWM-Text-Chat-Arch Soc	./run.sh-Model LWM-Text-Chat-Arch PCIe
WizardCoder-15b	./run.sh-модель Wizardcoder-15b-Arch Soc	./run.sh-модель Wizardcoder-15b-Arch pcie
Internvl2-4b	./run.sh-модель Internvl2-4b-Arch Soc	./run.sh-модель Internvl2-4b-Aarch Pcie
Minicpm-v-2_6	./run.sh -model minicv2_6 -Arch Soc	./run.sh -model minicmv2_6 -arch pcie

Расширенные функции

Расширенная функция Описание:

Функция	Оглавление	Описание функции
Многоядный	Chatglm3/parallel_demo	Поддержка Chatglm3 2-ядер
	Llama2/demo_parallel	Поддержка Llama2 4/6/8 Core
	Qwen/demo_parallel	Поддержка QWEN 4/6/8 ядер
	Qwen1_5/demo_parallel	Поддержка QWEN1_5 4/6/8 ядер
Спекулятивная выборка	Qwen/jacobi_demo	LookaheadDecoding
	Qwen1_5/spulative_sample_demo	Спекулятивная выборка
Преподобное повторное использование	QWEN/reffice_cache_demo	Мультиплексирование преобразования общей последовательности
	Qwen/share_cache_demo	Мультиплексирование преобразования общей последовательности
	QWEN1_5/share_cache_demo	Мультиплексирование преобразования общей последовательности
Модель шифрования	Qwen/share_cache_demo	Модель шифрования
	QWEN1_5/share_cache_demo	Модель шифрования

Часто задаваемые вопросы

Пожалуйста, обратитесь к FAQ и ответам LLM-TPU

Информационная ссылка

Анализ процессов CHATGLM2 и развертывание TPU-MLIR: https://zhuanlan.zhihu.com/p/641975976
Модель преобразования инструментов TPU-MLIR: https://github.com/sophgo/tpu-mlir
TPU-MLIR Quick Start Manual: https://tpumlir.org/docs/quick_start/index.html
Tpu-Mlir Paper, Общее инженерное объяснение: https://www.bilibili.com/video/bv1my4y1o73q

Расширять

Дополнительная информация