
Этот проект реализует развертывание различных生成式AI模型с открытым исходным кодом для вычисления чипов BM1684X, в основном LLM. Модель преобразуется в BModel через компилятор TPU-MLIR и развернута в среду PCIe или среду SOC с использованием кода C ++. Я написал объяснение на Zhihu, взяв в качестве примера ChatGLM2-6B , чтобы каждый мог понять исходный код: анализ процесса ChatGLM2 и развертывание TPU-MLIR
Развернутые модели следующие (расположенные в алфавитном порядке):
| Модель | Int4 | Int8 | FP16/BF16 | Ссылка на объятие |
|---|---|---|---|---|
| Baichuan2-7b | ✅ | СВЯЗЬ | ||
| Chatglm3-6b | ✅ | ✅ | ✅ | СВЯЗЬ |
| Chatglm4-9b | ✅ | ✅ | ✅ | СВЯЗЬ |
| CodeFuse-7b | ✅ | ✅ | СВЯЗЬ | |
| DeepSeek-6.7b | ✅ | ✅ | СВЯЗЬ | |
| Falcon-40b | ✅ | ✅ | СВЯЗЬ | |
| PHI-3-MINI-4K | ✅ | ✅ | ✅ | СВЯЗЬ |
| Qwen-7b | ✅ | ✅ | ✅ | СВЯЗЬ |
| Qwen-14b | ✅ | ✅ | ✅ | СВЯЗЬ |
| QWEN-72B | ✅ | СВЯЗЬ | ||
| QWEN1.5-0.5b | ✅ | ✅ | ✅ | СВЯЗЬ |
| QWEN1.5-1.8b | ✅ | ✅ | ✅ | СВЯЗЬ |
| QWEN1.5-7B | ✅ | ✅ | ✅ | СВЯЗЬ |
| QWEN2-7B | ✅ | ✅ | ✅ | СВЯЗЬ |
| QWEN2.5-7B | ✅ | ✅ | ✅ | СВЯЗЬ |
| Llama2-7B | ✅ | ✅ | ✅ | СВЯЗЬ |
| Llama2-13b | ✅ | ✅ | ✅ | СВЯЗЬ |
| Llama3-8b | ✅ | ✅ | ✅ | СВЯЗЬ |
| Llama3.1-8b | ✅ | ✅ | ✅ | СВЯЗЬ |
| LWM-Text-Chat | ✅ | ✅ | ✅ | СВЯЗЬ |
| Minicpm3-4b | ✅ | ✅ | СВЯЗЬ | |
| MISTRAL-7B-НАБЛЮДЕНИЕ | ✅ | ✅ | СВЯЗЬ | |
| Стабильная диффузия | ✅ | СВЯЗЬ | ||
| Стабильная диффузия xl | ✅ | СВЯЗЬ | ||
| WizardCoder-15b | ✅ | СВЯЗЬ | ||
| Yi-6b-чат | ✅ | ✅ | СВЯЗЬ | |
| Yi-34b-чат | ✅ | ✅ | СВЯЗЬ | |
| Qwen-vl-чат | ✅ | ✅ | СВЯЗЬ | |
| QWEN2-VL-Chat | ✅ | ✅ | СВЯЗЬ | |
| Internvl2-4b | ✅ | ✅ | СВЯЗЬ | |
| Internvl2-2b | ✅ | ✅ | СВЯЗЬ | |
| Minicpm-v-2_6 | ✅ | ✅ | СВЯЗЬ | |
| Llama3.2-Vision-11b | ✅ | ✅ | ✅ | СВЯЗЬ |
Если вы хотите узнать детали преобразования и исходный код, вы можете перейти к подкаталоге моделей этого проекта, чтобы просмотреть детали развертывания различных моделей.
Если вы заинтересованы в наших чипах, вы также можете связаться с нами через официальный сайт Sophgo.
Клонировать проект LLM-TPU и выполнить сценарий run.sh
git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7bПожалуйста, обратитесь к быстрому началу для получения подробной информации
Эффект после запуска показан на следующем рисунке

Модели, используемые в настоящее время для демонстрации, все команды показаны в следующей таблице
| Модель | Соц | PCIE |
|---|---|---|
| Chatglm3-6b | ./run.sh-Model Chatglm3-6b-Arch Soc | ./run.sh-Model Chatglm3-6b-Aarch Pcie |
| Llama2-7B | ./run.sh-Model llama2-7b-Arch Soc | ./run.sh-model llama2-7b-arch pcie |
| Лама3-7B | ./run.sh-Model llama3-7b-Arch Soc | ./run.sh-Model llama3-7b-Arch Pcie |
| Qwen-7b | ./run.sh-модель Qwen-7b-Arch Soc | ./run.sh-модель Qwen-7b-pcie |
| QWEN1.5-1.8b | ./run.sh-model Qwen1.5-1.8b-Arch Soc | ./run.sh-model qwen1.5-1.8b-arch pcie |
| QWEN2.5-7B | ./run.sh-model qwen2.5-7b-arch pcie | |
| LWM-Text-Chat | ./run.sh-Model LWM-Text-Chat-Arch Soc | ./run.sh-Model LWM-Text-Chat-Arch PCIe |
| WizardCoder-15b | ./run.sh-модель Wizardcoder-15b-Arch Soc | ./run.sh-модель Wizardcoder-15b-Arch pcie |
| Internvl2-4b | ./run.sh-модель Internvl2-4b-Arch Soc | ./run.sh-модель Internvl2-4b-Aarch Pcie |
| Minicpm-v-2_6 | ./run.sh -model minicv2_6 -Arch Soc | ./run.sh -model minicmv2_6 -arch pcie |
Расширенная функция Описание:
| Функция | Оглавление | Описание функции |
|---|---|---|
| Многоядный | Chatglm3/parallel_demo | Поддержка Chatglm3 2-ядер |
| Llama2/demo_parallel | Поддержка Llama2 4/6/8 Core | |
| Qwen/demo_parallel | Поддержка QWEN 4/6/8 ядер | |
| Qwen1_5/demo_parallel | Поддержка QWEN1_5 4/6/8 ядер | |
| Спекулятивная выборка | Qwen/jacobi_demo | LookaheadDecoding |
| Qwen1_5/spulative_sample_demo | Спекулятивная выборка | |
| Преподобное повторное использование | QWEN/reffice_cache_demo | Мультиплексирование преобразования общей последовательности |
| Qwen/share_cache_demo | Мультиплексирование преобразования общей последовательности | |
| QWEN1_5/share_cache_demo | Мультиплексирование преобразования общей последовательности | |
| Модель шифрования | Qwen/share_cache_demo | Модель шифрования |
| QWEN1_5/share_cache_demo | Модель шифрования |
Пожалуйста, обратитесь к FAQ и ответам LLM-TPU