Unduh LLM TPU - LLM TPU Sumber Code Unduh

LLM TPU

Kode sumber lainnya

1.0.0

Unduh

Daftar isi

memperkenalkan
Mulailah dengan cepat
Pertanyaan yang sering diajukan
Tautan informasi

memperkenalkan

Proyek ini mewujudkan penyebaran berbagai生成式AI模型open source untuk menghitung chip BM1684X, terutama LLM. Model ini dikonversi menjadi bmodel melalui kompiler TPU-MLIR dan digunakan ke lingkungan PCIe atau lingkungan SOC menggunakan kode C ++. Saya menulis penjelasan tentang Zhihu, mengambil ChatGLM2-6B sebagai contoh, sehingga semua orang dapat memahami kode sumber: analisis proses chatglm2 dan penyebaran TPU-MLIR

Model Pendahuluan

Model yang digunakan adalah sebagai berikut (diatur dalam urutan abjad):

Model	Int4	Int8	FP16/BF16	Tautan Huggingface
Baichuan2-7b		✅		LINK
Chatglm3-6b	✅	✅	✅	LINK
Chatglm4-9b	✅	✅	✅	LINK
Codefuse-7b	✅	✅		LINK
Deepseek-6.7b	✅	✅		LINK
Falcon-40b		✅	✅	LINK
Phi-3-mini-4K	✅	✅	✅	LINK
Qwen-7b	✅	✅	✅	LINK
Qwen-14b	✅	✅	✅	LINK
Qwen-72b	✅			LINK
Qwen1.5-0.5b	✅	✅	✅	LINK
Qwen1.5-1.8b	✅	✅	✅	LINK
Qwen1.5-7b	✅	✅	✅	LINK
QWEN2-7B	✅	✅	✅	LINK
Qwen2.5-7b	✅	✅	✅	LINK
Llama2-7b	✅	✅	✅	LINK
Llama2-13b	✅	✅	✅	LINK
Llama3-8b	✅	✅	✅	LINK
Llama3.1-8b	✅	✅	✅	LINK
LWM-TEXT-CHAT	✅	✅	✅	LINK
Minicpm3-4b	✅	✅		LINK
MISTRAL-7B-INSTRUCT	✅	✅		LINK
Difusi stabil			✅	LINK
Difusi stabil XL			✅	LINK
WizardCoder-15b	✅			LINK
Yi-6b-chat	✅	✅		LINK
Yi-34b-chat	✅	✅		LINK
Qwen-vl-chat	✅	✅		LINK
QWEN2-VL-CHAT	✅	✅		LINK
Internvl2-4b	✅	✅		LINK
Internvl2-2b	✅	✅		LINK
Minicpm-v-2_6	✅	✅		LINK
Llama3.2-vision-11b	✅	✅	✅	LINK

Jika Anda ingin mengetahui detail konversi dan kode sumber, Anda dapat pergi ke subdirektori model proyek ini untuk melihat detail penyebaran dari berbagai model.

Jika Anda tertarik dengan chip kami, Anda juga dapat menghubungi kami melalui situs web resmi Sophgo.

Mulailah dengan cepat

Klon proyek LLM-TPU dan jalankan skrip run.sh

git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7b

Silakan merujuk ke Mulai Cepat untuk detailnya

Diagram reproduksi

Efek setelah berjalan ditunjukkan pada gambar berikut

Tabel perintah

Model yang saat ini digunakan untuk demonstrasi, semua perintah ditampilkan di tabel berikut

Model	Soc	PCIE
Chatglm3-6b	./run.sh --codel chatglm3-6b --arch soc	./run.sh-Model chatglm3-6b --ch pcie
Llama2-7b	./run.sh-Model llama2-7b --ch Soc	./run.sh-Model llama2-7b --ch pcie
Llama3-7b	./run.sh-Model llama3-7b --ch Soc	./run.sh-Model llama3-7b --ch pcie
Qwen-7b	./run.sh-Model Qwen-7b --arch Soc	./run.sh-Model Qwen-7b --ch pcie
Qwen1.5-1.8b	./run.sh-Model Qwen1.5-1.8b --ch Soc	./run.sh-Model Qwen1.5-1.8b --ch pcie
Qwen2.5-7b		./run.sh-Model qwen2.5-7b --ch pcie
LWM-TEXT-CHAT	./run.sh--Model lwm-text-chat --ch Soc	./run.sh --ding lwm-text-chat --ch pcie
WizardCoder-15b	./run.sh --ding WizardCoder-15b --ch Soc	./run.sh --ding WizardCoder-15b --ch pcie
Internvl2-4b	./run.sh--Model Internvl2-4b --ch Soc	./run.sh--Model Internvl2-4b --ch pcie
Minicpm-v-2_6	./run.sh -Model minicv2_6 --ch Soc	./run.sh - -Model minicmv2_6 --ch pcie

Fungsi lanjutan

Deskripsi Fungsi Lanjutan:

Fungsi	Daftar isi	Deskripsi fungsi
Multi-core	Chatglm3/parallel_demo	Dukung chatglm3 2-core
	Llama2/demo_parallel	Dukungan LLAMA2 4/6/8 Core
	QWEN/DEMO_PARALLEL	Dukung Qwen 4/6/8 core
	Qwen1_5/demo_parallel	Dukung QWEN1_5 4/6/8 Core
Pengambilan sampel spekulatif	Qwen/jacobi_demo	Lookaheaddecoding
	Qwen1_5/speculative_sample_demo	Pengambilan sampel spekulatif
Prefill Reuse	Qwen/prompt_cache_demo	Urutan Umum Prefill Multiplexing
	Qwen/share_cache_demo	Urutan Umum Prefill Multiplexing
	Qwen1_5/share_cache_demo	Urutan Umum Prefill Multiplexing
Enkripsi model	Qwen/share_cache_demo	Enkripsi model
	Qwen1_5/share_cache_demo	Enkripsi model

Pertanyaan yang sering diajukan

Silakan merujuk ke FAQ dan Jawaban LLM-TPU

Tautan informasi

Analisis proses chatglm2 dan penyebaran TPU-MLIR: https://zhuanlan.zhihu.com/p/641975976
Model Conversion Toolchain TPU-MLIR: https://github.com/sophgo/tpu-mlir
TPU-MLIR Mulai Cepat Manual: https://tpumlir.org/docs/quick_start/index.html
TPU-MLIR Paper, Penjelasan Teknik Keseluruhan: https://www.bilibili.com/video/bv1my4y1o73q

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-08
ukuran 194.46MB
Berasal dari Github

Aplikasi Terkait

TensorRT LLM

2024-11-10
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua