mlc llm
1.0.0
MLコンピレーションを備えたユニバーサルLLM展開エンジン
始めましょう|ドキュメント|ブログ
MLC LLMは、大規模な言語モデル向けの機械学習コンパイラおよび高性能展開エンジンです。このプロジェクトの使命は、すべての人がすべてのプラットフォームでAIモデルをネイティブに開発、最適化、展開できるようにすることです。
| AMD GPU | nvidia gpu | Apple GPU | Intel GPU | |
|---|---|---|---|---|
| Linux / Win | ✅ヴルカン、ロック | ✅ヴルカン、cuda | n/a | vulkan |
| macos | ✅メタル(DGPU) | n/a | ✅メタル | ✅金属(IGPU) |
| Webブラウザ | webgpuとwasm | |||
| iOS / iPados | Apple A-Series GPUの金属 | |||
| アンドロイド | Adreno GPUのOpencl | Mali GPUのOpenCL | ||
MLC LLMは、上記のプラットフォーム全体で統一された高性能LLM推論エンジンであるMLCengineでコードをコンパイルして実行します。 MLCENGINEは、RESTサーバー、Python、JavaScript、iOS、Androidを通じて利用可能なOpenAI互換APIを提供します。これらはすべて、コミュニティで改善し続けるのと同じエンジンとコンパイラに裏付けられています。
MLC LLMを開始するには、ドキュメントをご覧ください。
あなたがそれが役立つと思うなら、私たちのプロジェクトを引用することを検討してください:
@software { mlc-llm ,
author = { {MLC team} } ,
title = { {MLC-LLM} } ,
url = { https://github.com/mlc-ai/mlc-llm } ,
year = { 2023-2024 }
}MLC LLMの基礎となるテクニックには次のものがあります。
@inproceedings { tensorir ,
author = { Feng, Siyuan and Hou, Bohan and Jin, Hongyi and Lin, Wuwei and Shao, Junru and Lai, Ruihang and Ye, Zihao and Zheng, Lianmin and Yu, Cody Hao and Yu, Yong and Chen, Tianqi } ,
title = { TensorIR: An Abstraction for Automatic Tensorized Program Optimization } ,
year = { 2023 } ,
isbn = { 9781450399166 } ,
publisher = { Association for Computing Machinery } ,
address = { New York, NY, USA } ,
url = { https://doi.org/10.1145/3575693.3576933 } ,
doi = { 10.1145/3575693.3576933 } ,
booktitle = { Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2 } ,
pages = { 804–817 } ,
numpages = { 14 } ,
keywords = { Tensor Computation, Machine Learning Compiler, Deep Neural Network } ,
location = { Vancouver, BC, Canada } ,
series = { ASPLOS 2023 }
}
@inproceedings { metaschedule ,
author = { Shao, Junru and Zhou, Xiyou and Feng, Siyuan and Hou, Bohan and Lai, Ruihang and Jin, Hongyi and Lin, Wuwei and Masuda, Masahiro and Yu, Cody Hao and Chen, Tianqi } ,
booktitle = { Advances in Neural Information Processing Systems } ,
editor = { S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh } ,
pages = { 35783--35796 } ,
publisher = { Curran Associates, Inc. } ,
title = { Tensor Program Optimization with Probabilistic Programs } ,
url = { https://proceedings.neurips.cc/paper_files/paper/2022/file/e894eafae43e68b4c8dfdacf742bcbf3-Paper-Conference.pdf } ,
volume = { 35 } ,
year = { 2022 }
}
@inproceedings { tvm ,
author = { Tianqi Chen and Thierry Moreau and Ziheng Jiang and Lianmin Zheng and Eddie Yan and Haichen Shen and Meghan Cowan and Leyuan Wang and Yuwei Hu and Luis Ceze and Carlos Guestrin and Arvind Krishnamurthy } ,
title = { {TVM}: An Automated {End-to-End} Optimizing Compiler for Deep Learning } ,
booktitle = { 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18) } ,
year = { 2018 } ,
isbn = { 978-1-939133-08-3 } ,
address = { Carlsbad, CA } ,
pages = { 578--594 } ,
url = { https://www.usenix.org/conference/osdi18/presentation/chen } ,
publisher = { USENIX Association } ,
month = oct,
}