mlc llm
1.0.0
ML 컴파일이있는 범용 LLM 배포 엔진
시작 | 문서 | 블로그
MLC LLM은 대형 언어 모델을위한 기계 학습 컴파일러 및 고성능 배포 엔진입니다. 이 프로젝트의 사명은 모든 사람이 모든 사람의 플랫폼에서 AI 모델을 기본적으로 개발, 최적화 및 배포 할 수 있도록하는 것입니다.
| AMD GPU | NVIDIA GPU | Apple GPU | 인텔 GPU | |
|---|---|---|---|---|
| 리눅스 / 승리 | ✅ vulkan, rocm | ✅ vulkan, cuda | N/A | Vulkan |
| 마코스 | ✅ 금속 (DGPU) | N/A | ✅ 금속 | ✅ 금속 (IGPU) |
| 웹 브라우저 | Webgpu와 Wasm | |||
| iOS / iPados | Apple Apple A-Series GPU의 금속 | |||
| 기계적 인조 인간 | Adreno GPU의 Opencl | mali GPU의 Opencl | ||
MLC LLM은 MLCENGINE에서 코드를 컴파일하고 실행합니다-위의 플랫폼에서 통합 고성능 LLM 추론 엔진입니다. MLCENGINE은 REST Server, Python, JavaScript, iOS, Android를 통해 사용 가능한 OpenAI 호환 API를 모두 커뮤니티와 함께 개선하는 것과 동일한 엔진 및 컴파일러로 뒷받침됩니다.
MLC LLM을 시작하려면 문서를 방문하십시오.
유용하다고 생각되면 프로젝트를 인용하십시오.
@software { mlc-llm ,
author = { {MLC team} } ,
title = { {MLC-LLM} } ,
url = { https://github.com/mlc-ai/mlc-llm } ,
year = { 2023-2024 }
}MLC LLM의 기본 기술은 다음과 같습니다.
@inproceedings { tensorir ,
author = { Feng, Siyuan and Hou, Bohan and Jin, Hongyi and Lin, Wuwei and Shao, Junru and Lai, Ruihang and Ye, Zihao and Zheng, Lianmin and Yu, Cody Hao and Yu, Yong and Chen, Tianqi } ,
title = { TensorIR: An Abstraction for Automatic Tensorized Program Optimization } ,
year = { 2023 } ,
isbn = { 9781450399166 } ,
publisher = { Association for Computing Machinery } ,
address = { New York, NY, USA } ,
url = { https://doi.org/10.1145/3575693.3576933 } ,
doi = { 10.1145/3575693.3576933 } ,
booktitle = { Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 2 } ,
pages = { 804–817 } ,
numpages = { 14 } ,
keywords = { Tensor Computation, Machine Learning Compiler, Deep Neural Network } ,
location = { Vancouver, BC, Canada } ,
series = { ASPLOS 2023 }
}
@inproceedings { metaschedule ,
author = { Shao, Junru and Zhou, Xiyou and Feng, Siyuan and Hou, Bohan and Lai, Ruihang and Jin, Hongyi and Lin, Wuwei and Masuda, Masahiro and Yu, Cody Hao and Chen, Tianqi } ,
booktitle = { Advances in Neural Information Processing Systems } ,
editor = { S. Koyejo and S. Mohamed and A. Agarwal and D. Belgrave and K. Cho and A. Oh } ,
pages = { 35783--35796 } ,
publisher = { Curran Associates, Inc. } ,
title = { Tensor Program Optimization with Probabilistic Programs } ,
url = { https://proceedings.neurips.cc/paper_files/paper/2022/file/e894eafae43e68b4c8dfdacf742bcbf3-Paper-Conference.pdf } ,
volume = { 35 } ,
year = { 2022 }
}
@inproceedings { tvm ,
author = { Tianqi Chen and Thierry Moreau and Ziheng Jiang and Lianmin Zheng and Eddie Yan and Haichen Shen and Meghan Cowan and Leyuan Wang and Yuwei Hu and Luis Ceze and Carlos Guestrin and Arvind Krishnamurthy } ,
title = { {TVM}: An Automated {End-to-End} Optimizing Compiler for Deep Learning } ,
booktitle = { 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18) } ,
year = { 2018 } ,
isbn = { 978-1-939133-08-3 } ,
address = { Carlsbad, CA } ,
pages = { 578--594 } ,
url = { https://www.usenix.org/conference/osdi18/presentation/chen } ,
publisher = { USENIX Association } ,
month = oct,
}