FineInfer
1.0.0
| Papier |
FineInfer est un prototype de recherche pour le réglage fin et le service de modèles de langues importants.
FineInfer prend en charge le réglage fin et l'inférence économe en paramètres concomitants à travers les caractéristiques suivantes:
Installation et exemples
La version actuelle supprime certaines fonctionnalités et fonctionnalités précédentes. Si vous en avez besoin, veuillez télécharger les versions précédentes.
@inproceedings{FineInfer,
author = {He, Yongjun and Lu, Yao and Alonso, Gustavo},
title = {Deferred Continuous Batching in Resource-Efficient Large Language Model Serving},
year = {2024},
booktitle = {Proceedings of the 4th Workshop on Machine Learning and Systems},
pages = {98–106},
series = {EuroMLSys '24}
}