Молнический сердечный двигатель для моделей искусственного интеллекта.
Легкий. Гибкий. Предприятие.
Litserve -это простой в использовании, гибкий сервировочный двигатель для моделей искусственного интеллекта, построенного на Fastapi. Он дополняет FASTAPI таким функциями, как падение, потоковая передача и автоматическая графическая деятельность, устраняет необходимость восстановления сервера FastAPI на модель.
Litserve по крайней мере в 2 раза быстрее, чем простой Fastapi из-за управления с несколькими работниками, специфичной для AI.
✅ (2x)+ быстрая порция ✅ Простая в использовании ✅ LLMS, не LLMS и многое другое ✅ Принесите свою собственную модель ✅ pytorch/jax/tf/... ✅ Построен на Fastapi ✅ AutoScaling GPU ✅ Перечисление, потоковая передача ✅ самостоятельно или ⚡ управляется ✅ Составной AI ✅ Интегрируйте с VLLM и другим
Установите Litserve через PIP (больше опций):
pip install litserveЭтот игрушечный пример с 2 моделями (составная система ИИ) показывает гибкость Litserve (см. Реальные примеры):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Теперь запустите сервер через командную линию
python server.pyЗапустите автомобильный тестовый клиент:
python client.py Или используйте эту команду терминала:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve не только для LLM, таких как VLLM или Ollama; Он обслуживает любую модель искусственного интеллекта с полным контролем над внутренними владениями (узнайте больше).
Для легкой подачи LLM интегрируйте VLLM с Litserve или используйте LITGPT (построенный на Litserve).
litgpt serve microsoft/phi-2
Узнайте, как сделать этот сервер в 200x быстрее.
Используйте Litserve, чтобы развернуть любую модель или службу искусственного интеллекта: (Составной ИИ, Gen AI, Classic ML, Entious, LLMS, Vision, Audio и т. Д.)
Игрушечная модель: привет мир
LLMS: Llama 3.2, прокси -сервер LLM, агент с использованием инструмента
Тряпка: vllm Rag (llama 3.2), Rag api (llamaindex)
NLP: обнимающе
Multimodal: Openai Clip, Minicpm, Phi-3.5 Vision Instruct, QWEN2-VL, Pixtral
Аудио: Whisper, Audiocraft, Stableaudio, шумоподавление (DeepFilternet)
Видение: стабильная диффузия 2, Auraflow, Flux, Super Resolution Image (Aura sr),
Снятие фона, стабильная диффузия управления (ControlNet)
Речь: Text-Speech (XTTS V2), Parler-TTS
Классический ML: Случайный лес, XGBOOST
Разное: API преобразования средств массовой информации (FFMPEG), Pytorch + Tensorflow в одном API
Просмотрите более 100 шаблонов, построенных в сообществе
Современные функции:
✅ (2x)+ быстрее, чем простой Fastapi
✅ Принесите свою собственную модель
✅ Создайте комплексные системы (1+ модели)
✅ АВТОСКАЛЬНАЯ ГПУ
✅ Пардация
✅ потоковой передача
✅ Работник Автомасшюру
✅ Самостоятельно на ваших машинах
✅ Хост полностью управлялся на Lightning AI
✅ Подайте всем моделям: (LLMS, Vision и т. Д.)
✅ масштаб до нуля (без сервера)
✅ поддерживает Pytorch, Jax, TF и т. Д.
✅ Sponapi Compliant
✅ Открыть совместимость с ИИ
✅ Аутентификация
✅ Dockerization
10+ функций ...
Примечание. Мы расставляем приоритеты масштабируемых функций на уровне предприятия по поводу шумиха.
Litserve предназначен для рабочих нагрузок искусственного интеллекта. Специализированная многоработальная обработка обеспечивает минимальное 2-кратное ускорение по сравнению с FASTAPI .
Дополнительные функции, такие как пакетный и автоматический графический процессор, могут вывести производительность далеко за пределы 2x, эффективно масштабируя, чтобы обработать более одновременные запросы, чем Fastapi и TorchServe.
Воспроизведите полные тесты здесь (лучше лучше).
Эти результаты предназначены для задач ML -классификации изображения и текста. Отношения производительности поддерживаются для других задач ML (Encedding, LLM -сервировка, аудио, сегментация, обнаружение объекта, суммирование и т. Д.).
Примечание на обслуживании LLM: для высокопроизводительной службы LLM (например, Ollama/VLLM), интегрируйте VLLM с Litserve, используйте LITGPT или создайте пользовательский VLLM-подобный сервер с Litserve. Оптимизации, такие как кв-кэширование, которое можно сделать с помощью Litserve, необходимы для максимизации производительности LLM.
Litserve может быть размещен независимо на ваших собственных машинах или полностью управляется через Lightning Studios.
Самоунижение идеально подходит для хакеров, студентов и разработчиков DIY, в то время как полностью управляемый хостинг идеально подходит для разработчиков предприятий, нуждающихся в простом автомассалировании, безопасности, управлении выпусками и 99,995% и наблюдаемой наблюдением.
| Особенность | Самостоятельно управляется | Полностью управляется в студиях |
|---|---|---|
| Развертывание | ✅ Сделайте это самостоятельно развертывание | ✅ Развертывание одного кнопок облака |
| Балансировка нагрузки | ✅ | |
| Автоскалирование | ✅ | |
| Масштаб до нуля | ✅ | |
| Мультимахинный вывод | ✅ | |
| Аутентификация | ✅ | |
| Собственный VPC | ✅ | |
| AWS, GCP | ✅ | |
| Используйте свои собственные Cloud Commits | ✅ |
Litserve - это общественный проект, принимающий вклад - давайте сделаем самый продвинутый в мире механизм вывода ИИ.
Получите помощь в Discord
? Лицензия: Apache 2.0