Descargar model_server - Descargar el código fuente model

model_server

Otro código fuente

ver 2024.5

Descargar

Servidor de modelos OpenVino ™

El servidor de modelos aloja modelos y los hace accesibles para los componentes de software a través de los protocolos de red estándar: un cliente envía una solicitud al servidor de modelos, que realiza una inferencia del modelo y envía una respuesta al cliente. Model Server ofrece muchas ventajas para la implementación de modelos eficiente:

La inferencia remota permite usar clientes livianos con solo las funciones necesarias para realizar llamadas API para implementaciones de borde o nube.
Las aplicaciones son independientes del marco de modelos, el dispositivo de hardware e infraestructura.
Las aplicaciones del cliente en cualquier lenguaje de programación que admita las llamadas REST o GRPC se pueden usar para ejecutar una inferencia de forma remota en el servidor de modelos.
Los clientes requieren menos actualizaciones ya que las bibliotecas de clientes cambian muy raramente.
La topología y los pesos del modelo no están expuestos directamente a las aplicaciones del cliente, lo que facilita el control del acceso al modelo.
Arquitectura ideal para aplicaciones e implementaciones basadas en microservicios en entornos en la nube, incluidos los grupos de Kubernetes y OpenShift.
Utilización eficiente de recursos con escala de inferencia horizontal y vertical.

Diagrama OVMS

OpenVino ™ Model Server (OVMS) es un sistema de alto rendimiento para servir modelos. Implementado en C ++ para la escalabilidad y optimizado para la implementación en las arquitecturas Intel, el servidor de modelos utiliza la misma arquitectura y API que TensorFlow Serving y KServe al aplicar OpenVino para la ejecución de inferencia. El servicio de inferencia se proporciona a través de GRPC o API REST, lo que facilita la implementación de nuevos algoritmos y experimentos de IA.

Imagen ovms

Los modelos utilizados por el servidor deben almacenarse localmente o alojados de forma remota por los servicios de almacenamiento de objetos. Para obtener más detalles, consulte la preparación de la documentación del repositorio de modelos. El servidor de modelos funciona dentro de los contenedores Docker, en el metal desnudo y en el entorno Kubernetes. Comience a usar el servidor de modelos OpenVino con un ejemplo de servicio rápido desde la guía QuickStart o explore las funciones del servidor de modelos.

Lea las notas de la versión para averiguar qué hay de nuevo.

Características clave:

[Nuevo] Incrustos de texto compatibles con OpenAI API
[Nuevo] Reranking Compatible con Cohere API
[Nuevo] Generación de texto eficiente a través de OpenAI API
Ejecución del código de python
transmisión de GRPC
Gráficos de medias
Gestión de modelos: incluyendo versiones de modelo y actualizaciones de modelos en tiempo de ejecución
Entradas de modelo dinámico
Programador de gráficos acíclicos dirigidos junto con nodos personalizados en tuberías DAG
Métricas: métricas compatibles con Prometheus Standard
Soporte para múltiples marcos, como TensorFlow, Paddlepaddle y ONNX
Soporte para aceleradores de IA

Nota: OVMS ha sido probado en Redhat y Ubuntu. Las últimas imágenes de Docker publicadas públicamente se basan en Ubuntu y Ubi. Se almacenan en:

Cazador
Catálogo de ecosistemas Redhat

Ejecutar el servidor de modelos OpenVino

Puede encontrar una demostración sobre cómo usar el servidor de modelos OpenVino en nuestra guía de inicio rápido para el caso de uso de la visión y la generación de texto LLM. Para obtener más información sobre el uso del servidor de modelos en varios escenarios, puede verificar las siguientes guías:

Configuración del repositorio de modelos
Opciones de implementación
Ajuste de rendimiento
Programador de gráficos acíclicos dirigidos
Desarrollo de nodos personalizados
Sirviendo modelos con estado
Implementar usando un gráfico de timón de Kubernetes
Implementación utilizando el operador de Kubernetes
Uso de datos de entrada binaria

Referencias

OpenVino ™
TensorFlow Serving
GRPC
API de reposo
Resultados de la evaluación comparativa
Operaciones de inferencia de IA de velocidad y escala en múltiples arquitecturas: grabación de seminarios web
¿Qué hay de nuevo en el servidor de modelos OpenVino C ++?
Capital Health mejora la atención de accidente cerebrovascular con IA - Ejemplo de caso de uso

Contacto

Si tiene una pregunta, una solicitud de función o un informe de errores, no dude en enviar un problema de GitHub.

* Otros nombres y marcas pueden ser reclamados como propiedad de otros.

Expandir

Información adicional

Versión ver 2024.5
Tipo Otro código fuente
Fecha de actualización 2025-02-26
tamaño 21MB
Proviene de Github

Aplicaciones relacionadas

server

2024-11-05
Servidor SQL

2009-07-04
Servidor FileZilla

2009-07-03
Servidor FileZilla

2009-07-03
Servidor WinFtp

2009-07-03
Servidor FileZilla

2009-06-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo