onnxruntime server Download - onnxruntime server Código -fonte Download

onnxruntime server

Outro código-fonte

v1.20.0

Baixar

Onnx Runtime Server

ONNX: Open Neural Network Exchange
O OnNX RunTime Server é um servidor que fornece APIs REST TCP e HTTP/HTTPS para inferência ONNX.
O OnNX RunTime Server visa fornecer inferência de ML simples e de alto desempenho e uma boa experiência de desenvolvedor.
- Se você exportou modelos ML treinados em vários ambientes como arquivos ONNX, poderá fornecer APIs de inferência sem escrever código ou metadados adicionais. Basta colocar os arquivos ONNX na estrutura do diretório.
- Cada sessão Onnx, você pode optar por usar CPU ou CUDA.
- Analise a entrada/saída dos modelos ONNX para fornecer informações de tipo/forma para seus colaboradores.
- A documentação da API de swagger embutida facilita para os colaboradores testar os modelos de ML através da API. (Exemplo da API)
- Imagens prontas para o Docker. Nenhuma construção necessária.

Construir Onnx Runtime Server
- Requisitos
  - Instale o tempo de execução do ONNX
  - Instalar dependências
- Compilar e instalar
Instale através de um gerenciador de pacotes
Execute o servidor
Docker
API
Como usar

Construir Onnx Runtime Server

Requisitos

Onnx Runtime
Impulsionar
Cmake, pkg-config
CUDA ( opcional, para suporte da GPU da NVIDIA )
OpenSSL ( opcional, para https )

Instale o tempo de execução do ONNX

Linux

Use o script download-onnxruntime-linux.sh
- Este script baixa a versão mais recente do binário e instala para /usr/local/onnxruntime .
- Além disso, add /usr/local/onnxruntime/lib para /etc/ld.so.conf.d/onnxruntime.conf e execute ldconfig .
Ou faça o download manualmente binário dos lançamentos de tempo de execução do OnNX.

Mac OS

brew install onnxruntime

Instalar dependências

Ubuntu/Debian

sudo apt install cmake pkg-config libboost-all-dev libssl-dev

(Opcional) Suporte CUDA (CUDA 12.X, CUDNN 9.X)

Siga as instruções abaixo para instalar o CUDA Toolkit e o CUDNN.
- Guia de instalação do kit de ferramentas CUDA
- Download de Cuda para Ubuntu

sudo apt install cuda-toolkit-12 libcudnn9-dev-cuda-12
# optional, for Nvidia GPU support with Docker 
sudo apt install nvidia-container-toolkit

Mac OS

brew install cmake boost openssl

Compilar e instalar

cmake -B build -S . -DCMAKE_BUILD_TYPE=Release
cmake --build build --parallel
sudo cmake --install build --prefix /usr/local/onnxruntime-server

Instale através de um gerenciador de pacotes

OS	Método	Comando
Arch Linux	Aur	`yay -S onnxruntime-server`

Execute o servidor

Você deve inserir a opção Path ( --model-dir ), onde os modelos estão localizados.
- Os arquivos do modelo OnNX devem estar localizados no seguinte caminho: ${model_dir}/${model_name}/${model_version}/model.onnx ou ${model_dir}/${model_name}/${model_version}.onnx

Arquivos em `--model-dir`	Criar órgão de solicitação de sessão	Get/Execute Session API URL Path (depois de criado)
`model_name/model_version/model.onnx` ou `model_name/model_version.onnx`	`{"model":"model_name", "version":"model_version"}`	`/api/sessions/model_name/model_version`
`sample/v1/model.onnx` ou `sample/v1.onnx`	`{"model":"sample", "version":"v1"}`	`/api/sessions/sample/v1`
`sample/v2/model.onnx` ou `sample/v2.onnx`	`{"model":"sample", "version":"v2"}`	`/api/sessions/sample/v2`
`other/20200101/model.onnx` ou `other/20200101.onnx`	`{"model":"other", "version":"20200101"}`	`/api/sessions/other/20200101`

Você precisa ativar um dos seguintes backnds: TCP, HTTP ou HTTPS.
- Se você deseja usar o TCP, deve especificar a opção --tcp-port .
- Se você deseja usar o HTTP, deve especificar a opção --http-port .
- Se você deseja usar o HTTPS, deve especificar as opções --https-port , --https-cert e --https-key .
- Se você quiser usar o Swagger, deve especificar a opção --swagger-url-path .
Use a opção -h , --help para ver uma lista completa de opções.
Todas as opções podem ser definidas como variáveis de ambiente. Isso pode ser útil ao operar em um recipiente como o Docker.
- Normalmente, as opções de linha de comando são priorizadas em relação às variáveis de ambiente, mas se a variável de ambiente ONNX_SERVER_CONFIG_PRIORITY=env existir, as variáveis de ambiente têm maior prioridade. Dentro de uma imagem do docker, as variáveis de ambiente têm maior prioridade.

Opções

Opção	Ambiente	Descrição
`--workers`	`ONNX_SERVER_WORKERS`	Tamanho da piscina de threads do trabalhador. Padrão: `4`
`--request-payload-limit`	`ONNX_SERVER_REQUEST_PAYLOAD_LIMIT`	HTTP/HTTPS Solicitar o limite de tamanho da carga útil. Padrão: 1024 * 1024 * 10 (10MB) `
`--model-dir`	`ONNX_SERVER_MODEL_DIR`	Caminho do diretório de modelos Os arquivos do modelo ONNX devem estar localizados no seguinte caminho: `${model_dir}/${model_name}/${model_version}/model.onnx` ou `${model_dir}/${model_name}/${model_version}.onnx` Padrão: `models`
`--prepare-model`	`ONNX_SERVER_PREPARE_MODEL`	Pré-crie algumas sessões modelo na inicialização do servidor. Formato como uma lista separada por espaço de `model_name:model_version` ou `model_name:model_version(session_options, ...)` . Disponível session_options são - cuda = device_id `[ or true or false]` por exemplo) `model1:v1 model2:v9` `model1:v1(cuda=true) model2:v9(cuda=1)`

Opções de back -end

Opção	Ambiente	Descrição
`--tcp-port`	`ONNX_SERVER_TCP_PORT`	Ative o back -end do TCP e qual número da porta usar.
`--http-port`	`ONNX_SERVER_HTTP_PORT`	Ativar back -end HTTP e qual número da porta use.
`--https-port`	`ONNX_SERVER_HTTPS_PORT`	Ative o back -end HTTPS e qual número da porta usar.
`--https-cert`	`ONNX_SERVER_HTTPS_CERT`	Caminho do arquivo de certificação SSL para HTTPS
`--https-key`	`ONNX_SERVER_HTTPS_KEY`	Caminho de arquivo de chave privada SSL para HTTPS
`--swagger-url-path`	`ONNX_SERVER_SWAGGER_URL_PATH`	Habilite o documento da API Swagger para back -end HTTP/HTTPS. Este valor não pode começar com "/api/" e "/saúde" Se não for especificado, o documento Swagger não é fornecido. por exemplo) /swagger ou /api-docs

Opções de log

Opção	Ambiente	Descrição
`--log-level`	`ONNX_SERVER_LOG_LEVEL`	Nível de log (depuração, informações, aviso, erro, fatal)
`--log-file`	`ONNX_SERVER_LOG_FILE`	Caminho do arquivo de log. Se não for especificado, os logs serão impressos para o stdout.
`--access-log-file`	`ONNX_SERVER_ACCESS_LOG_FILE`	Acesse o caminho do arquivo de log. Se não for especificado, os logs serão impressos para o stdout.

Docker

Docker Hub: Kibaes/Onnxruntime-Server
- 1.20.1-linux-cuda12 AMD64 (CUDA 12.X, CUDNN 9.X)
- 1.20.1-linux-cpu AMD64, ARM64

DOCKER_IMAGE=kibae/onnxruntime-server:1.20.1-linux-cuda12 # or kibae/onnxruntime-server:1.20.1-linux-cpu	

docker pull ${DOCKER_IMAGE}

# simple http backend
docker run --name onnxruntime_server_container -d --rm --gpus all 
  -p 80:80 
  -v " /your_model_dir:/app/models " 
  -v " /your_log_dir:/app/logs " 
  -e " ONNX_SERVER_SWAGGER_URL_PATH=/api-docs " 
  ${DOCKER_IMAGE}

Mais informações sobre o uso de imagens do Docker podem ser encontradas aqui.
- https://hub.docker.com/r/kibaes/onnxruntime-sever
Exemplo de Docker-comppose.yml está disponível no repositório.

API

API REST HTTP/HTTPS
- A documentação da API (Swagger) é incorporada. Se você deseja que o servidor sirva Swagger, adicione a --swagger-url-path=/swagger/ opção no lançamento. Isso deve ser usado com a opção --http-port ou --https-port .
```
./onnxruntime_server --model-dir=YOUR_MODEL_DIR --http-port=8080 --swagger-url-path=/api-docs/
```
  - Depois de executar o servidor como acima, você poderá acessar a interface do usuário do Swagger disponível em http://localhost:8080/api-docs/ .
- Amostra de arrogância
API TCP

Como usar

Algumas coisas foram deixadas de fora para ajudá -lo a ter uma idéia aproximada do fluxo de uso.

Exemplos de uso simples

Exemplo de criação de sessões ONNX na inicialização do servidor

 %% {init: {
    'Sequência': {'NOTEALING': 'Esquerda', 'MirrorActors': True}
}} %%
Sequenciadoiagram
    Ator A como administrador
    Caixa RGB (0, 0, 0, 0.1) "Onnx RunTime Server"
        Participante SD como disco
        Participante SP como processo
    fim
    Ator C como cliente
    Nota Direito de A: Você tem 3 modelos para servir.
    A ->> SD: Copie os arquivos do modelo para o disco.
    A ->> SP: Iniciar o servidor com -opção de modelo de preparação
    Ativar sp
    Nota Direito de A: ONNXRUNTIME_SERVER <BR />-HTTP-PORT = 8080 <BR />-Model-Path = /var /Models <r />-preparar-model = "Model_a: v1 (CUDA = 0) Model_A: V2 (CUDA = 0)"
    Sp ->> sd: modelo de carga
    Nota sobre SD, SP: Carregar modelo de <r />"/var/models/model_a/v1/model.onnx "
    SD ->> SP: Modelo binário
    Ativar sp
    Sp ->> sp: Crie <r /> onnxruntime <r /> sessão
    desativado sp
    desativado sp
    ret rgb (100, 100, 100, 0,3)
        Nota sobre SD, C: Sessão de execução
        C ->> SP: Execute a solicitação de sessão
        Ativar sp
        Nota SP, C: POST /API /Sessions /Model_A /V1 <r /> {<r /> "X": [[1], [2], [3]], <r /> "y": [[2], [3], [4]], <r /> "Z": [3], [4], [5] <r]
        Ativar sp
        Sp ->> sp: execute <r /> onnxruntime <r /> sessão
        desativado sp
        SP ->> C: Execute a resposta da sessão
        desativado sp
        NOTA SOB SP, C: {<BR /> "OUTPUT": [<BR />.0.6492120623588562 ], <br />.7610487341880798].
    fim

Exemplo do cliente criando e executando sessões ONNX

 %% {init: {
    'Sequência': {'NOTEALING': 'Esquerda', 'MirrorActors': True}
}} %%
Sequenciadoiagram
    Ator A como administrador
    Caixa RGB (0, 0, 0, 0.1) "Onnx RunTime Server"
        Participante SD como disco
        Participante SP como processo
    fim
    Ator C como cliente
    Nota Direito de A: Você tem 3 modelos para servir.
    A ->> SD: Copie os arquivos do modelo para o disco.
    A ->> SP: Start Server
    NOTA DIREITO DE A: ONNXRUNTIME_SERVER <BR />-HTTP-PORT = 8080 <BR />-Model-Path = /var /modelos
    ret rgb (100, 100, 100, 0,3)
        Nota sobre SD, C: Criar sessão
        C ->> SP: Crie solicitação de sessão
        Ativar sp
        Nota sobre SP, C: Post /API /Sessions <Br /> {"Model": "Model_a", "Version": "V1"}
        Sp ->> sd: modelo de carga
        Nota sobre SD, SP: Carregar modelo de <r />"/var/models/model_a/v1/model.onnx "
        SD ->> SP: Modelo binário
        Ativar sp
        Sp ->> sp: Crie <r /> onnxruntime <r /> sessão
        desativado sp
        SP ->> C: Crie resposta da sessão
        desativado sp
        Note over SP, C: {<br />"model": "model_A",<br />"version": "v1",<br />"created_at": 1694228106,<br />"execution_count": 0,<br />"last_executed_at": 0,<br />"inputs": {<br />"x": "float32 [-1,1]", <r /> "y": "float32 [-1,1]", <r /> "z": "float32 [-1,1]" <r />}, <br /> "saídas": {<r /"": "Float32 [--1,1]"
        Nota direito de C :? Você pode saber o tipo e a forma <br /> da entrada e saída.
    fim
    ret rgb (100, 100, 100, 0,3)
        Nota sobre SD, C: Sessão de execução
        C ->> SP: Execute a solicitação de sessão
        Ativar sp
        Nota SP, C: POST /API /Sessions /Model_A /V1 <r /> {<r /> "X": [[1], [2], [3]], <r /> "y": [[2], [3], [4]], <r /> "Z": [3], [4], [5] <r]
        Ativar sp
        Sp ->> sp: execute <r /> onnxruntime <r /> sessão
        desativado sp
        SP ->> C: Execute a resposta da sessão
        desativado sp
        NOTA SOB SP, C: {<BR /> "OUTPUT": [<BR />.0.6492120623588562 ], <br />.7610487341880798].
    fim

Expandir

Informações adicionais

Versão v1.20.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-28
tamanho 724.12KB
Vindo de Github

Aplicativos Relacionados

onnxruntime

2024-11-07
Servidor SQL

2009-07-04
Servidor FileZilla

2009-07-03
Servidor FileZilla

2009-07-03
Servidor WinFtp

2009-07-03
Servidor FileZilla

2009-06-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos