➕ A filtragem de conteúdo e os laboratórios de blindagem imediata .
➕ O laboratório de roteamento de modelos com roteamento baseado em modelo OpenAI.
➕ O Prompt Flow Lab para experimentar o fluxo rápido do Azure AI Studio com o gerenciamento da API do Azure.
➕ Parâmetros de priority e weight para o laboratório de balanceamento de carga da piscina de back -end .
➕ A ferramenta de streaming para testar o streaming do OpenAI com o gerenciamento da API do Azure.
➕ A ferramenta de rastreamento para depurar e solucionar problemas de APIs do OpenAI usando a capacidade de rastreamento de gerenciamento da Azure API.
➕ Processamento de imagem para o Laboratório de Inferência GPT-4O .
➕ O laboratório de chamadas de função com uma API de amostra nas funções do Azure.
O ritmo rápido da IA avança exige abordagens orientadas por experimentação para que as organizações permaneçam na vanguarda da indústria. Com a IA se tornando constantemente uma mudança de jogo para uma variedade de setores, a manutenção de uma trajetória de inovação em ritmo acelerado é crucial para as empresas que visam alavancar todo o seu potencial.
Os serviços de IA são acessados predominantemente via APIs , destacando a necessidade essencial de uma estratégia de gerenciamento de API robusta e eficiente. Essa estratégia é instrumental para manter o controle e a governança sobre o consumo de serviços de IA .
Com os horizontes em expansão dos serviços de IA e sua integração perfeita com APIs , há uma demanda considerável por um padrão abrangente de gateway de AI , que amplia os princípios centrais do gerenciamento da API. Com o objetivo de acelerar a experimentação de casos de uso avançado e pavimentar a estrada para obter mais inovação nesse campo em rápida evolução. Os princípios bem arquitetados do gateway da AI fornece uma estrutura para a implantação confiante de aplicativos inteligentes em produção.

Este repo explora o padrão de gateway da AI através de uma série de laboratórios experimentais. Os recursos de gateway da Genai do gerenciamento da API do Azure desempenham um papel crucial nesses laboratórios, lidando com as APIs de serviços de IA, com segurança, confiabilidade, desempenho, eficiência operacional geral e controles de custos. O foco principal está no Azure Openai, que define a referência padrão para grandes modelos de idiomas (LLM). No entanto, os mesmos princípios e padrões de design podem ser potencialmente aplicados a qualquer LLM.
Reconhecendo o crescente domínio do Python, particularmente no reino da IA, juntamente com as poderosas capacidades experimentais dos notebooks Jupyter, os seguintes laboratórios são estruturados em torno de notebooks Jupyter, com instruções passo a passo com scripts python, arquivos de bícep e políticas de gerenciamento de Azure::
| ? Balanceamento de carga da piscina de back-end (embutido) | ? Balanceamento avançado de carga (personalizado) |
![]() | ![]() |
| Playground para experimentar a funcionalidade interna do pool de back-end de balanceamento de carga do gerenciamento da API do Azure para uma lista de terminais do Azure OpenAI ou servidores simulados. | Playground para experimentar o Balanceamento de Carga Avançado (com base em uma política de gerenciamento de API Azure personalizada) para uma lista de terminais do Azure OpenAI ou servidores simulados. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Acesso Controlando | ? Limitação da taxa de token |
![]() | ![]() |
| Playground para experimentar o recurso de autorização OAuth 2.0 usando o provedor de identidade para permitir mais acesso de granulação fina às APIs do OpenAPI por usuários ou clientes específicos. | Playground para experimentar a política de limitação da taxa de token para um ou mais terminais do Azure Openai. Quando o uso do token é excedido, o chamador recebe um 429. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Métricas de token emitindo | ? Cache semântico |
![]() | ![]() |
| Playground para experimentar a política de métricas de token emit. A política envia métricas para insights de aplicativos sobre o consumo de grandes tokens de modelo de idiomas através das APIs de serviço do Azure Openai. | Playground para experimentar a política de cache semântica. Usa a proximidade do vetor do prompt a solicitações anteriores e um limite de pontuação de similaridade especificado. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Streaming de resposta | ? Pesquisa de vetor |
![]() | ![]() |
| Playground para experimentar o streaming de resposta com o Gerenciamento da API do Azure e os terminais do Azure OpenAi para explorar as vantagens e deficiências associadas ao fluxo. | Playground para experimentar o padrão de geração aumentada de recuperação (RAG) com o Azure AI Search, o Azure OpenAi incorporando e o Azure Openai. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Registro interno | ? Auto-hospedagem SLM (Phy-3) |
![]() | ![]() |
| Playground para experimentar os recursos de registro da Buil-in do gerenciamento da API do Azure. Logs solicitações sobre o App Insights para rastrear detalhes e uso do token. | Playground para experimentar o modelo de idioma pequeno Phy-3 (SLM), auto-hospedado (SLM), com o gateway auto-hospedado com gerenciamento de Azure API com compatibilidade da API OpenAI. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? GPT-4O inferência | ? Armazenamento de mensagens |
![]() | ![]() |
| Playground para experimentar o novo modelo GPT-4O. O GPT-4O ("O" para "Omni") foi projetado para lidar com uma combinação de entradas de texto, áudio e vídeo e pode gerar saídas nos formatos de texto, áudio e imagem. | Playground para testar os detalhes da mensagem de armazenamento no Cosmos DB através da política de log para eventos hub. Com a política, podemos controlar quais dados serão armazenados no banco de dados (prompt, conclusão, modelo, região, tokens etc.). |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Tooling de desenvolvedor (WIP) | ? Chamada de função |
![]() | ![]() |
| Playground para experimentar as ferramentas de desenvolvedor disponíveis com o Azure API Management para desenvolver, depurar, testar e publicar APIs de serviço da AI. | Playground para experimentar o recurso de chamada de função do OpenAI com uma API do Azure Functions que também é gerenciada pelo gerenciamento da API do Azure. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Roteamento do modelo | ? Fluxo imediato |
![]() | ![]() |
| Playground para tentar o roteamento para um back -end com base no modelo e versão do Azure Openai. | Playground para experimentar o fluxo rápido do Azure AI Studio com o gerenciamento da API do Azure. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
| ? Filtragem de conteúdo | ? Blindagem imediata |
![]() | ![]() |
| Playground para tentar integrar o gerenciamento da API do Azure com a segurança do conteúdo da AI AI para filtrar o conteúdo potencialmente ofensivo, arriscado ou indesejável. | O Playground para experimentar os escudos solicitados do Serviço de Segurança de Conteúdo do Azure AI que analisa entradas LLM e detecta ataques de prompt do usuário e ataques de documentos, que são dois tipos comuns de entradas adversárias. |
| ? Política do bíceps ➕? Caderno ? | ? Política do bíceps ➕? Caderno ? |
Dica
Por favor, use a discussão sobre feedback para que possamos melhorar continuamente com suas experiências, sugestões, idéias ou solicitações de laboratório.
Observação
? Sinta -se à vontade para abrir um novo problema se encontrar algo que deve ser consertado ou aprimorado.
A estrutura bem arquitetada do Azure é uma estrutura de design que pode melhorar a qualidade de uma carga de trabalho. Os laboratórios de mapas de tabela a seguir com os pilares da estrutura bem arquitetada para configurar você para o sucesso por meio de experimentação arquitetônica.
| Laboratório | Segurança | Confiabilidade | Desempenho | Operações | Custos |
|---|---|---|---|---|---|
| Solicitação de encaminhamento | |||||
| Quebra de circuito de back -end | |||||
| Balanceamento de carga da piscina de back -end | |||||
| Balanceamento avançado de carga | |||||
| Streaming de resposta | |||||
| Pesquisa de vetor | |||||
| Registro interno | |||||
| SLM auto-hospedagem |
Dica
Verifique a perspectiva da estrutura bem arquitetada do Azure sobre o serviço do Azure Openai para obter orientações adicionais.
Dica
Instale a extensão do Código VS, abra a AI-gateway.md e clique em 'Slides' no Botton para apresentar o gateway da AI sem sair do código VS. Ou apenas abra o AI-gateway.pptx para uma experiência antiga e antiga.
Numerosas arquiteturas de referência, melhores práticas e kits iniciantes estão disponíveis neste tópico. Consulte os recursos fornecidos se você precisar de soluções abrangentes ou uma zona de pouso para iniciar seu projeto. Sugerimos aproveitar os laboratórios de AI-Gateway para descobrir recursos adicionais que podem ser integrados às arquiteturas de referência.
Acreditamos que pode haver um conteúdo valioso que atualmente não conhecemos. Apreciaríamos muito quaisquer sugestões ou recomendações para aprimorar esta lista.

Importante
Este software é fornecido apenas para fins de demonstração. Não se pretende ser invocado para qualquer finalidade. Os criadores deste software não fazem representações ou garantias de qualquer tipo, expressas ou implícitas, sobre a integridade, precisão, confiabilidade, adequação ou disponibilidade em relação ao software ou às informações, produtos, serviços ou gráficos relacionados contidos no software para qualquer finalidade. Qualquer confiança que você deas sobre essas informações é, portanto, estritamente por seu próprio risco.