➕ El filtrado de contenido y los laboratorios de protección rápida .
➕ El laboratorio de enrutamiento de modelos con enrutamiento basado en el modelo OpenAI.
➕ El Laboratorio de flujo de inmediato para probar el flujo inmediato de Azure AI Studio con gestión de API de Azure.
➕ Parámetros de priority y weight para el laboratorio de equilibrio de carga de la piscina de backend .
➕ La herramienta de transmisión para probar la transmisión de OpenAI con gestión de API de Azure.
➕ La herramienta de rastreo para depurar y solucionar problemas de API OpenAI utilizando la capacidad de rastreo de gestión de API de Azure.
➕ Procesamiento de imágenes al laboratorio de inferencia GPT-4O .
➕ La función llamando al laboratorio con una API de muestra en funciones de Azure.
El ritmo rápido de los avances de IA exige enfoques impulsados por la experimentación para que las organizaciones permanezcan a la vanguardia de la industria. Con AI convirtiéndose constantemente en un cambio de juego para una variedad de sectores, mantener una trayectoria de innovación de ritmo rápido es crucial para las empresas con el objetivo de aprovechar su máximo potencial.
Se accede predominantemente a los servicios de IA a través de API , subrayando la necesidad esencial de una estrategia de gestión de API robusta y eficiente. Esta estrategia es fundamental para mantener el control y la gobernanza durante el consumo de servicios de IA .
Con los horizontes en expansión de los servicios de IA y su integración perfecta con API , existe una demanda considerable de un patrón integral de puerta de enlace de IA , que amplía los principios centrales de la gestión de API. Con el objetivo de acelerar la experimentación de casos de uso avanzados y allanar el camino para una mayor innovación en este campo en rápida evolución. Los principios bien arquitigados de la puerta de enlace AI proporcionan un marco para la implementación segura de aplicaciones inteligentes en la producción.

Este repositorio explora el patrón AI Gateway a través de una serie de laboratorios experimentales. Las capacidades de Genai Gateway de Azure API Management juegan un papel crucial dentro de estos laboratorios, manejando las API de servicios de IA, con seguridad, confiabilidad, rendimiento, eficiencia operativa general y controles de costos. El enfoque principal está en Azure OpenAi, que establece la referencia estándar para modelos de idiomas grandes (LLM). Sin embargo, los mismos principios y patrones de diseño podrían aplicarse potencialmente a cualquier LLM.
Reconociendo el creciente dominio de Python, particularmente en el ámbito de la IA, junto con las poderosas capacidades experimentales de los cuadernos de Jupyter, los siguientes laboratorios están estructurados en torno a los cuadernos Jupyter, con instrucciones paso a paso con scripts de python, archivos Bicep y políticas de manejo de API de Azure::
| ? Balancio de carga de la piscina de back-end (incorporado) | ? Balancio de carga avanzado (personalizado) |
![]() | ![]() |
| Playground para probar la funcionalidad incorporada de la piscina de backend de equilibrio de la gestión de la API de Azure a una lista de puntos finales de Azure OpenAI o servidores simulados. | Playground para probar el equilibrio de carga avanzado (basado en una política de gestión de API de Azure personalizada) a una lista de puntos finales de Azure OpenAI o servidores simulados. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Control de acceso | ? Limitación de la tasa de token |
![]() | ![]() |
| Playground para probar la función de autorización de OAuth 2.0 utilizando el proveedor de identidad para habilitar un acceso más de grano fino a las API de OpenAPI por usuarios o clientes particulares. | Patio de recreo para probar la política de limitación de tasa de token a uno o más puntos finales de Azure Openai. Cuando se excede el uso del token, la persona que llama recibe un 429. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Métricas de token emitiendo | ? Almacenamiento en caché semántico |
![]() | ![]() |
| Playground para probar la política métrica de token emits. La política envía métricas a la aplicación de la aplicación sobre el consumo de tokens de modelos de idiomas grandes a través de AZure OpenAI Service API. | Planeground para probar la política de almacenamiento en caché semántico. Utiliza la proximidad vectorial de la solicitud a las solicitudes anteriores y un umbral de puntaje de similitud especificado. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Transmisión de respuesta | ? Búsqueda de vectores |
![]() | ![]() |
| Playground para probar la transmisión de respuesta con la gestión de API de Azure y los puntos finales de Azure Operai para explorar las ventajas y las deficiencias asociadas con la transmisión. | Playground para probar el patrón de generación aumentada de recuperación (trapo) con búsqueda de ai Azure, incrustaciones de Azure Openai y terminaciones de Azure OpenAi. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Registro incorporado | ? SLM Autohostante (Phy-3) |
![]() | ![]() |
| Playground para probar las capacidades de registro de BUIL-in de la gestión de API de Azure. Registra solicitudes en la aplicación de la aplicación para rastrear detalles y uso de tokens. | Playground para probar el modelo de lenguaje pequeño y auto-hostado (SLM) canal de la puerta de entrada autohospedada de la gestión de la API de Azure con compatibilidad de API de OpenAI. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Inferencia GPT-4O | ? Almacenamiento de mensajes |
![]() | ![]() |
| Playground para probar el nuevo modelo GPT-4O. GPT-4O ("O" para "Omni") está diseñado para manejar una combinación de entradas de texto, audio y video, y puede generar salidas en formatos de texto, audio y imagen. | Playground para probar los detalles del mensaje de almacenamiento en Cosmos DB a través de la política de registro a Event Hub. Con la política podemos controlar qué datos se almacenarán en el DB (aviso, finalización, modelo, región, tokens, etc.). |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Herramientas para desarrolladores (WIP) | ? Funciones llamadas |
![]() | ![]() |
| Playground para probar las herramientas de desarrollador disponibles con Azure API Management para desarrollar, depurar, probar y publicar API de servicios de IA. | Playground para probar la función de llamadas de función Operai con una API de funciones de Azure que también es administrada por Azure API Management. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Enrutamiento de modelos | ? Flujo rápido |
![]() | ![]() |
| Playground para intentar enrutar a un backend basado en el modelo y versión de Azure OpenAI. | Playground para probar el flujo inmediato de Azure AI Studio con la gestión de la API de Azure. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
| ? Filtrado de contenido | ? Protección rápida |
![]() | ![]() |
| Playground para intentar integrar la gestión de la API de Azure con la seguridad de contenido de AI Azure para filtrar contenido potencialmente ofensivo, arriesgado o indeseable. | Playground para probar escudos rápidos del Servicio de Seguridad de Contenido de Azure AI que analiza las entradas de LLM y detecta ataques con aviso del usuario y ataques de documentos, que son dos tipos comunes de entradas adversas. |
| ? Bíceps ➕ Política ➕? Computadora portátil ? | ? Bíceps ➕ Política ➕? Computadora portátil ? |
Consejo
Utilice amablemente la discusión de comentarios para que podamos mejorar continuamente con sus experiencias, sugerencias, ideas o solicitudes de laboratorio.
Nota
? No dude en abrir un nuevo problema si encuentra algo que debe arreglarse o mejorarse.
El marco bien arquiteccionado de Azure es un marco de diseño que puede mejorar la calidad de una carga de trabajo. La siguiente tabla mapea los laboratorios con los pilares marco bien arquitectados para prepararlo para el éxito a través de la experimentación arquitectónica.
| Laboratorio | Seguridad | Fiabilidad | Actuación | Operaciones | Costo |
|---|---|---|---|---|---|
| Reenvío de solicitud | |||||
| Ruptura del circuito de back -end | |||||
| Balancio de carga de la piscina de backend | |||||
| Equilibrio de carga avanzada | |||||
| Transmisión de respuesta | |||||
| Búsqueda de vectores | |||||
| Registro incorporado | |||||
| SLM autohospedado |
Consejo
Verifique la perspectiva del marco bien arquitectada de Azure sobre el servicio Azure OpenAI para obtener orientación adicional.
Consejo
Instale la extensión de revelación del código VS, abra Ai-Gateway.md y haga clic en 'Slides' en el Botton para presentar la puerta de enlace AI sin dejar el código VS. O simplemente abra el Ai-Gateway.pptx para una experiencia de PowerPoint simple.
Numerosas arquitecturas de referencia, mejores prácticas y kits de inicio están disponibles sobre este tema. Consulte los recursos proporcionados si necesita soluciones integrales o una zona de aterrizaje para iniciar su proyecto. Sugerimos aprovechar los laboratorios Ai-Gateway para descubrir capacidades adicionales que pueden integrarse en las arquitecturas de referencia.
Creemos que puede haber contenido valioso del que actualmente desconocemos. Apreciaríamos enormemente cualquier sugerencia o recomendación para mejorar esta lista.

Importante
Este software se proporciona solo para fines de demostración. No está destinado a ser confiado para ningún propósito. Los creadores de este software no hacen representaciones ni garantías de ningún tipo, expresas o implícitas, sobre la integridad, precisión, confiabilidad, idoneidad o disponibilidad con respecto al software o la información, los productos, los servicios o los gráficos relacionados contenidos en el software para cualquier propósito. Cualquier dependencia que ubique en dicha información, por lo tanto, es estrictamente bajo su propio riesgo.