➕ Le filtrage du contenu et les laboratoires de blindage rapide .
➕ Le laboratoire de routage du modèle avec le routage basé sur le modèle OpenAI.
➕ L' invite Flow Lab pour essayer le flux d'invite Azure AI Studio avec la gestion d'API Azure.
➕ priority et paramètres weight au laboratoire d'équilibrage de la charge du pool backend .
➕ L'outil de streaming pour tester le streaming OpenAI avec Azure API Management.
➕ L'outil de traçage pour déboguer et dépanner les API OpenAI à l'aide de la capacité de traçage de la gestion des API Azure.
➕ Traitement d'image au laboratoire d'inférence GPT-4O .
➕ Le laboratoire d'appel de fonction avec un exemple d'API sur les fonctions Azure.
Le rythme rapide des progrès de l'IA exige des approches axées sur l'expérimentation pour que les organisations restent à l'avant-garde de l'industrie. L'IA devenant régulièrement changeant la donne pour un éventail de secteurs, le maintien d'une trajectoire d'innovation rapide est crucial pour les entreprises visant à tirer parti de son plein potentiel.
Les services d'IA sont principalement accessibles via les API , soulignant le besoin essentiel d'une stratégie de gestion des API robuste et efficace. Cette stratégie contribue à maintenir le contrôle et la gouvernance sur la consommation des services d'IA .
Avec les horizons en expansion des services d'IA et leur intégration transparente avec les API , il existe une demande considérable pour un modèle complet de passerelle d'IA , qui élargit les principes fondamentaux de la gestion des API. Visant à accélérer l'expérimentation des cas d'utilisation avancés et à ouvrir la route pour une nouvelle innovation dans ce domaine en évolution rapide. Les principes bien architeclés de la passerelle AI fournissent un cadre pour le déploiement confiant d' applications intelligentes en production.

Ce repo explore le modèle de passerelle AI à travers une série de laboratoires expérimentaux. Les capacités de passerelle Genai de la gestion des API Azure joue un rôle crucial dans ces laboratoires, gérant les API des services d'IA, avec la sécurité, la fiabilité, la performance, l'efficacité opérationnelle globale et les contrôles des coûts. L'accent principal est sur Azure OpenAI, qui définit la référence standard pour les modèles de grande langue (LLM). Cependant, les mêmes principes et modèles de conception pourraient potentiellement être appliqués à n'importe quel LLM.
Reconnaissant la domination croissante de Python, en particulier dans le domaine de l'IA, ainsi que les puissantes capacités expérimentales des cahiers de jupyter, les laboratoires suivants sont structurés autour de cahiers Jupyter, avec des instructions étape par étape avec des scripts Python, des fichiers biceps et des politiques de gestion des API Azure:
| ? Équilibrage de la charge de piscine backend (intégré) | ? Équilibrage avancé de charge (personnalité) |
![]() | ![]() |
| Playground pour essayer la fonctionnalité intégrée des fonctionnalités de pool backend d'équilibrage de la gestion des API Azure à une liste de points de terminaison Azure Openai ou de serveurs simulés. | Playground pour essayer l'équilibrage avancé de la charge (basé sur une politique de gestion des API Azure personnalisée) à une liste de points de terminaison Azure Openai ou de serveurs simulés. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Contrôle d'accès | ? Limitation du taux de jetons |
![]() | ![]() |
| Playground pour essayer la fonction d'autorisation OAuth 2.0 utilisant le fournisseur d'identité pour permettre un accès plus fin aux API OpenAPI par des utilisateurs ou un client particulier. | Playground pour essayer la politique de limitation des taux de jeton à un ou plusieurs points de terminaison Azure Openai. Lorsque l'utilisation du jeton est dépassée, l'appelant reçoit un 429. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Les métriques de jeton émettaient | ? Cache sémantique |
![]() | ![]() |
| Playground pour essayer la politique métrique des jetons Emit. La politique envoie des mesures à des informations sur l'application sur la consommation de jetons de modèle de grande langue via des API de service Azure Openai. | Playground pour essayer la politique de mise en cache sémantique. Utilise la proximité vectorielle de l'invite aux demandes précédentes et un seuil de score de similitude spécifié. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Réponse en streaming | ? Recherche de vecteur |
![]() | ![]() |
| Playground pour essayer le streaming de réponse avec Azure API Management et Azure Openai Endpoints pour explorer les avantages et les lacunes associées au streaming. | Playground pour essayer le modèle de génération augmentée (RAG) de récupération avec recherche Azure AI, Azure Openai Embeddings et Azure Openai Complétions. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Journalisation intégrée | ? SLM auto-hébergement (Phy-3) |
![]() | ![]() |
| Playground pour essayer les capacités de journalisation de Buil-in de la gestion des API Azure. Journaux demandes dans l'application Insights pour suivre les détails et l'utilisation de jetons. | Playground pour essayer le modèle Small Language (SLM) auto-hébergé (SLM) la passerelle auto-hébergée Azure API Management avec compatibilité API OpenAI. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? GPT-4O l'inférence | ? Stockage de messages |
![]() | ![]() |
| Playground pour essayer le nouveau modèle GPT-4O. GPT-4O ("O" pour "OMNI") est conçu pour gérer une combinaison d'entrées de texte, d'audio et de vidéo, et peut générer des sorties dans les formats de texte, d'audio et d'image. | Playground pour tester le stockage des détails des messages dans Cosmos DB via la stratégie du journal à événement Hub. Avec la politique, nous pouvons contrôler les données stockées dans la base de données (invite, achèvement, modèle, région, jetons, etc.). |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Outillage des développeurs (WIP) | ? Fonction d'appel |
![]() | ![]() |
| Playground pour essayer l'outillage des développeurs disponibles avec Azure API Management pour développer, déboguer, tester et publier des API de service AI. | Playground pour essayer la fonction d'appel de la fonction OpenAI avec une API Fonctions Azure qui est également gérée par Azure API Management. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Routage modèle | ? Flux |
![]() | ![]() |
| Playground pour essayer le routage vers un backend basé sur le modèle et la version Azure OpenAI. | Playground pour essayer le flux invite Azure AI Studio avec Azure API Management. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
| ? Filtrage de contenu | ? Bouclier rapide |
![]() | ![]() |
| Playground pour essayer d'intégrer la gestion des API Azure avec la sécurité du contenu Azure AI pour filtrer le contenu potentiellement offensant, risqué ou indésirable. | Playground pour essayer des boucliers rapides de Azure AI Content Safety Service qui analyse les entrées LLM et détecte les attaques rapides de l'utilisateur et les attaques de documents, qui sont deux types courants d'entrées adversaires. |
| ? Bicep ➕ Politique ➕? Carnet de notes ? | ? Bicep ➕ Politique ➕? Carnet de notes ? |
Conseil
Veuillez utiliser la discussion de rétroaction afin que nous puissions nous améliorer en permanence avec vos expériences, suggestions, idées ou demandes de laboratoire.
Note
? N'hésitez pas à ouvrir un nouveau problème si vous trouvez quelque chose qui doit être corrigé ou amélioré.
Le cadre bien architecté Azure est un cadre de conception qui peut améliorer la qualité d'une charge de travail. La table suivante mappe les laboratoires avec les piliers de framework bien archités pour vous préparer au succès grâce à l'expérimentation architecturale.
| Laboratoire | Sécurité | Fiabilité | Performance | Opérations | Frais |
|---|---|---|---|---|---|
| Demande de transfert | |||||
| Rupture du circuit backend | |||||
| Équilibrage de la charge de piscine backend | |||||
| Équilibrage avancé de la charge | |||||
| Réponse en streaming | |||||
| Recherche de vecteur | |||||
| Journalisation intégrée | |||||
| SLM auto-hébergement |
Conseil
Vérifiez la perspective du cadre bien architected Azure sur le service Azure Openai pour les conseils additionnels.
Conseil
Installez l'extension VS Code Reveal, ouvrez AI-Gateway.md et cliquez sur «diapositives» au Botton pour présenter la passerelle AI sans laisser de code VS. Ou ouvrez simplement Ai-Gateway.pptx pour une ancienne expérience PowerPoint.
De nombreuses architectures de référence, meilleures pratiques et kits de démarrage sont disponibles sur ce sujet. Veuillez vous référer aux ressources fournies si vous avez besoin de solutions complètes ou d'une zone d'atterrissage pour lancer votre projet. Nous suggérons de tirer parti des laboratoires AI-Gateway pour découvrir des capacités supplémentaires qui peuvent être intégrées dans les architectures de référence.
Nous pensons qu'il peut y avoir un contenu précieux que nous ignorons actuellement. Nous apprécions grandement toutes les suggestions ou recommandations pour améliorer cette liste.

Important
Ce logiciel est fourni uniquement à des fins de démonstration. Il n'est pas destiné à être invoqué à quelque fin que ce soit. Les créateurs de ce logiciel ne font aucune représentation ou garantie d'aucune sorte, expresse ou implicite, sur l'exhaustivité, l'exactitude, la fiabilité, l'aptitude ou la disponibilité en ce qui concerne le logiciel ou les informations, produits, services ou graphiques connexes contenus dans le logiciel à quelque fin que ce soit. Toute dépendance que vous accordez à ces informations est donc strictement à vos risques et périls.