Partager via


Collection et catalogue de modèles

Le catalogue de modèles dans Azure Machine Learning studio est le hub qui permet de découvrir et d’utiliser un large choix de modèles pour créer des applications d’IA générative. Le catalogue de modèles réunit des centaines de modèles de fournisseurs de modèles tels que le service Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, y compris des modèles entraînés par Microsoft. Les modèles provenant de fournisseurs autres que Microsoft ne sont pas des produits Microsoft, tels que définis dans les conditions relatives au produit Microsoft, et sont soumis aux conditions fournies avec le modèle.

Collections de modèles

Les modèles sont organisés par collections dans le catalogue de modèles. Il existe trois types de collections dans le catalogue de modèles :

  • Modèles organisés par Azure AI : les modèles de pondérations et de propriétés ouverts tiers les plus populaires empaquetés et optimisés pour fonctionner en toute fluidité sur la plateforme Azure AI. L’utilisation de ces modèles est soumise aux termes du contrat de licence du fournisseur de modèles fournis avec le modèle. Lorsqu’ils sont déployés dans Azure Machine Learning, la disponibilité du modèle est soumise au Contrat de niveau de service Azure applicable, et Microsoft prend en charge les problèmes de déploiement. Les modèles de partenaires tels que Meta, NVIDIA, Mistral AI sont des exemples de modèles disponibles dans la collection « Organisés par Azure AI » sur le catalogue. Vous pouvez identifier ces modèles grâce à une coche verte sur la vignette des modèles dans le catalogue, ou filtrez par la collection « Organisés par Azure AI ».
  • Modèles Azure OpenAI, exclusivement disponibles sur Azure : les modèles Azure OpenAI phares de la collection « Azure OpenAI » avec intégration au service Azure OpenAI. Ces modèles sont pris en charge par Microsoft et leur utilisation est soumise aux conditions du produit et au contrat de niveau de service pour Azure OpenAI Service.
  • Modèles ouverts à partir du hub HuggingFace : des centaines de modèles du hub HuggingFace sont accessibles via la collection "Hugging Face" pour une inférence en temps réel avec des points de terminaison en ligne. Hugging Face crée et gère des modèles répertoriés dans la collection HuggingFace. Utilisez le Forum HuggingFace ou le Support HuggingFace pour obtenir de l’aide. Découvrez-en davantage sur comment déployer des modèles à partir de Hugging Face.

Suggestion d’ajouts au catalogue de modèles : vous pouvez soumettre une demande d’ajout de modèle au catalogue de modèles en remplissant ce formulaire.

Vue d’ensemble des fonctionnalités du catalogue de modèles

Pour plus d’informations sur les modèles Azure OpenAI, consultez Azure OpenAI Service.

Pour les modèles Organisés par Azure AI et les Modèles ouverts du hub Hugging Face, certains peuvent être déployés avec une option de calcul managé, tandis que d’autres peuvent être déployés à l’aide d’API serverless dans le cadre d’une facturation de paiement à l’utilisation. Ces modèles peuvent être explorés, comparés, évalués, ajustés (lorsqu’ils sont pris en charge), déployés à grande échelle et intégrés à vos applications IA génératives avec une sécurité et une gouvernance des données de niveau entreprise.

  • Explorez : passez en revue les cartes de modèles, essayez d’utiliser des exemples d’inférence et parcourez des exemples de code pour évaluer, ajuster ou déployer le modèle.
  • Comparez : comparez les points de référence entre les modèles et jeux de données disponibles du secteur d’activité pour évaluer celui qui répond à votre scénario métier.
  • Évaluer : évaluez l’adaptation du modèle à votre charge de travail spécifique en fournissant vos propres données de test. Les métriques d’évaluation facilitent la visualisation de l’exécution du modèle sélectionné dans votre scénario.
  • Ajustez : personnalisez des modèles ajustables à l’aide de vos propres données d’apprentissage et choisissez le meilleur modèle en comparant les métriques sur tous vos travaux d’ajustement. Des optimisations intégrées qui accélèrent l’ajustement et réduisent la mémoire et le calcul nécessaires à l’ajustement.
  • Déployez : déployez des modèles préentraînés ou des modèles ajustés en toute fluidité pour l’inférence. Des modèles qui peuvent être déployés sur le calcul managé peuvent également être téléchargés.

Déploiement des modèles : calcul managé et API serverless (paiement à l’utilisation)

Le catalogue de modèles offre deux façons distinctes de déployer les modèles du catalogue pour votre usage : calcul managé et API serverless. Les options de déploiement disponibles pour chaque modèle varient. Découvrez-en davantage sur les fonctionnalités des options de déploiement et les options disponibles pour des modèles spécifiques dans les tableaux ci-dessous. Découvrez-en davantage sur le traitement des données avec les options de déploiement.

Fonctionnalités Capacité de calcul managée API serverless (paiement à l’utilisation)
Expérience de déploiement et facturation Les poids des modèles sont déployés sur des machines virtuelles dédiées avec des points de terminaison en ligne managés. Le point de terminaison en ligne géré, qui peut présenter un ou plusieurs déploiements, rend une API REST disponible pour l’inférence. Vous êtes facturé au cœur/heure de la machine virtuelle utilisée par les déploiements. L’accès aux modèles se fait via un déploiement qui approvisionne une API pour accéder au modèle. L’API fournit l’accès au modèle hébergé dans un pool GPU central, géré par Microsoft, à des fins d’inférence. Ce mode d’accès est appelé « Modèles en tant que service ». Vous êtes facturé pour les entrées et sorties vers les API, généralement via les jetons. Les informations de tarification sont fournies avant le déploiement.
Authentification des API Clés et authentification Microsoft Entra ID. Plus d’informations Clés uniquement.
Sécurité du contenu Utilisez les API du service Azure Sécurité du Contenu. Les filtres Azure AI Sécurité du Contenu sont intégrés aux API d’inférence. Les filtres Azure AI Sécurité du Contenu peuvent être facturés séparément.
Isolement réseau Réseau virtuel managé avec points de terminaison en ligne. Plus d’informations

Options de déploiement

Modèle Capacité de calcul managée API serverless (paiement à l’utilisation)
Modèles de la famille Llama Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Modèles de la famille Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large
Mistral-small
Modèles de la famille Cohere Non disponible Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
JAIS Non disponible jais-30b-chat
Modèles de la famille Phi3 Phi-3-small-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-vision-128k-instruct
Nixtla Non disponible TimeGEN-1
Autres modèles Disponible Non disponible

Un diagramme montrant le cycle de modèles en tant que service et du service de points de terminaison en temps réel.

Capacité de calcul managée

La possibilité de déployer des modèles avec un calcul managé repose sur les fonctionnalités de plateforme d’Azure Machine Learning pour permettre une intégration fluide, tout au long du cycle de vie LLMOps, de la vaste collection de modèles dans le catalogue de modèles.

Un diagramme montrant le cycle de vie LLMops.

Comment les modèles sont-ils mis à disposition pour le calcul managé ?

Les modèles sont mis à disposition via les registres Azure Machine Learning qui permettent d’abord à ML d’héberger et de distribuer des ressources Machine Learning telles que les pondérations de modèles, les runtimes de conteneurs pour l’exécution des modèles, des pipelines pour l’évaluation et l’optimisation des modèles et des jeux de données pour des points de référence et des exemples. Ces registres ML s’appuient sur une infrastructure hautement évolutive et prête pour l’entreprise qui :

Évaluer et optimiser les modèles déployés avec le calcul managé

Vous pouvez évaluer et optimiser la collection « Organisé par Azure AI » dans Azure Machine Learning à l’aide de pipelines Azure Machine Learning. Vous pouvez choisir d’apporter votre propre code d’évaluation et de réglage précis et d’accéder simplement aux pondérations des modèles ou d’utiliser des composants Azure Machine Learning qui offrent des fonctionnalités d’évaluation intégrées et de réglage précis. Pour en savoir plus, suivez ce lien.

Déployer des modèles pour l’inférence avec le calcul managé

Les modèles disponibles pour le déploiement avec le calcul managé peuvent être déployés sur des points de terminaison en ligne Azure Machine Learning pour une inférence en temps réel, ou être utilisés pour une inférence par lot Azure Machine Learning pour traiter par lot vos données. Pour un déploiement sur le calcul managé, vous devez avoir un quota de machines virtuelles dans votre abonnement Azure pour les références SKU nécessaires à une exécution optimale du modèle. Certains modèles vous permettent de déployer sur un quota temporairement partagé pour tester le modèle. Découvrez-en davantage sur le déploiement de modèles :

Créer des applications d’IA générative avec le calcul managé

Le flux d’invite offre des fonctionnalités de prototypage, d’expérimentation, d’itération et de déploiement pour vos applications IA. Vous pouvez utiliser des modèles déployés avec le calcul managé dans le flux de prompt avec l’outil Open Model LLM. Vous pouvez également utiliser l’API REST exposée par le calcul managé dans les outils LLM populaires tels que LangChain avec l’extension Azure Machine Learning.

Sécurité du contenu pour les modèles déployés avec le calcul managé

Le service Azure AI Sécurité du Contenu (AACS) est disponible pour être utilisé avec des modèles déployés sur le calcul managé pour détecter différentes catégories de contenu dangereux, tels que du contenu à caractère sexuel, violent, haineux et d’automutilation, ainsi que des menaces avancées, telles que la détection des risques de jailbreak et la détection de texte de matériel protégé. Vous pouvez faire référence à ce bloc-notes pour l’intégration de référence à AACS pour Llama 2 ou utiliser l’outil Sécurité du Contenu (texte) dans Flux d’invite pour transmettre des réponses du modèle à AACS pour le filtrage. Vous serez facturé séparément en fonction de la tarification AACS pour une telle utilisation.

Utiliser des modèles absents du catalogue de modèles

Pour les modèles non disponibles dans le catalogue de modèles, Azure Machine Learning fournit une plateforme ouverte et extensible permettant d’utiliser les modèles de votre choix. Vous pouvez apporter un modèle avec n’importe quel framework ou runtime à l’aide des fonctionnalités de la plateforme ouverte et extensible d’Azure Machine Learning, telles que les environnements Azure Machine Learning pour les conteneurs qui peuvent empaqueter des frameworks et des runtimes et les pipelines Azure Machine Learning pour que le code évalue ou optimise les modèles. Reportez-vous à ce notebook pour obtenir un exemple de référence pour importer des modèles et utiliser les runtimes et pipelines intégrés.

API serverless avec facturation de paiement à l’utilisation

Certains modèles du catalogue de modèles peuvent être déployés en tant qu’API serverless dans le cadre d’une facturation de paiement à l’utilisation. Cette méthode de déploiement est appelée Modèles en tant que Service (MaaS, Model-as-a-Service). Les modèles disponibles via MaaS sont hébergés dans une infrastructure managée par Microsoft, qui permet l’accès basé sur l’API au modèle du fournisseur de modèles. L’accès basé sur l’API peut réduire drastiquement le coût d’accès à un modèle et simplifie considérablement l’expérience d’approvisionnement. La plupart des modèles MaaS sont fournis avec la tarification basée sur les jetons.

Comment les modèles tiers sont-ils rendus disponibles dans MaaS ?

Un diagramme montrant le cycle de service de l’éditeur de modèle.

Les modèles disponibles pour le déploiement en tant qu’API serverless dans le cadre d’une facturation de paiement à l’utilisation sont proposés par le fournisseur de modèles, mais hébergés dans l’infrastructure Azure managée par Microsoft et sont accessibles via l’API. Les fournisseurs de modèles définissent les termes du contrat de licence et le prix d’utilisation de leurs modèles, tandis que le service Azure Machine Learning gère l’infrastructure d’hébergement, rend les API d’inférence disponibles et agit comme processeur de données pour les invites soumises et le contenu produit par les modèles déployés via MaaS. Découvrez-en davantage sur le traitement des données pour MaaS dans l’article confidentialité des données.

Payer pour l’utilisation du modèle dans MaaS

L’expérience de découverte, d’abonnement et de consommation pour les modèles déployés via MaaS se trouve dans Azure AI Studio et Azure Machine Learning Studio. Les utilisateurs acceptent les termes du contrat de licence pour l’utilisation des modèles et les informations de tarification de la consommation sont fournies pendant le déploiement. Les modèles provenant de fournisseurs tiers sont facturés via la place de marché Azure, conformément aux conditions d’utilisation de la place de marché commerciale. Les modèles de Microsoft sont facturés à l’aide de compteurs Azure comme services de consommation internes. Comme décrit dans Conditions du produit, les services de consommation internes sont achetés à l’aide de compteurs Azure, mais ne sont pas soumis aux conditions d’utilisation du service Azure. L’utilisation de ces modèles est soumise aux termes du contrat de licence fournis.

Déployer des modèles pour l’inférence via MaaS

Le déploiement d’un modèle via MaaS permet aux utilisateurs d’accéder à des API d’inférence sans avoir à configurer l’infrastructure ou à approvisionner des GPU, ce qui permet d’économiser du temps et des ressources d’ingénierie. Ces API peuvent être intégrées à plusieurs outils LLM et l’utilisation est facturée comme décrit dans la section précédente.

Ajuster les modèles via MaaS avec le paiement à l’utilisation

Pour les modèles disponibles via MaaS et qui prennent en charge l’ajustement, les utilisateurs peuvent tirer parti de l’ajustement géré avec la facturation de paiement à l’utilisation pour ajuster les modèles à l’aide des données qu’ils fournissent. Pour plus d’informations, consultez Ajuster un modèle Llama 2 dans Azure AI Studio.

RAG avec des modèles déployés via MaaS

Azure AI Studio permet aux utilisateurs d’utiliser les index vectoriels et la génération augmentée de récupération. Les modèles qui peuvent être déployés en tant qu’API serverless peuvent être utilisés pour générer des incorporations et des inférences basées sur des données personnalisées afin de générer des réponses spécifiques à leur cas d’usage. Pour plus d’informations, consultez Génération augmentée de récupération et indexes.

Disponibilité régionale des offres et des modèles

Le déploiement avec paiement à l’utilisation est disponible uniquement pour les utilisateurs dont l’abonnement Azure appartient à un compte de facturation dans un pays où le fournisseur de modèles a rendu l’offre disponible (consultez « région de disponibilité de l’offre » dans le tableau de la section suivante). Si l’offre est disponible dans la région en question, l’utilisateur doit disposer d’un espace de travail dans la région Azure où le modèle est disponible pour le déploiement ou l’optimisation, le cas échéant (consultez les colonnes « Région de l’espace de travail » dans le tableau ci-dessous).

Modèle Région de disponibilité de l’offre Région d’espace de travail pour le déploiement Région d’espace de travail pour l’ajustement
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Pays gérés par Microsoft USA Est 2, Suède Centre Non disponible
Llama-2-7b
Llama-2-13b
Llama-2-70b
Pays gérés par Microsoft USA Est 2, USA Ouest 3 USA Ouest 3
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
Pays gérés par Microsoft USA Est 2, USA Ouest 3 Non disponible
Mistral-Large
Mistral Small
Pays gérés par Microsoft USA Est 2, Suède Centre Non disponible
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Pays gérés par Microsoft
Japon
USA Est 2, Suède Centre Non disponible

Sécurité du contenu pour les modèles déployés via MaaS

Important

Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service et n’est pas recommandée pour les charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge.

Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure Machine Learning implémente une configuration par défaut de filtres de modération de texte Azure AI Sécurité du Contenu pour le contenu dangereux (haineux, automutilation, sexuel et violent) pour les modèles de langage déployés avec MaaS. Pour découvrir plus d’informations sur le filtrage de contenu (préversion), consultez Catégories préjudiciables dans Azure AI Sécurité du Contenu. Le filtrage de contenu (préversion) se produit de manière synchrone lorsque le processus de service invite à générer du contenu. Vous pouvez être facturé séparément en fonction de la tarification AACS pour une telle utilisation. Vous pouvez désactiver le filtrage de contenu (en préversion) pour des points de terminaison serverless individuels lorsque vous déployez un modèle de langage pour la première fois ou dans la page des détails du déploiement en cliquant sur le bouton bascule de filtrage de contenu. Vous pouvez avoir un plus grand risque d’exposer des utilisateurs à du contenu dangereux si vous désactivez les filtres de contenu.

En savoir plus