Environnements de calcul pris en charge par Azure Data FactoryCompute environments supported by Azure Data Factory

S’APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Cet article décrit les différents environnements de calcul que vous pouvez utiliser pour traiter ou transformer des données.This article explains different compute environments that you can use to process or transform data. Il fournit également des détails sur les différentes configurations (à la demande ou de type « apporter votre propre configuration ») prises en charge par Data Factory lors de la configuration des services liés qui relient ces environnements de calcul à Azure Data Factory.It also provides details about different configurations (on-demand vs. bring your own) supported by Data Factory when configuring linked services linking these compute environments to an Azure data factory.

Le tableau suivant fournit une liste d’environnements de calcul pris en charge par Data Factory et les activités qui peuvent s’exécuter sur ces derniers.The following table provides a list of compute environments supported by Data Factory and the activities that can run on them.

Environnement de calculCompute environment activitiesactivities
Cluster HDInsight à la demande ou votre propre cluster HDInsightOn-demand HDInsight cluster or your own HDInsight cluster Hive, Pig, Spark, MapReduce, Streaming HadoopHive, Pig, Spark, MapReduce, Hadoop Streaming
Azure BatchAzure Batch PersonnaliséeCustom
Azure Machine Learning Studio (classique)Azure Machine Learning Studio (classic) Activités Machine Learning Studio (classique) : exécution par lot et ressource de mise à jourMachine Learning Studio (classic) activities: Batch Execution and Update Resource
Azure Machine LearningAzure Machine Learning Activité d’exécution des pipelines Azure Machine LearningAzure Machine Learning Execute Pipeline
Service Analytique Azure Data LakeAzure Data Lake Analytics Langage U-SQL du service Analytique Data LakeData Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL ServerAzure SQL, Azure Synapse Analytics, SQL Server Procédure stockéeStored Procedure
Azure DatabricksAzure Databricks Notebook, Jar, PythonNotebook, Jar, Python
Fonction AzureAzure Function Activité de fonction AzureAzure Function activity

Environnement de calcul HDInsight à la demandeHDInsight compute environment

Reportez-vous au tableau ci-dessous pour plus d’informations sur les types de services liés de stockage pris en charge pour la configuration dans des environnements à la demande et BYOC.Refer to below table for details about the supported storage linked service types for configuration in On-demand and BYOC (Bring your own compute) environment.

Dans Services liés de calculIn Compute Linked Service Nom de la propriétéProperty Name DescriptionDescription Objet blobBlob ADLS Gen2ADLS Gen2 Azure SQL DBAzure SQL DB ADLS Gen 1ADLS Gen 1
À la demandeOn-demand linkedServiceNamelinkedServiceName Service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données.Azure Storage linked service to be used by the on-demand cluster for storing and processing data. OuiYes OuiYes NonNo NonNo
additionalLinkedServiceNamesadditionalLinkedServiceNames Spécifie les comptes de stockage supplémentaires pour le service lié HDInsight afin que le service Data Factory puisse les inscrire en votre nom.Specifies additional storage accounts for the HDInsight linked service so that the Data Factory service can register them on your behalf. OuiYes NonNo NonNo NonNo
hcatalogLinkedServiceNamehcatalogLinkedServiceName Nom du service lié à SQL Azure pointant vers la base de données HCatalog.The name of Azure SQL linked service that point to the HCatalog database. Le cluster HDInsight à la demande est créé en utilisant la base de données Azure SQL en tant que metastore.The on-demand HDInsight cluster is created by using the Azure SQL database as the metastore. NonNo NonNo OuiYes NonNo
BYOCBYOC linkedServiceNamelinkedServiceName Référence du service Stockage Azure lié.The Azure Storage linked service reference. OuiYes OuiYes NonNo NonNo
additionalLinkedServiceNamesadditionalLinkedServiceNames Comptes de stockage supplémentaires pour le service lié HDInsight, que le service Data Factory peut inscrire pour vous.Specifies additional storage accounts for the HDInsight linked service so that the Data Factory service can register them on your behalf. NonNo NonNo NonNo NonNo
hcatalogLinkedServiceNamehcatalogLinkedServiceName Nom du service lié SQL Azure pointant vers la base de données HCatalog.A reference to the Azure SQL linked service that points to the HCatalog database. NonNo NonNo NonNo NonNo

Service lié à la demande Azure HDInsightAzure HDInsight on-demand linked service

Dans ce type de configuration, l'environnement de calcul est entièrement géré par le service Azure Data Factory.In this type of configuration, the computing environment is fully managed by the Azure Data Factory service. Il est automatiquement créé par le service Azure Data Factory avant qu'une tâche de traitement des données ne soit soumise et il est supprimé lorsque la tâche est terminée.It is automatically created by the Data Factory service before a job is submitted to process data and removed when the job is completed. Vous pouvez créer un service lié pour un environnement de calcul à la demande, le configurer et contrôler les paramètres granulaires pour l'exécution de la tâche, la gestion du cluster et les actions d'amorçage.You can create a linked service for the on-demand compute environment, configure it, and control granular settings for job execution, cluster management, and bootstrapping actions.

Notes

La configuration à la demande est actuellement prise en charge uniquement pour les clusters Azure HDInsight.The on-demand configuration is currently supported only for Azure HDInsight clusters. Azure Databricks prend également en charge les travaux à la demande en utilisant des clusters de travail.Azure Databricks also supports on-demand jobs using job clusters. Pour plus d’informations, consultez Service Azure Databricks lié.For more information, see Azure databricks linked service.

Le service Azure Data Factory peut créer automatiquement un cluster HDInsight à la demande pour traiter des données.The Azure Data Factory service can automatically create an on-demand HDInsight cluster to process data. Le cluster est créé dans la même région que celle du compte de stockage (propriété linkedServiceName dans JSON) associé au cluster.The cluster is created in the same region as the storage account (linkedServiceName property in the JSON) associated with the cluster. Le compte de stockage must doit être un compte Stockage Azure standard universel.The storage account must be a general-purpose standard Azure Storage account.

Notez les points importants suivants sur le service lié HDInsight à la demande :Note the following important points about on-demand HDInsight linked service:

  • Le cluster HDInsight à la demande est créé sous votre abonnement Azure.The on-demand HDInsight cluster is created under your Azure subscription. Vous pouvez voir le cluster dans votre portail Azure lorsque le cluster est opérationnel.You are able to see the cluster in your Azure portal when the cluster is up and running.
  • Les journaux d’activité des tâches exécutées sur un cluster HDInsight à la demande sont copiés dans le compte de stockage associé au cluster HDInsight.The logs for jobs that are run on an on-demand HDInsight cluster are copied to the storage account associated with the HDInsight cluster. Les valeurs clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword spécifiées dans votre définition de service lié sont utilisées pour la connexion au cluster à des fins de dépannage approfondi pendant le cycle de vie du cluster.The clusterUserName, clusterPassword, clusterSshUserName, clusterSshPassword defined in your linked service definition are used to log in to the cluster for in-depth troubleshooting during the lifecycle of the cluster.
  • Vous êtes facturé uniquement lorsque le cluster HDInsight est actif et exécute des tâches.You are charged only for the time when the HDInsight cluster is up and running jobs.
  • Vous pouvez utiliser une action de script avec le service lié à la demande Azure HDInsight.You can use a Script Action with the Azure HDInsight on-demand linked service.

Important

Il faut généralement au moins 20 minutes pour mettre en service un cluster Azure HDInsight à la demande.It typically takes 20 minutes or more to provision an Azure HDInsight cluster on demand.

ExempleExample

Le JSON suivant définit un service lié HDInsight à la demande sous Linux.The following JSON defines a Linux-based on-demand HDInsight linked service. Le service Data Factory crée automatiquement un cluster HDInsight Linux pour traiter l’activité requise.The Data Factory service automatically creates a Linux-based HDInsight cluster to process the required activity.

{
  "name": "HDInsightOnDemandLinkedService",
  "properties": {
    "type": "HDInsightOnDemand",
    "typeProperties": {
      "clusterType": "hadoop",
      "clusterSize": 1,
      "timeToLive": "00:15:00",
      "hostSubscriptionId": "<subscription ID>",
      "servicePrincipalId": "<service principal ID>",
      "servicePrincipalKey": {
        "value": "<service principal key>",
        "type": "SecureString"
      },
      "tenant": "<tenent id>",
      "clusterResourceGroup": "<resource group name>",
      "version": "3.6",
      "osType": "Linux",
      "linkedServiceName": {
        "referenceName": "AzureStorageLinkedService",
        "type": "LinkedServiceReference"
      }
    },
    "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
  }
}

Important

Le cluster HDInsight crée un conteneur par défaut dans le stockage d’objets blob que vous avez spécifié dans le JSON (linkedServiceName).The HDInsight cluster creates a default container in the blob storage you specified in the JSON (linkedServiceName). HDInsight ne supprime pas ce conteneur lorsque le cluster est supprimé.HDInsight does not delete this container when the cluster is deleted. Ce comportement est normal.This behavior is by design. Avec le service lié HDInsight à la demande, un cluster HDInsight est créé à chaque fois qu’une tranche doit être traitée, à moins qu’il n’existe un cluster activé (timeToLive), et est supprimé une fois le traitement activé.With on-demand HDInsight linked service, a HDInsight cluster is created every time a slice needs to be processed unless there is an existing live cluster (timeToLive) and is deleted when the processing is done.

Pendant la poursuite de l’activité, vous voyez de nombreux conteneurs dans votre Stockage Blob Azure.As more activity runs, you see many containers in your Azure blob storage. Si vous n’en avez pas besoin pour dépanner les travaux, il se peut que vous deviez les supprimer pour réduire les frais de stockage.If you do not need them for troubleshooting of the jobs, you may want to delete them to reduce the storage cost. Les noms de ces conteneurs sont conformes au modèle suivant : adf**yourdatafactoryname**-**linkedservicename**-datetimestamp.The names of these containers follow a pattern: adf**yourdatafactoryname**-**linkedservicename**-datetimestamp. Utilisez des outils tels que l’Explorateur Stockage Microsoft Azure pour supprimer des conteneurs dans votre stockage Blob Azure.Use tools such as Microsoft Azure Storage Explorer to delete containers in your Azure blob storage.

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
typetype La propriété de type doit être définie sur HDInsightOnDemand.The type property should be set to HDInsightOnDemand. OuiYes
clusterSizeclusterSize Nombre de nœuds worker/données dans le cluster.Number of worker/data nodes in the cluster. Le cluster HDInsight est créé avec 2 nœuds principaux et le nombre de nœuds worker que vous spécifiez pour cette propriété.The HDInsight cluster is created with 2 head nodes along with the number of worker nodes you specify for this property. Les nœuds étant de taille Standard_D3 à 4 cœurs, un cluster à 4 nœuds de travail prend 24 cœurs (4*4 = 16 nœuds pour les nœuds de travail + 2*4 = 8 cœurs pour les nœuds principaux).The nodes are of size Standard_D3 that has 4 cores, so a 4 worker node cluster takes 24 cores (4*4 = 16 cores for worker nodes, plus 2*4 = 8 cores for head nodes). Pour plus de détails, voir Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encore.See Set up clusters in HDInsight with Hadoop, Spark, Kafka, and more for details. OuiYes
linkedServiceNamelinkedServiceName Le service lié Azure Storage utilisé par le cluster à la demande pour le stockage et le traitement des données.Azure Storage linked service to be used by the on-demand cluster for storing and processing data. Le cluster HDInsight est créé dans la même région que ce compte de stockage Azure.The HDInsight cluster is created in the same region as this Azure Storage account. Azure HDInsight présente une limite relative au nombre total de cœurs que vous pouvez utiliser dans chaque région Azure prise en charge.Azure HDInsight has limitation on the total number of cores you can use in each Azure region it supports. Assurez-vous que vous disposez de quotas de cœurs suffisants dans cette région Azure pour offrir la taille de cluster requise.Make sure you have enough core quotas in that Azure region to meet the required clusterSize. Pour plus de détails, voir, Configurer des clusters dans HDInsight avec Hadoop, Spark, Kafka et bien plus encoreFor details, refer to Set up clusters in HDInsight with Hadoop, Spark, Kafka, and more

Actuellement, vous ne pouvez pas créer un cluster HDInsight à la demande qui utilise Azure Data Lake Storage (Gen2) en guise de stockage.Currently, you cannot create an on-demand HDInsight cluster that uses an Azure Data Lake Storage (Gen 2) as the storage. Si vous souhaitez stocker les données de résultat à partir du traitement HDInsight dans Azure Data Lake Storage (Gen2), utilisez une activité de copie pour copier les données de Stockage Blob Azure dans Azure Data Lake Storage (Gen2).If you want to store the result data from HDInsight processing in an Azure Data Lake Storage (Gen 2), use a Copy Activity to copy the data from the Azure Blob Storage to the Azure Data Lake Storage (Gen 2).

OuiYes
clusterResourceGroupclusterResourceGroup Le cluster HDInsight est créé dans ce groupe de ressources.The HDInsight cluster is created in this resource group. OuiYes
timetolivetimetolive La durée d’inactivité autorisée pour le cluster HDInsight à la demande.The allowed idle time for the on-demand HDInsight cluster. Spécifie la durée pendant laquelle le cluster HDInsight à la demande reste actif après l’achèvement d’une exécution d’activité s’il n’existe aucun autre travail actif dans le cluster.Specifies how long the on-demand HDInsight cluster stays alive after completion of an activity run if there are no other active jobs in the cluster. La valeur minimale autorisée est 5 minutes (00:05:00).The minimal allowed value is 5 minutes (00:05:00).

Par exemple, si une exécution d’activité prend 6 minutes et si la propriété TimeToLive est définie sur 5 minutes, le cluster reste actif pendant 5 minutes après les 6 minutes du traitement de l’exécution d’activité.For example, if an activity run takes 6 minutes and timetolive is set to 5 minutes, the cluster stays alive for 5 minutes after the 6 minutes of processing the activity run. Si une autre exécution d’activité intervient dans la fenêtre de 6 minutes, elle est traitée par le même cluster.If another activity run is executed with the 6-minutes window, it is processed by the same cluster.

La création d’un cluster HDInsight à la demande étant une opération coûteuse (elle peut prendre du temps), utilisez ce paramètre selon le besoin pour améliorer les performances d’une fabrique de données en réutilisant un cluster HDInsight à la demande.Creating an on-demand HDInsight cluster is an expensive operation (could take a while), so use this setting as needed to improve performance of a data factory by reusing an on-demand HDInsight cluster.

Si vous définissez la valeur de la propriété TimeToLive sur 0, le cluster est supprimé dès que l’exécution d’activité est terminée.If you set timetolive value to 0, the cluster is deleted as soon as the activity run completes. Alors que, si vous définissez une valeur élevée, le cluster peut rester inactif pour vous permettre de vous connecter à des fins de dépannage, mais cela peut entraîner des coûts importants.Whereas, if you set a high value, the cluster may stay idle for you to log on for some troubleshooting purpose but it could result in high costs. Par conséquent, il est important de définir la valeur appropriée en fonction de vos besoins.Therefore, it is important that you set the appropriate value based on your needs.

Plusieurs pipelines peuvent partager l’instance du cluster HDInsight à la demande si la valeur de la propriété timetolive est correctement définie.If the timetolive property value is appropriately set, multiple pipelines can share the instance of the on-demand HDInsight cluster.
OuiYes
clusterTypeclusterType Type du cluster HDInsight à créer.The type of the HDInsight cluster to be created. Valeurs autorisées : « hadoop » et « spark ».Allowed values are "hadoop" and "spark". Si aucune valeur n’est spécifiée, la valeur par défaut est hadoop.If not specified, default value is hadoop. Un cluster activé avec le Pack Sécurité Entreprise ne peut pas être créé à la demande. Utilisez plutôt un cluster existant / apportez votre propre environnement de calcul.Enterprise Security Package enabled cluster cannot be created on-demand, instead use an existing cluster/ bring your own compute. NonNo
versionversion Version du cluster HDInsight.Version of the HDInsight cluster. À défaut de spécification, la version actuelle par défaut de HDInsight est utilisée.If not specified, it's using the current HDInsight defined default version. NonNo
hostSubscriptionIdhostSubscriptionId ID d’abonnement Azure utilisé pour créer le cluster HDInsight.The Azure subscription ID used to create HDInsight cluster. Si non spécifié, l’ID d’abonnement de votre contexte de connexion Azure est utilisé.If not specified, it uses the Subscription ID of your Azure login context. NonNo
clusterNamePrefixclusterNamePrefix Préfixe du nom de cluster HDI. Un horodatage est ajouté automatiquement à la fin du nom du cluster.The prefix of HDI cluster name, a timestamp automatically appends at the end of the cluster name NonNo
sparkVersionsparkVersion Version de spark si le type de cluster est « Spark »The version of spark if the cluster type is "Spark" NonNo
additionalLinkedServiceNamesadditionalLinkedServiceNames Spécifie les comptes de stockage supplémentaires pour le service lié HDInsight afin que le service Data Factory puisse les enregistrer en votre nom.Specifies additional storage accounts for the HDInsight linked service so that the Data Factory service can register them on your behalf. Ces comptes de stockage doivent être dans la même région que le cluster HDInsight, qui est créé dans la même région que le compte de stockage spécifié par linkedServiceName.These storage accounts must be in the same region as the HDInsight cluster, which is created in the same region as the storage account specified by linkedServiceName. NonNo
osTypeosType Type de système d'exploitation.Type of operating system. Les valeurs autorisées sont les suivantes : Linux et Windows (pour HDInsight 3.3 uniquement).Allowed values are: Linux and Windows (for HDInsight 3.3 only). Par défaut, c’est Linux.Default is Linux. NonNo
hcatalogLinkedServiceNamehcatalogLinkedServiceName Le nom du service lié à SQL Azure pointant vers la base de données HCatalog.The name of Azure SQL linked service that point to the HCatalog database. Le cluster HDInsight à la demande est créé en utilisant la base de données Azure SQL en tant que metastore.The on-demand HDInsight cluster is created by using the Azure SQL Database as the metastore. NonNo
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié HDInsight.The Integration Runtime to be used to dispatch the activities to this HDInsight linked service. Pour le service lié HDInsight à la demande, il prend uniquement en charge un runtime d’intégration Azure.For on-demand HDInsight linked service, it only supports Azure Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime. NonNo
clusterUserNameclusterUserName Nom d’utilisateur pour accéder au cluster.The username to access the cluster. NonNo
clusterPasswordclusterPassword Mot de passe sous forme de chaîne sécurisée pour accéder au cluster.The password in type of secure string to access the cluster. NonNo
clusterSshUserNameclusterSshUserName Nom d’utilisateur SSH pour se connecter à distance au nœud du cluster (pour Linux).The username to SSH remotely connects to cluster’s node (for Linux). NonNo
clusterSshPasswordclusterSshPassword Mot de passe sous forme de chaîne sécurisée pour établir une connexion SSH à distance au nœud du cluster (pour Linux).The password in type of secure string to SSH remotely connect cluster’s node (for Linux). NonNo
scriptActionsscriptActions Spécifiez un script pour les personnalisations de cluster HDInsight lors de la création d'un cluster à la demande.Specify script for HDInsight cluster customizations during on-demand cluster creation.
Actuellement, l'outil de création d'interface utilisateur d'Azure Data Factory prend en charge la spécification d'une seule action de script, mais vous pouvez contourner cette limitation dans le JSON (spécifiez plusieurs actions de script dans le JSON).Currently, Azure Data Factory's User Interface authoring tool supports specifying only 1 script action, but you can get through this limitation in the JSON (specify multiple script actions in the JSON).
NonNo

Important

HDInsight prend en charge plusieurs versions de cluster Hadoop qui peuvent être déployées.HDInsight supports multiple Hadoop cluster versions that can be deployed. Le choix d'une version crée une version spécifique de la distribution de la plateforme de données Hortonworks (HDP) et un ensemble de composants qui sont contenus dans cette distribution.Each version choice creates a specific version of the Hortonworks Data Platform (HDP) distribution and a set of components that are contained within that distribution. La liste des versions de HDInsight prises en charge continue à être actualisée afin de fournir les correctifs et composants les plus récents de l’écosystème Hadoop.The list of supported HDInsight versions keeps being updated to provide latest Hadoop ecosystem components and fixes. Assurez-vous de toujours faire référence aux informations les plus récentes sur la version de HDInsight et le type de système d’exploitation pris en charge pour être certain d’utiliser la version prise en charge de HDInsight.Make sure you always refer to latest information of Supported HDInsight version and OS Type to ensure you are using supported version of HDInsight.

Important

Les services HDInsight liés ne prennent actuellement pas en charge les clusters HBase, Interactive Query (Hive LLAP) et Storm.Currently, HDInsight linked services does not support HBase, Interactive Query (Hive LLAP), Storm.

  • Exemple JSON additionalLinkedServiceNamesadditionalLinkedServiceNames JSON example
"additionalLinkedServiceNames": [{
    "referenceName": "MyStorageLinkedService2",
    "type": "LinkedServiceReference"          
}]

Authentification d’un principal du serviceService principal authentication

Le service lié de HDInsight à la demande nécessite une authentification du principal du service pour créer des clusters HDInsight à votre place.The On-Demand HDInsight linked service requires a service principal authentication to create HDInsight clusters on your behalf. Pour utiliser une authentification du principal du service, inscrivez une entité d’application dans Azure Active Directory (Azure AD), et octroyez-lui le rôle de contributeur de l’abonnement ou du groupe de ressources dans lequel le cluster HDInsight est créé.To use service principal authentication, register an application entity in Azure Active Directory (Azure AD) and grant it the Contributor role of the subscription or the resource group in which the HDInsight cluster is created. Pour une procédure détaillée, voir Utiliser le portail pour créer une application et un principal du service Azure Active Directory pouvant accéder aux ressources.For detailed steps, see Use portal to create an Azure Active Directory application and service principal that can access resources. Prenez note des valeurs suivantes, qui vous permettent de définir le service lié :Make note of the following values, which you use to define the linked service:

  • ID de l'applicationApplication ID
  • Clé de l'applicationApplication key
  • ID clientTenant ID

Utilisez l’authentification par principal de service en spécifiant les propriétés suivantes :Use service principal authentication by specifying the following properties:

PropriétéProperty DescriptionDescription ObligatoireRequired
servicePrincipalIdservicePrincipalId Spécifiez l’ID client de l’application.Specify the application's client ID. OuiYes
servicePrincipalKeyservicePrincipalKey Spécifiez la clé de l’application.Specify the application's key. OuiYes
clienttenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application.Specify the tenant information (domain name or tenant ID) under which your application resides. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.You can retrieve it by hovering the mouse in the upper-right corner of the Azure portal. OuiYes

Propriétés avancéesAdvanced Properties

Vous pouvez également spécifier les propriétés suivantes pour la configuration granulaire du cluster HDInsight à la demande.You can also specify the following properties for the granular configuration of the on-demand HDInsight cluster.

PropriétéProperty DescriptionDescription ObligatoireRequired
coreConfigurationcoreConfiguration Spécifie les paramètres de configuration de base (par exemple, core-site.xml) pour le cluster HDInsight à créer.Specifies the core configuration parameters (as in core-site.xml) for the HDInsight cluster to be created. NonNo
hBaseConfigurationhBaseConfiguration Spécifie les paramètres de configuration HBase (hbase-site.xml) pour le cluster HDInsight.Specifies the HBase configuration parameters (hbase-site.xml) for the HDInsight cluster. NonNo
hdfsConfigurationhdfsConfiguration Spécifie les paramètres de configuration HDFS (hdfs-site.xml) pour le cluster HDInsight.Specifies the HDFS configuration parameters (hdfs-site.xml) for the HDInsight cluster. NonNo
hiveConfigurationhiveConfiguration Spécifie les paramètres de configuration Hive (hive-site.xml) pour le cluster HDInsight.Specifies the hive configuration parameters (hive-site.xml) for the HDInsight cluster. NonNo
mapReduceConfigurationmapReduceConfiguration Spécifie les paramètres de configuration MapReduce (mapred-site.xml) pour le cluster HDInsight.Specifies the MapReduce configuration parameters (mapred-site.xml) for the HDInsight cluster. NonNo
oozieConfigurationoozieConfiguration Spécifie les paramètres de configuration Oozie (oozie-site.xml) pour le cluster HDInsight.Specifies the Oozie configuration parameters (oozie-site.xml) for the HDInsight cluster. NonNo
stormConfigurationstormConfiguration Spécifie les paramètres de configuration Storm (storm-site.xml) pour le cluster HDInsight.Specifies the Storm configuration parameters (storm-site.xml) for the HDInsight cluster. NonNo
yarnConfigurationyarnConfiguration Spécifie les paramètres de configuration Yarn (yarn-site.xml) pour le cluster HDInsight.Specifies the Yarn configuration parameters (yarn-site.xml) for the HDInsight cluster. NonNo
  • Exemple : configuration de cluster HDInsight à la demande avec les propriétés avancéesExample – On-demand HDInsight cluster configuration with advanced properties
{
    "name": " HDInsightOnDemandLinkedService",
    "properties": {
      "type": "HDInsightOnDemand",
      "typeProperties": {
          "clusterSize": 16,
          "timeToLive": "01:30:00",
          "hostSubscriptionId": "<subscription ID>",
          "servicePrincipalId": "<service principal ID>",
          "servicePrincipalKey": {
            "value": "<service principal key>",
            "type": "SecureString"
          },
          "tenant": "<tenent id>",
          "clusterResourceGroup": "<resource group name>",
          "version": "3.6",
          "osType": "Linux",
          "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
            },
            "coreConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "hiveConfiguration": {
                "templeton.mapper.memory.mb": "5000"
            },
            "mapReduceConfiguration": {
                "mapreduce.reduce.java.opts": "-Xmx4000m",
                "mapreduce.map.java.opts": "-Xmx4000m",
                "mapreduce.map.memory.mb": "5000",
                "mapreduce.reduce.memory.mb": "5000",
                "mapreduce.job.reduce.slowstart.completedmaps": "0.8"
            },
            "yarnConfiguration": {
                "yarn.app.mapreduce.am.resource.mb": "5000",
                "mapreduce.map.memory.mb": "5000"
            },
            "additionalLinkedServiceNames": [{
                "referenceName": "MyStorageLinkedService2",
                "type": "LinkedServiceReference"          
            }]
        }
    },
      "connectVia": {
      "referenceName": "<name of Integration Runtime>",
      "type": "IntegrationRuntimeReference"
    }
}

Tailles de nœudsNode sizes

Vous pouvez spécifier les tailles du nœud principal, du nœud de données et du nœud zookeeper en utilisant les propriétés suivantes :You can specify the sizes of head, data, and zookeeper nodes using the following properties:

PropriétéProperty DescriptionDescription ObligatoireRequired
headNodeSizeheadNodeSize Spécifie la taille du nœud principal.Specifies the size of the head node. La valeur par défaut est : Standard_D3.The default value is: Standard_D3. Pour plus d’informations, consultez la section Spécification des tailles de nœud.See the Specifying node sizes section for details. NonNo
dataNodeSizedataNodeSize Spécifie la taille du nœud de données.Specifies the size of the data node. La valeur par défaut est : Standard_D3.The default value is: Standard_D3. NonNo
zookeeperNodeSizezookeeperNodeSize Spécifie la taille du nœud ZooKeeper.Specifies the size of the Zoo Keeper node. La valeur par défaut est : Standard_D3.The default value is: Standard_D3. NonNo
  • Pour connaître les valeurs des chaînes à spécifier pour les propriétés mentionnées dans la section précédente, consultez Tailles des machines virtuelles.Specifying node sizes See the Sizes of Virtual Machines article for string values you need to specify for the properties mentioned in the previous section. Les valeurs doivent être conformes aux applets de commande et API référencées dans l’article.The values need to conform to the CMDLETs & APIS referenced in the article. Comme vous pouvez le voir dans l’article, le nœud de données de grande taille (par défaut) a 7 Go de mémoire, ce qui risque de s’avérer insuffisant pour votre scénario.As you can see in the article, the data node of Large (default) size has 7-GB memory, which may not be good enough for your scenario.

Si vous voulez créer des nœuds principaux et des nœuds worker de taille D4, spécifiez la valeur Standard_D4 pour les propriétés headNodeSize et dataNodeSize.If you want to create D4 sized head nodes and worker nodes, specify Standard_D4 as the value for headNodeSize and dataNodeSize properties.

"headNodeSize": "Standard_D4",    
"dataNodeSize": "Standard_D4",

Si vous spécifiez une valeur incorrecte pour ces propriétés, vous risquez de rencontrer l’erreur suivante : Failed to create cluster. (Impossible de créer le cluster.)If you specify a wrong value for these properties, you may receive the following error: Failed to create cluster. Exception : Impossible de terminer l’opération de création du cluster.Exception: Unable to complete the cluster create operation. Operation failed with code ’400’.Operation failed with code '400'. Cluster left behind state (État du cluster abandonné) : 'Error' (« Error »).Cluster left behind state: 'Error'. Message : 'PreClusterCreationValidationFailure'.Message: 'PreClusterCreationValidationFailure'. Quand vous recevez ce message d’erreur, vérifiez que vous utilisez les noms d’applet de commande et d’API figurant dans l’article Tailles des machines virtuelles.When you receive this error, ensure that you are using the CMDLET & APIS name from the table in the Sizes of Virtual Machines article.

Apportez votre propre environnement de calculBring your own compute environment

Dans ce type de configuration, les utilisateurs peuvent inscrire un environnement de calcul existant en tant que service lié dans Data Factory.In this type of configuration, users can register an already existing computing environment as a linked service in Data Factory. L'environnement de calcul est géré par l'utilisateur et le service Data Factory l'utilise pour exécuter les activités.The computing environment is managed by the user and the Data Factory service uses it to execute the activities.

Ce type de configuration est pris en charge pour les environnements de calcul suivants :This type of configuration is supported for the following compute environments:

  • Azure HDInsightAzure HDInsight
  • Azure BatchAzure Batch
  • Azure Machine LearningAzure Machine Learning
  • Service Analytique Azure Data LakeAzure Data Lake Analytics
  • Azure SQL DB, Azure Synapse Analytics, SQL ServerAzure SQL DB, Azure Synapse Analytics, SQL Server

Service lié Azure HDInsightAzure HDInsight linked service

Vous pouvez créer un service lié Azure HDInsight pour inscrire votre propre cluster HDInsight avec Data Factory.You can create an Azure HDInsight linked service to register your own HDInsight cluster with Data Factory.

ExempleExample

{
    "name": "HDInsightLinkedService",
    "properties": {
      "type": "HDInsight",
      "typeProperties": {
        "clusterUri": " https://<hdinsightclustername>.azurehdinsight.net/",
        "userName": "username",
        "password": {
            "value": "passwordvalue",
            "type": "SecureString"
          },
        "linkedServiceName": {
              "referenceName": "AzureStorageLinkedService",
              "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
typetype La propriété de type doit être définie sur HDInsight.The type property should be set to HDInsight. OuiYes
clusterUriclusterUri L'URI du cluster HDInsight.The URI of the HDInsight cluster. OuiYes
usernameusername Spécifiez le nom de l'utilisateur à utiliser pour se connecter à un cluster HDInsight existant.Specify the name of the user to be used to connect to an existing HDInsight cluster. OuiYes
mot de passepassword Spécifiez le mot de passe du compte d'utilisateur.Specify password for the user account. OuiYes
linkedServiceNamelinkedServiceName Nom du service lié de stockage Azure faisant référence au stockage Blob Azure utilisé par le cluster HDInsight.Name of the Azure Storage linked service that refers to the Azure blob storage used by the HDInsight cluster.

Actuellement, vous ne pouvez pas spécifier un service lié Azure Data Lake Storage (Gen2) pour cette propriété.Currently, you cannot specify an Azure Data Lake Storage (Gen 2) linked service for this property. Vous pouvez accéder aux données d’Azure Data Lake Storage (Gen2) à partir de scripts Hive/Pig si le cluster HDInsight a accès à Data Lake Store.If the HDInsight cluster has access to the Data Lake Store, you may access data in the Azure Data Lake Storage (Gen 2) from Hive/Pig scripts.

OuiYes
isEspEnabledisEspEnabled Spécifiez « true » si le cluster HDInsight est activé avec le Pack Sécurité Entreprise.Specify 'true' if the HDInsight cluster is Enterprise Security Package enabled. La valeur par défaut est « false ».Default is 'false'. NonNo
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié.The Integration Runtime to be used to dispatch the activities to this linked service. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé.You can use Azure Integration Runtime or Self-hosted Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime.
Pour un cluster HDInsight activé avec le Pack Sécurité Entreprise, utilisez un runtime d'intégration auto-hébergé qui dispose d’une visibilité directe sur le cluster ou qui doit être déployé dans le même réseau virtuel que le cluster HDInsight activé avec le Pack Sécurité Entreprise.For Enterprise Security Package (ESP) enabled HDInsight cluster use a self-hosted integration runtime, which has a line of sight to the cluster or it should be deployed inside the same Virtual Network as the ESP HDInsight cluster.
NonNo

Important

HDInsight prend en charge plusieurs versions de cluster Hadoop qui peuvent être déployées.HDInsight supports multiple Hadoop cluster versions that can be deployed. Le choix d'une version crée une version spécifique de la distribution de la plateforme de données Hortonworks (HDP) et un ensemble de composants qui sont contenus dans cette distribution.Each version choice creates a specific version of the Hortonworks Data Platform (HDP) distribution and a set of components that are contained within that distribution. La liste des versions de HDInsight prises en charge continue à être actualisée afin de fournir les correctifs et composants les plus récents de l’écosystème Hadoop.The list of supported HDInsight versions keeps being updated to provide latest Hadoop ecosystem components and fixes. Assurez-vous de toujours faire référence aux informations les plus récentes sur la version de HDInsight et le type de système d’exploitation pris en charge pour être certain d’utiliser la version prise en charge de HDInsight.Make sure you always refer to latest information of Supported HDInsight version and OS Type to ensure you are using supported version of HDInsight.

Important

Les services HDInsight liés ne prennent actuellement pas en charge les clusters HBase, Interactive Query (Hive LLAP) et Storm.Currently, HDInsight linked services does not support HBase, Interactive Query (Hive LLAP), Storm.

Service lié Azure BatchAzure Batch linked service

Notes

Cet article a été mis à jour pour pouvoir utiliser le module Azure Az PowerShell.This article has been updated to use the Azure Az PowerShell module. Le module Az PowerShell est le module PowerShell qui est recommandé pour interagir avec Azure.The Az PowerShell module is the recommended PowerShell module for interacting with Azure. Pour démarrer avec le module Az PowerShell, consulter Installer Azure PowerShell.To get started with the Az PowerShell module, see Install Azure PowerShell. Pour savoir comment migrer vers le module Az PowerShell, consultez Migrer Azure PowerShell depuis AzureRM vers Az.To learn how to migrate to the Az PowerShell module, see Migrate Azure PowerShell from AzureRM to Az.

Vous pouvez créer un service lié Azure Batch pour inscrire un pool de machines virtuelles (VM) Batch à une fabrique de données.You can create an Azure Batch linked service to register a Batch pool of virtual machines (VMs) to a data factory. Vous pouvez exécuter l’activité personnalisée à l’aide d’Azure Batch.You can run Custom activity using Azure Batch.

Consultez les articles suivants si vous ne connaissez pas le service Azure Batch :See following articles if you are new to Azure Batch service:

ExempleExample

{
    "name": "AzureBatchLinkedService",
    "properties": {
      "type": "AzureBatch",
      "typeProperties": {
        "accountName": "batchaccount",
        "accessKey": {
          "type": "SecureString",
          "value": "access key"
        },
        "batchUri": "https://batchaccount.region.batch.azure.com",
        "poolName": "poolname",
        "linkedServiceName": {
          "referenceName": "StorageLinkedService",
          "type": "LinkedServiceReference"
        }
      },
      "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
  }

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
typetype La propriété de type doit être définie sur AzureBatch.The type property should be set to AzureBatch. OuiYes
accountNameaccountName Nom du compte Azure Batch.Name of the Azure Batch account. OuiYes
accessKeyaccessKey Clé d'accès du compte Azure Batch.Access key for the Azure Batch account. OuiYes
batchUribatchUri URL de votre compte Azure Batch, au format https://batchaccountname.region.batch.azure.com.URL to your Azure Batch account, in format of https://batchaccountname.region.batch.azure.com. OuiYes
poolNamepoolName Nom du pool de machines virtuelles.Name of the pool of virtual machines. OuiYes
linkedServiceNamelinkedServiceName Nom du service lié Azure Storage associé à ce service lié Azure Batch.Name of the Azure Storage linked service associated with this Azure Batch linked service. Ce service lié est utilisé pour les fichiers intermédiaires requis pour exécuter l’activité.This linked service is used for staging files required to run the activity. OuiYes
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié.The Integration Runtime to be used to dispatch the activities to this linked service. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé.You can use Azure Integration Runtime or Self-hosted Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime. NonNo

Service lié Azure Machine Learning Studio (classique)Azure Machine Learning Studio (classic) linked service

Vous créez un service lié Azure Machine Learning Studio (classique) pour inscrire un point de terminaison de notation par lot Machine Learning Studio (classique) pour une fabrique de données.You create an Azure Machine Learning Studio (classic) linked service to register a Machine Learning Studio (classic) batch scoring endpoint to a data factory.

ExempleExample

{
    "name": "AzureMLLinkedService",
    "properties": {
      "type": "AzureML",
      "typeProperties": {
        "mlEndpoint": "https://[batch scoring endpoint]/jobs",
        "apiKey": {
            "type": "SecureString",
            "value": "access key"
        }
     },
     "connectVia": {
        "referenceName": "<name of Integration Runtime>",
        "type": "IntegrationRuntimeReference"
      }
    }
}

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
TypeType La propriété de type doit être définie sur : AzureML.The type property should be set to: AzureML. OuiYes
mlEndpointmlEndpoint L'URL de la notation par lot.The batch scoring URL. OuiYes
apiKeyapiKey L'API du modèle d'espace de travail publié.The published workspace model’s API. OuiYes
updateResourceEndpointupdateResourceEndpoint URL des ressources de mise à jour pour un point de terminaison du service web Azure Machine Learning Studio (classique) utilisé pour mettre à jour le service web prédictif avec le fichier de modèle entraînéThe Update Resource URL for an Azure Machine Learning Studio (classic) Web Service endpoint used to update the predictive Web Service with trained model file NonNo
servicePrincipalIdservicePrincipalId Spécifiez l’ID client de l’application.Specify the application's client ID. Obligatoire si updateResourceEndpoint est spécifiéRequired if updateResourceEndpoint is specified
servicePrincipalKeyservicePrincipalKey Spécifiez la clé de l’application.Specify the application's key. Obligatoire si updateResourceEndpoint est spécifiéRequired if updateResourceEndpoint is specified
tenanttenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application.Specify the tenant information (domain name or tenant ID) under which your application resides. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.You can retrieve it by hovering the mouse in the upper-right corner of the Azure portal. Obligatoire si updateResourceEndpoint est spécifiéRequired if updateResourceEndpoint is specified
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié.The Integration Runtime to be used to dispatch the activities to this linked service. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé.You can use Azure Integration Runtime or Self-hosted Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime. NonNo

Service lié Microsoft Azure Machine LearningAzure Machine Learning linked service

Vous créez un service lié Azure Machine Learning Service pour connecter un espace de travail Azure Machine Learning à une fabrique de données.You create an Azure Machine Learning linked service to connect an Azure Machine Learning workspace to a data factory.

Notes

Actuellement, seule l’authentification du principal du service est prise en charge pour le service lié Azure Machine Learning.Currently only service principal authentication is supported for the Azure Machine Learning linked service.

ExempleExample

{
    "name": "AzureMLServiceLinkedService",
    "properties": {
        "type": "AzureMLService",
        "typeProperties": {
            "subscriptionId": "subscriptionId",
            "resourceGroupName": "resourceGroupName",
            "mlWorkspaceName": "mlWorkspaceName",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime?",
            "type": "IntegrationRuntimeReference"
        }
    }
}

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
TypeType La propriété de type doit être définie sur : AzureMLService.The type property should be set to: AzureMLService. OuiYes
subscriptionIdsubscriptionId ID d’abonnement AzureAzure subscription ID OuiYes
resourceGroupNameresourceGroupName namename OuiYes
mlWorkspaceNamemlWorkspaceName Nom d’espace de travail Azure Machine LearningAzure Machine Learning workspace name OuiYes
servicePrincipalIdservicePrincipalId Spécifiez l’ID client de l’application.Specify the application's client ID. NonNo
servicePrincipalKeyservicePrincipalKey Spécifiez la clé de l’application.Specify the application's key. NonNo
tenanttenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application.Specify the tenant information (domain name or tenant ID) under which your application resides. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.You can retrieve it by hovering the mouse in the upper-right corner of the Azure portal. Obligatoire si updateResourceEndpoint est spécifiéRequired if updateResourceEndpoint is specified NonNo
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié.The Integration Runtime to be used to dispatch the activities to this linked service. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé.You can use Azure Integration Runtime or Self-hosted Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime. NonNo

Service lié Azure Data Lake AnalyticsAzure Data Lake Analytics linked service

Vous créez un service lié Analytique Azure Data Lake pour lier un service de calcul Analytique Azure Data Lake Analytics à une fabrique de données Azure.You create an Azure Data Lake Analytics linked service to link an Azure Data Lake Analytics compute service to an Azure data factory. L’activité U-SQL Analytique Data Lake dans le pipeline fait référence à ce service lié.The Data Lake Analytics U-SQL activity in the pipeline refers to this linked service.

ExempleExample

{
    "name": "AzureDataLakeAnalyticsLinkedService",
    "properties": {
        "type": "AzureDataLakeAnalytics",
        "typeProperties": {
            "accountName": "adftestaccount",
            "dataLakeAnalyticsUri": "azuredatalakeanalytics URI",
            "servicePrincipalId": "service principal id",
            "servicePrincipalKey": {
                "value": "service principal key",
                "type": "SecureString"
            },
            "tenant": "tenant ID",
            "subscriptionId": "<optional, subscription ID of ADLA>",
            "resourceGroupName": "<optional, resource group name of ADLA>"
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
typetype La propriété de type doit être définie sur : AzureDataLakeAnalytics.The type property should be set to: AzureDataLakeAnalytics. OuiYes
accountNameaccountName Nom du compte du service Analytique Azure Data Lake.Azure Data Lake Analytics Account Name. OuiYes
dataLakeAnalyticsUridataLakeAnalyticsUri URI du service Analytique Azure Data Lake.Azure Data Lake Analytics URI. NonNo
subscriptionIdsubscriptionId ID d’abonnement AzureAzure subscription ID NonNo
resourceGroupNameresourceGroupName Nom du groupe de ressources AzureAzure resource group name NonNo
servicePrincipalIdservicePrincipalId Spécifiez l’ID client de l’application.Specify the application's client ID. OuiYes
servicePrincipalKeyservicePrincipalKey Spécifiez la clé de l’application.Specify the application's key. OuiYes
tenanttenant Spécifiez les informations de locataire (nom de domaine ou ID de locataire) dans lesquels se trouve votre application.Specify the tenant information (domain name or tenant ID) under which your application resides. Vous pouvez le récupérer en pointant la souris dans le coin supérieur droit du portail Azure.You can retrieve it by hovering the mouse in the upper-right corner of the Azure portal. OuiYes
connectViaconnectVia Runtime d’intégration à utiliser pour répartir les activités à ce service lié.The Integration Runtime to be used to dispatch the activities to this linked service. Vous pouvez utiliser un runtime d’intégration Azure ou un runtime d’intégration auto-hébergé.You can use Azure Integration Runtime or Self-hosted Integration Runtime. À défaut de spécification, le runtime d’intégration Azure par défaut est utilisé.If not specified, it uses the default Azure Integration Runtime. NonNo

Service Azure Databricks liéAzure Databricks linked service

Vous pouvez créer un service lié Azure Databricks pour inscrire l’espace de travail Databricks que vous utilisez pour exécuter les charges de travail Databricks (notebook, Jar, Python).You can create Azure Databricks linked service to register Databricks workspace that you use to run the Databricks workloads(notebook, jar, python).

Important

Les services liés Databricks prennent en charge les pools d’instances et l’authentification d’identité managée attribuée par le système.Databricks linked services supports Instance pools & System-assigned managed identity authentication.

Exemple : utilisation d’un nouveau cluster de travail dans DatabricksExample - Using new job cluster in Databricks

{
    "name": "AzureDatabricks_LS",
    "properties": {
        "type": "AzureDatabricks",
        "typeProperties": {
            "domain": "https://eastus.azuredatabricks.net",
            "newClusterNodeType": "Standard_D3_v2",
            "newClusterNumOfWorker": "1:10",
            "newClusterVersion": "4.0.x-scala2.11",
            "accessToken": {
                "type": "SecureString",
                "value": "dapif33c9c721144c3a790b35000b57f7124f"
            }
        }
    }
}

Exemple : utilisation d’un cluster interactif existant dans DatabricksExample - Using existing Interactive cluster in Databricks

{
    "name": " AzureDataBricksLinedService",
    "properties": {
      "type": " AzureDatabricks",
      "typeProperties": {
        "domain": "https://westeurope.azuredatabricks.net",
        "accessToken": {
            "type": "SecureString", 
            "value": "dapif33c9c72344c3a790b35000b57f7124f"
          },
        "existingClusterId": "{clusterId}"
        }
}

PropriétésProperties

PropriétéProperty DescriptionDescription ObligatoireRequired
namename Nom du service liéName of the Linked Service OuiYes
typetype La propriété de type doit être définie sur : Azure Databricks.The type property should be set to: Azure Databricks. OuiYes
domainedomain Spécifiez la région Azure en fonction de la région de l’espace de travail Databricks.Specify the Azure Region accordingly based on the region of the Databricks workspace. Exemple : https://eastus.azuredatabricks.netExample: https://eastus.azuredatabricks.net OuiYes
accessTokenaccessToken Un jeton d’accès est requis pour que la fabrique de données s’authentifie auprès d’Azure Databricks.Access token is required for Data Factory to authenticate to Azure Databricks. Un jeton d’accès doit être généré à partir de l’espace de travail Databricks.Access token needs to be generated from the databricks workspace. Des étapes plus détaillées pour rechercher le jeton d’accès sont disponibles iciMore detailed steps to find the access token can be found here NonNo
MSIMSI Utilisez l’identité managée de Data Factory (attribuée par le système) pour vous authentifier auprès d’Azure Databricks.Use Data Factory's managed identity (system-assigned) to authenticate to Azure Databricks. Vous n’avez pas besoin d’un jeton d’accès quand vous utilisez l’authentification « MSI »You do not need Access Token when using 'MSI' authentication NonNo
existingClusterIdexistingClusterId ID de cluster d’un cluster existant pour exécuter tous les travaux dessus.Cluster ID of an existing cluster to run all jobs on this. Il doit s’agit d’un cluster interactif déjà créé.This should be an already created Interactive Cluster. Vous devrez peut-être redémarrer manuellement le cluster s’il ne répond pas.You may need to manually restart the cluster if it stops responding. Databricks suggère d’exécuter des travaux sur les nouveaux clusters pour une plus grande fiabilité.Databricks suggest running jobs on new clusters for greater reliability. Vous pouvez trouver l’ID de cluster d’un cluster interactif sur l’espace de travail Databricks -> Clusters -> Nom du cluster interactif -> Configuration -> Balises.You can find the Cluster ID of an Interactive Cluster on Databricks workspace -> Clusters -> Interactive Cluster Name -> Configuration -> Tags. En savoir plusMore details NonNo
instancePoolIdinstancePoolId ID d’un pool d’instances existant dans l’espace de travail Databricks.Instance Pool ID of an existing pool in databricks workspace. NonNo
newClusterVersionnewClusterVersion La version Spark du cluster.The Spark version of the cluster. Cela crée un cluster de travail dans Databricks.It creates a job cluster in databricks. NonNo
newClusterNumOfWorkernewClusterNumOfWorker Nombre de nœuds de travail que ce cluster doit avoir.Number of worker nodes that this cluster should have. Un cluster dispose d’un pilote de Spark et num_workers exécuteurs pour un total de num_workers + 1 nœuds Spark.A cluster has one Spark Driver and num_workers Executors for a total of num_workers + 1 Spark nodes. Une chaîne au format Int32, telle que « 1 » signifie que numOfWorker est égal à 1 ou « 1:10 » signifie que la mise à l’échelle automatique à partir de 1 comme minimum et 10 comme maximum.A string formatted Int32, like “1” means numOfWorker is 1 or “1:10” means autoscale from 1 as min and 10 as max. NonNo
newClusterNodeTypenewClusterNodeType Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster.This field encodes, through a single value, the resources available to each of the Spark nodes in this cluster. Par exemple, les nœuds Spark peuvent être configurés et optimisés pour des charges de travail gourmandes en mémoire ou en calcul.For example, the Spark nodes can be provisioned and optimized for memory or compute intensive workloads. Ce champ est obligatoire pour les nouveaux clustersThis field is required for new cluster NonNo
newClusterSparkConfnewClusterSparkConf un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives.a set of optional, user-specified Spark configuration key-value pairs. Les utilisateurs peuvent également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement via spark.driver.extraJavaOptions et spark.executor.extraJavaOptions.Users can also pass in a string of extra JVM options to the driver and the executors via spark.driver.extraJavaOptions and spark.executor.extraJavaOptions respectively. NonNo
newClusterInitScriptsnewClusterInitScripts un ensemble de scripts d’initialisation facultatifs définis par l’utilisateur pour le nouveau cluster.a set of optional, user-defined initialization scripts for the new cluster. Spécification du chemin d'accès DBFS aux scripts init.Specifying the DBFS path to the init scripts. NonNo

Service lié Azure SQL DatabaseAzure SQL Database linked service

Créez un service lié Azure SQL et utilisez-le avec l’ activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline Data Factory.You create an Azure SQL linked service and use it with the Stored Procedure Activity to invoke a stored procedure from a Data Factory pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur SQL Azure .See Azure SQL Connector article for details about this linked service.

Service lié Azure Synapse AnalyticsAzure Synapse Analytics linked service

Vous créez un service lié Azure Synapse Analytics et l’utiliser avec l’activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline Data Factory.You create an Azure Synapse Analytics linked service and use it with the Stored Procedure Activity to invoke a stored procedure from a Data Factory pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur Azure Synapse Analytics.See Azure Synapse Analytics Connector article for details about this linked service.

Service lié SQL ServerSQL Server linked service

Créez un service lié à SQL Server et utilisez-le avec l’ activité de procédure stockée pour appeler une procédure stockée à partir d’un pipeline Data Factory.You create a SQL Server linked service and use it with the Stored Procedure Activity to invoke a stored procedure from a Data Factory pipeline. Pour plus d’informations sur ce service lié, consultez la page Connecteur SQL Server .See SQL Server connector article for details about this linked service.

Service lié de fonction AzureAzure Function linked service

Vous créez un service lié Azure Function et l’utilisez avec l’activité Azure Function pour exécuter Azure Functions dans un pipeline Data Factory.You create an Azure Function linked service and use it with the Azure Function activity to run Azure Functions in a Data Factory pipeline. Le type de retour de la fonction Azure doit être un JObject valideThe return type of the Azure function has to be a valid JObject. (n’oubliez pas que JArray est pas un JObject). Tout type de retour autre que JObject échoue et génère l’erreur utilisateur Le contenu de la réponse n’est pas un JObject valide.(Keep in mind that JArray is not a JObject.) Any return type other than JObject fails and raises the user error Response Content is not a valid JObject.

PropriétéProperty DescriptionDescription ObligatoireRequired
typetype La propriété type doit être définie sur : AzureFunctionThe type property must be set to: AzureFunction Ouiyes
URL de l’application de fonctionfunction app url URL de l’application de fonction Azure.URL for the Azure Function App. Son format est https://<accountname>.azurewebsites.net.Format is https://<accountname>.azurewebsites.net. Cette URL correspond à la valeur indiquée dans la section URL quand vous affichez votre application de fonction dans le portail Azure.This URL is the value under URL section when viewing your Function App in the Azure portal Ouiyes
clé de fonctionfunction key Clé d’accès de la fonction Azure.Access key for the Azure Function. Cliquez sur la section Gérer de la fonction correspondante, puis copiez la clé de fonction ou la clé d’hôte.Click on the Manage section for the respective function, and copy either the Function Key or the Host key. Découvrez-en plus ici : Déclencheurs et liaisons HTTP Azure FunctionsFind out more here: Azure Functions HTTP triggers and bindings Ouiyes

Étapes suivantesNext steps

Pour obtenir la liste des activités de transformation prises en charge par Azure Data Factory, voir Transformer des données.For a list of the transformation activities supported by Azure Data Factory, see Transform data.