Qu’est-ce que la CLI Databricks ?

Remarque

Ces informations s'appliquent aux versions Databricks CLI 0,205 et supérieures, qui sont en version préliminaire publique. Pour trouver votre version de l’interface CLI Databricks, exécutez databricks -v.

L'interface de ligne de commande Databricks (également connue sous le nom de CLI Databricks) fournit un outil permettant d'automatiser la plateforme Azure Databricks à partir de votre terminal, d'une invite de commande ou de scripts d'automatisation.

Informations destinées aux anciens utilisateurs de la CLI Databricks

  • Databricks ne prévoit aucune prise en charge ni aucune nouvelle fonctionnalité pour l’ancienne CLI Databricks.
  • Pour plus d’informations sur l’ancienne CLI Databricks, consultez Databricks CLI (hérité).
  • Pour migrer de l’interface CLI Databricks version 0.18 ou antérieure vers l’interface CLI Databricks version 0.205 ou ultérieure, consultez Migration de l’interface CLI Databricks.

Comment fonctionne la CLI Databricks ?

La CLI encapsule l’API REST Databricks, une interface de programmation d’application (API) qui utilise une perspective REST pour automatiser les ressources et données du compte Azure Databricks et de l’espace de travail. Consultez la référence de l’API REST Azure Databricks.

Par exemple, pour imprimer des informations sur un cluster individuel dans un espace de travail, vous exécutez la CLI comme suit :

databricks clusters get 1234-567890-a12bcde3

Avec curl, l'opération équivalente est plus longue à exprimer et est plus sujette aux erreurs de frappe, comme suit :

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Exemple : créer une tâche Azure Databricks

L’exemple suivant utilise l’interface CLI pour créer une tâche Azure Databricks. Ce travail contient une seule tâche. Cette tâche exécute le notebook Azure Databricks spécifié. Ce notebook dépend d'une version spécifique du package PyPI nommée wheel. Pour exécuter cette tâche, la tâche crée temporairement un cluster de tâches qui exporte une variable d'environnement nommée PYSPARK_PYTHON. Une fois le travail exécuté, le cluster est arrêté.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Étapes suivantes