Apa itu Databricks CLI?

Catatan

Informasi ini berlaku untuk Databricks CLI versi 0.205 ke atas, yang ada di Pratinjau Umum. Untuk menemukan versi Databricks CLI Anda, jalankan databricks -v.

Antarmuka baris perintah Databricks (juga dikenal sebagai Databricks CLI) menyediakan alat untuk mengotomatiskan platform Azure Databricks dari terminal, prompt perintah, atau skrip otomatisasi Anda.

Informasi untuk pengguna CLI Databricks warisan

  • Databricks merencanakan tidak ada dukungan atau fitur baru yang berfungsi untuk CLI Databricks warisan.
  • Untuk informasi selengkapnya tentang CLI Databricks warisan, lihat Databricks CLI (warisan).
  • Untuk bermigrasi dari Databricks CLI versi 0.18 atau di bawahnya ke Databricks CLI versi 0.205 atau lebih tinggi, lihat migrasi CLI Databricks.

Bagaimana cara kerja Databricks CLI?

CLI membungkus Databricks REST API, antarmuka pemrograman aplikasi (API) yang menggunakan perspektif REST untuk mengotomatiskan akun Azure Databricks dan sumber daya dan data ruang kerja. Lihat referensi REST API Azure Databricks.

Misalnya, untuk mencetak informasi tentang kluster individual di ruang kerja, Anda menjalankan CLI sebagai berikut:

databricks clusters get 1234-567890-a12bcde3

Dengan curl, operasi yang setara lebih panjang untuk diekspresikan dan lebih rentan terhadap kesalahan pengetikan, sebagai berikut:

curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
     --header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
     --data '{ "cluster_id": "1234-567890-a12bcde3" }'

Contoh: membuat pekerjaan Azure Databricks

Contoh berikut menggunakan CLI untuk membuat pekerjaan Azure Databricks. Pekerjaan ini berisi satu tugas pekerjaan. Tugas ini menjalankan buku catatan Azure Databricks yang ditentukan. Notebook ini memiliki dependensi pada versi tertentu dari paket PyPI bernama wheel. Untuk menjalankan tugas ini, pekerjaan untuk sementara membuat kluster pekerjaan yang mengekspor variabel lingkungan bernama PYSPARK_PYTHON. Setelah pekerjaan berjalan, kluster dihentikan.

databricks jobs create --json '{
  "name": "My hello notebook job",
  "tasks": [
    {
      "task_key": "my_hello_notebook_task",
      "notebook_task": {
        "notebook_path": "/Workspace/Users/someone@example.com/hello",
        "source": "WORKSPACE"
      },
      "libraries": [
        {
          "pypi": {
            "package": "wheel==0.41.2"
          }
        }
      ],
      "new_cluster": {
        "spark_version": "13.3.x-scala2.12",
        "node_type_id": "Standard_DS3_v2",
        "num_workers": 1,
        "spark_env_vars": {
          "PYSPARK_PYTHON": "/databricks/python3/bin/python3"
        }
      }
    }
  ]
}'

Langkah berikutnya