Python 開発者向けの Azure DatabricksAzure Databricks for Python developers

このセクションでは、Python 言語を使用して Azure Databricks でノートブックとジョブを開発するためのガイドを提供します。This section provides a guide to developing notebooks and jobs in Azure Databricks using the Python language.

Python APIPython APIs

PySpark APIPySpark API

PySpark は、Apache Spark 用の Python API です。PySpark is the Python API for Apache Spark. これらのリンクは、PySpark の概要とリファレンスを提供します。These links provide an introduction to and reference for PySpark.

パンダ API ((()pandas API (Koalas)

のお持ちのオープンソースプロジェクトは、 パンダの代わりとなるドロップインを提供します。Koalas is an open source project that provides a drop-in replacement for pandas. パンダは、データ科学者によって一般的に使用される Python パッケージです。pandas is a Python package commonly used by data scientists. しかし、パンダはビッグデータにスケールアウトしません。However, pandas does not scale out to big data. Apache Spark で動作する、パンダと同等の Api を提供することで、このギャップを埋めることができます。Koalas fills this gap by providing pandas equivalent APIs that work on Apache Spark.

視覚化Visualizations

Azure Databricks Python ノートブックは、関数を使用してさまざまな種類の視覚エフェクトをサポートして display います。Azure Databricks Python notebooks support various types of visualizations using the display function.

また、次のサードパーティライブラリを使用して、Azure Databricks Python notebook で視覚化を作成することもできます。You can also use the following third-party libraries to create visualizations in Azure Databricks Python notebooks.

相互運用性Interoperability

これらの記事では、PySpark とパンダ間の相互運用性をサポートする機能について説明します。These articles describe features that support interoperability between PySpark and pandas.

この記事では、Python と SQL の間の相互運用性をサポートする機能について説明します。This article describes features that support interoperability between Python and SQL.

ツールTools

Azure Databricks notebook に加えて、次の Python 開発者ツールを使用することもできます。In addition to Azure Databricks notebooks, you can use the following Python developer tools:

ライブラリLibraries

Databricks ランタイム には、多くの一般的なライブラリが含まれています。Databricks runtimes include many popular libraries. また、Databricks クラスターで実行されているノートブックやジョブで使用する追加のサードパーティ製またはカスタムの Python ライブラリをインストールすることもできます。You can also install additional third-party or custom Python libraries to use with notebooks and jobs running on Databricks clusters.

クラスターベースのライブラリCluster-based libraries

クラスターベースのライブラリは、クラスターで実行されているすべてのノートブックおよびジョブで使用できます。Cluster-based libraries are available to all notebooks and jobs running on the cluster. クラスターベースのライブラリのインストールの詳細については、「 Install a library on a cluster」を参照してください。For information about installing cluster-based libraries, see Install a library on a cluster.

ノートブック スコープのライブラリNotebook-scoped libraries

ノートブックスコープのライブラリは、インストールされているノートブックでのみ使用でき、セッションごとに再インストールする必要があります。Notebook-scoped libraries are available only to the notebook on which they are installed and must be reinstalled for each session.

  • Databricks 内に Python ライブラリをインストールするために使用できるさまざまなオプションの概要については、「 python 環境管理」を参照してください。For an overview of different options you can use to install Python libraries within Databricks, see Python environment management.
  • Databricks Runtime 6.4 ML 以降および Databricks Runtime 7.1 以降の notebook スコープライブラリの詳細については、「 notebook スコープの Python ライブラリ」を参照してください。For information about notebook-scoped libraries in Databricks Runtime 6.4 ML and above and Databricks Runtime 7.1 and above, see Notebook-scoped Python libraries.
  • Databricks Runtime 7.0 以下の notebook スコープライブラリの詳細については、「 ライブラリユーティリティ」を参照してください。For information about notebook-scoped libraries in Databricks Runtime 7.0 and below, see Library utilities.

機械学習Machine learning

Azure Databricks の機械学習に関する一般的な情報については、「 machine learning とディープラーニングガイド」を参照してください。For general information about machine learning on Azure Databricks, see Machine learning and deep learning guide.

Scikit-learn-get-help ライブラリを使用して machine learning の使用を開始するには、次の notebook を使用します。To get started with machine learning using the scikit-learn library, use the following notebook. データの読み込みと準備について説明します。モデルのトレーニング、チューニング、および推論およびモデルのデプロイと管理を Mlflowで行います。It covers data loading and preparation; model training, tuning, and inference; and model deployment and management with MLflow.

10分間のチュートリアル: scikit-learn を使用した Databricks での機械学習10-minute tutorial: machine learning on Databricks with scikit-learn

リソースResources