データの概要 Data overview

この記事では、UI を使用して Azure Databricks にデータをインポートする方法、Spark およびローカル Api を使用してインポートされたデータを読み取る方法、 Databricks File System (DBFS)コマンドを使用してインポートしたデータを変更する方法について説明します。This article describes how to import data into Azure Databricks using the UI, read imported data using the Spark and local APIs, and modify imported data using Databricks File System (DBFS) commands.

データのインポートImport data

Azure Databricks で分析するデータファイルのサイズがローカルコンピューター上にある場合は、UI を使用してDatabricks File System (DBFS)に簡単にインポートできます。If you have small data files on your local machine that you want to analyze with Azure Databricks, you can easily import them to Databricks File System (DBFS) using the UI:

  • ランディングページの [ Import & [データの探索] ボックスでファイルを削除するか、ファイルを参照します。Drop files into or browse to files in the Import & Explore Data box on the landing page:

    データのインポートと探索Import and explore data

  • Create TABLE UIでファイルをアップロードします。Upload the files in the Create table UI.

これらのメソッドのいずれかを使用して DBFS にインポートされたファイルは、 FileStoreに格納されます。Files imported to DBFS using one of these methods are stored in FileStore.

運用環境では、 DBFS CLIDBFS APIDatabricks ファイルシステムユーティリティ (dbutils)を使用して、ファイルを DBFS に明示的にアップロードすることをお勧めします。For production environments, we recommend that you explicitly upload files into DBFS using the DBFS CLI, DBFS API, Databricks file system utilities (dbutils.fs).

さまざまなデータソースを使用してデータにアクセスすることもできます。You can also use a wide variety of data sources to access data.

クラスター ノードで Spark API を使用してデータを読み取るRead data on cluster nodes using Spark APIs

Spark apiを使用して、DBFS にインポートされたデータを Apache Spark dataframes 読み取ります。You read data imported to DBFS into Apache Spark DataFrames using Spark APIs. たとえば、CSV ファイルをインポートする場合は、次の例のいずれかを使用してデータを読み取ることができます。For example, if you import a CSV file, you can read the data using one of these examples.

ヒント

簡単にアクセスできるように、テーブルを作成することをお勧めします。For easier access, we recommend that you create a table. 詳細については、「データベースとテーブル」を参照してください。See Databases and tables for more information.

PythonPython

sparkDF = spark.read.csv('/FileStore/tables/state_income-9f7c5.csv', header="true", inferSchema="true")

RR

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

ScalaScala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

クラスター ノードでローカル API を使用してデータを読み取るRead data on cluster nodes using local APIs

ローカルファイル apiを使用して、Spark ドライバーノードで実行されているプログラムで DBFS にインポートされたデータを読み取ることもできます。You can also read data imported to DBFS in programs running on the Spark driver node using local file APIs. 次に例を示します。For example:

PythonPython

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

RR

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

アップロードされたデータの変更Modify uploaded data

インポートされたデータを Azure Databricks 内で直接編集することはできませんが、 Spark apiDBFS CLIDBFS API、およびDatabricks ファイルシステムユーティリティ (dbutils)を使用してデータファイルを上書きすることはできます。You cannot edit imported data directly within Azure Databricks, but you can overwrite a data file using Spark APIs, the DBFS CLI, DBFS API, and Databricks file system utilities (dbutils.fs).

DBFS からデータを削除するには、同じ Api とツールを使用します。To delete data from DBFS, use the same APIs and tools. たとえば、 Databricks Utilitiesコマンドを使用でき dbutils.fs.rm ます。For example, you can use the Databricks Utilities command dbutils.fs.rm:

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv", true)

警告

削除されたデータを回復することはできません。Deleted data cannot be recovered.