サンプルデータセット

[アーティクル]
03/01/2024

Azure Databricks ワークスペースで使用できるさまざまなデータセットが、Azure Databricks およびサードパーティによって提供されています。

Unity Catalog データセット

Unity Catalog では、samples カタログ内の多数のサンプルデータセットにアクセスできます。これらのデータセットは、Catalog Explorer の UI で確認し、ノートブックまたは SQL エディターで、<catalog-name>.<schema-name>.<table-name> パターンを使用して直接参照できます。

nyctaxi スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips が含まれています。次のステートメントを使用すると、このテーブルの最初の 10 個のレコードが返されます。

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch スキーマには、TPC-H ベンチマークのデータが含まれています。このスキーマのテーブルを一覧表示するには、次を実行します。

SHOW TABLES IN samples.tpch

Databricks データセット (databricks-datasets)

Azure Databricks には、DBFS にマウントされたさまざまなサンプルデータセットが含まれています。

注意

Databricks データセットの可用性と場所は、予告なく変更される場合があります。

Databricks のデータセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、Databricks ユーティリティ (dbutils) リファレンスを使用できます。次のコードを使用すると、使用可能なすべての Databricks データセットが一覧表示されます。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Databricks データセットに関する情報を取得する

データセットに関する詳細情報を取得するには、次のコード例に示すように、ローカルファイル API を使用して、Python、R、または Scala ノートブックを使用し、データセット README を出力します (使用可能な場合)。

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks データセットに基づいてテーブルを作成する

このコード例では、SQL エディターで SQL を使用する方法、または SQL、Python、Scala、または R ノートブックを使用して Databricks データセットに基づいてテーブルを作成する方法を示します。

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV 形式のサードパーティのサンプルデータセット

Azure Databricks には、サードパーティのサンプルデータセットをコンマ区切り値 (CSV) ファイルとして Azure Databricks ワークスペースにすばやくアップロードするためのツールが組み込まれています。 CSV 形式で利用できる一般的なサードパーティ製サンプルデータセットの一部:

サンプルデータセット	サンプルデータセットを CSV ファイルとしてダウンロードするには…
リスの国勢調査	[データ] Web ページで、[データのパーク] をクリックします。リスデータ、またはストーリー。
OWID データセットコレクション	GitHub リポジトリで、データセットフォルダーをクリックします。ターゲットデータセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。
CSV データセットの Data.gov	検索結果 Web ページで、対象の検索結果をクリックし、CSV アイコンの横にある [ダウンロード] をクリックします。
ダイヤモンド (Kaggle アカウントが必要)	データセットの Web ページの [データ] タブで、 [データ] タブの [diamonds.csv] の横にある [ダウンロード] アイコンをクリックします。
NYC タクシー乗車時間 (Kaggle アカウントが必要)	データセットの Web ページで、[データ] タブの [sample_submission.zip] の横にあるダウンロードアイコンをクリックします。データセットの CSV ファイルを検索するには、ダウンロードした ZIP ファイルの内容を抽出します。
UFO サイト (data.world アカウントが必要)	データセットの Web ページで、 nuforc_reports.csv の横にある、[ダウンロード] アイコンをクリックします。

Azure Databricks ワークスペースでサードパーティのサンプルデータセットを使用するには、次の操作を行います。

サードパーティの指示に従って、データセットを CSV ファイルとしてローカルコンピューターにダウンロードします。
ローカルコンピューターから Azure Databricks ワークスペースに CSV ファイルをアップロードします。
インポートされたデータを操作するには、Databricks SQL を使用してデータを照会します。または、ノートブックを使用してデータを DataFrame として読み込むことができます。

ライブラリ内のサードパーティのサンプルデータセット

一部のサードパーティには、Python パッケージインデックス (PyPI) パッケージや包括的な R アーカイブネットワーク (CRAN) パッケージなど、ライブラリ内のサンプルデータセットが含まれています。詳細については、ライブラリプロバイダーのドキュメントを参照してください。

クラスターユーザーインターフェイスを使用して Azure Databricks クラスターにライブラリをインストールするには、「クラスターライブラリ」を参照してください。
Azure Databricks ノートブックを使用して Python ライブラリをインストールするには、「ノートブックスコープの Python ライブラリ」を参照してください。
Azure Databricks ノートブックを使用して R ライブラリをインストールするには、「ノートブックスコープの R ライブラリ」を参照してください。

サンプル データセット

Unity Catalog データセット

Databricks データセット (databricks-datasets)

Databricks のデータセットを参照する

Python

Scala

R

Databricks データセットに関する情報を取得する

Python

Scala

R

Databricks データセットに基づいてテーブルを作成する

SQL

Python

Scala

R

CSV 形式のサード パーティのサンプル データセット

ライブラリ内のサードパーティのサンプル データセット

その他のリソース

サンプルデータセット

CSV 形式のサードパーティのサンプルデータセット

ライブラリ内のサードパーティのサンプルデータセット