サンプル データセット

Azure Databricks ワークスペースで使用できるさまざまなデータセットが、Azure Databricks およびサード パーティによって提供されています。

Unity Catalog データセット

Unity Catalog では、samples カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、Catalog Explorer の UI で確認し、ノートブック または SQL エディター で、<catalog-name>.<schema-name>.<table-name> パターンを使用して直接参照できます。

nyctaxi スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips が含まれています。 次のステートメントを使用すると、このテーブルの最初の 10 個のレコードが返されます。

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch スキーマには、TPC-H ベンチマークのデータが含まれています。 このスキーマのテーブルを一覧表示するには、次を実行します。

SHOW TABLES IN samples.tpch

Databricks データセット (databricks-datasets)

Azure Databricks には、DBFS にマウントされたさまざまなサンプル データセットが含まれています。

注意

Databricks データセットの可用性と場所は、予告なく変更される場合があります。

Databricks のデータセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードを使用すると、使用可能なすべての Databricks データセットが一覧表示されます。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Databricks データセットに関する情報を取得する

データセットに関する詳細情報を取得するには、次のコード例に示すように、ローカル ファイル API を使用して、Python、R、または Scala ノートブックを使用し、データセット README を出力します (使用可能な場合)。

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks データセットに基づいてテーブルを作成する

このコード例では、SQL エディターで SQL を使用する方法、または SQL、Python、Scala、または R ノートブックを使用して Databricks データセットに基づいてテーブルを作成する方法を示します。

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV 形式のサード パーティのサンプル データセット

Azure Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Azure Databricks ワークスペースにすばやくアップロードするためのツールが組み込まれています。 CSV 形式で利用できる一般的なサード パーティ製サンプル データセットの一部:

サンプル データセット サンプル データセットを CSV ファイルとしてダウンロードするには…
リスの国勢調査 [データ] Web ページで、[データのパーク] をクリックします。
リスデータ、または ストーリー
OWID データセット コレクション GitHub リポジトリで、データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。
CSV データセットの Data.gov 検索結果 Web ページで、対象の検索結果をクリックし、CSV アイコンの横にある [ダウンロード] をクリックします。
ダイヤモンド (Kaggle アカウントが必要) データセットの Web ページの [データ] タブで、 [データ] タブの [diamonds.csv] の横にある [ダウンロード] アイコンをクリックします。
NYC タクシー乗車時間 (Kaggle アカウントが必要) データセットの Web ページで、[データ] タブの [sample_submission.zip] の横にある
ダウンロード アイコンをクリックします。 データセットの CSV ファイルを検索するには、ダウンロードした ZIP ファイルの内容を抽出します。
UFO サイト (data.world アカウントが必要) データセットの Web ページで、
nuforc_reports.csv の横にある、[ダウンロード] アイコンをクリックします。

Azure Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。

  1. サード パーティの指示に従って、データセットを CSV ファイルとしてローカル コンピューターにダウンロードします。
  2. ローカル コンピューターから Azure Databricks ワークスペースに CSV ファイルをアップロードします。
  3. インポートされたデータを操作するには、Databricks SQL を使用してデータを照会します。 または、ノートブックを使用してデータを DataFrame として読み込むことができます

ライブラリ内のサードパーティのサンプル データセット

一部のサード パーティには、Python パッケージ インデックス (PyPI) パッケージや包括的な R アーカイブ ネットワーク (CRAN) パッケージなど、ライブラリ内のサンプル データセットが含まれています。 詳細については、ライブラリ プロバイダーのドキュメントを参照してください。