範例資料集

Azure Databricks 提供的各種範例數據集,並可供第三方使用,您可以在 Azure Databricks 工作區中使用。

Unity 目錄數據集

Unity 目錄 可讓您存取目錄中的一些範例數據集 samples 。 您可以在目錄總管 UI 中檢閱這些數據集,並使用 模式直接在筆記本或 SQL 編輯器<catalog-name>.<schema-name>.<table-name>參考這些數據集。

架構 nyctaxi (也稱為資料庫)包含數據表 trips,其中包含紐約市計程車車程的詳細數據。 下列語句會傳回此資料表中的前 10 筆記錄:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

架構tpch包含來自 TPC-H 基準檢驗的數據。 若要列出此架構中的數據表,請執行:

SHOW TABLES IN samples.tpch

Databricks 數據集 (databricks-datasets)

Azure Databricks 包含掛接至 DBFS 的各種範例數據集。

注意

Databricks 數據集的可用性和位置可能會變更,而不需通知。

流覽 Databricks 數據集

若要從 Python、Scala 或 R 筆記本瀏覽這些檔案,您可以使用 Databricks 公用程式 (dbutils) 參考。 下列程式代碼會列出所有可用的 Databricks 數據集。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

取得 Databricks 數據集的相關信息

若要取得 Databricks 數據集的詳細資訊,您可以使用本機檔案 API,使用 Python、R 或 Scala 筆記本來列印出數據集README(如果有的話),如此程式代碼範例所示。

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

根據 Databricks 數據集建立數據表

此程式代碼範例示範如何在 SQL 編輯器中使用 SQL,或如何使用 SQL、Python、Scala 或 R 筆記本,根據 Databricks 數據集建立數據表:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

CSV 格式的第三方範例數據集

Azure Databricks 有內建工具,可將第三方範例數據集快速上傳為逗號分隔值 (CSV) 檔案至 Azure Databricks 工作區。 CSV 格式提供的一些熱門第三方範例數據集:

範例資料集 若要將範例數據集下載為 CSV 檔案...
松鼠人口普查 在 [數據] 網頁上,按兩下 [駐留數據]
松鼠數據劇本
OWID 數據集集合 在 GitHub 存放庫中,按兩下 資料資料資料夾 。 按兩下包含目標資料集的子資料夾,然後按兩下資料集的 CSV 檔案。
Data.gov CSV 數據集 在搜尋結果網頁上,按兩下目標搜尋結果,然後在 CSV 圖示旁,按兩下 [下載]。
鑽石 (需要 卡格爾 帳戶) 在數據集的網頁上,在 [數據] 索引標籤的 [數據] 索引標籤上,按兩下 [diamonds.csv] 旁[下載] 圖示。
NYC 計程車車程持續時間 (需要 Kaggle 帳戶) 在數據集的網頁上,按兩下 [資料] 索引標籤上的 [sample_submission.zip] 旁的
下載 圖示。 若要尋找數據集的 CSV 檔案,請擷取所下載 ZIP 檔案的內容。
UFO 目擊 (需要 data.world 帳戶) 在數據集的網頁上,位於 [數據集] 的旁邊
nuforc_reports.csv,按兩下 [下載] 圖示。

若要在 Azure Databricks 工作區中使用第三方範例數據集,請執行下列動作:

  1. 依照第三方指示,將數據集下載為 CSV 檔案至本機計算機。
  2. 將 CSV 檔案 從本機電腦上傳至 Azure Databricks 工作區。
  3. 若要使用匯入的數據,請使用 Databricks SQL 來 查詢數據。 或者, 您可以使用筆記本 將數據 載入為 DataFrame

連結庫內的第三方範例數據集

某些第三方在連結庫中包含範例數據集,例如 Python 套件索引 (PyPI) 套件或完整的 R 封存網路 (CRAN) 套件。 如需詳細資訊,請參閱連結庫提供者的檔。