Azure Databricks 데이터 세트

Azure Databricks에는 DBFS(Databricks 파일 시스템)에 탑재된 다양한 데이터 세트가 포함되어 있습니다. 이러한 데이터 세트는 설명서 전체의 예제에서 사용됩니다.

Databricks 데이터 세트 찾아보기

Python, Scala 또는 R을 사용하여 Notebook에서 데이터 과학 & 엔지니어링 또는 Databricks Machine Learning 내 이러한 파일을 찾아보려면 Databricks 유틸리티를 사용할 수 있습니다. 이 예제의 코드는 사용 가능한 모든 Databricks 데이터 세트를 나열합니다.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Databricks 데이터 세트에 대한 정보 가져오기

데이터 세트에 대한 자세한 정보를 얻으려면 이 코드 예제와 같이 데이터 과학 & 엔지니어링 또는 Databricks Machine Learning 내 Notebook에서 Python, R 또는 Scala를 사용하여 로컬 파일 API를 사용하여 데이터 세트 README을 인쇄할 수 있습니다(사용 가능한 경우).

Python

f = open('/dbfs/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/dbfs/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/dbfs/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Databricks 데이터 세트를 기반으로 테이블 만들기

이 코드 예제에서는 Databricks SQL 쿼리 편집기에서 SQL 사용하는 방법 또는 데이터 과학 & 엔지니어링 또는 Databricks Machine Learning 내 Notebook에서 Python, Scala 또는 R을 사용하여 Databricks 데이터 세트를 기반으로 테이블을 만드는 방법을 보여 줍니다.

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")