Conjuntos de datos de ejemplo

Artículo
03/01/2024

Hay una variedad de conjuntos de datos de ejemplo proporcionados por Azure Databricks y disponibles mediante terceros que puede usar en el área de trabajo de Azure Databricks.

Conjuntos de datos Unity Catalog

Unity Catalog proporciona acceso a varios conjuntos de datos de ejemplo en el catálogo samples. Puede revisar estos conjuntos de datos en la UI de Catalog Explorer y hacer referencia a ellos directamente en un cuaderno o en el editor SQL mediante el patrón <catalog-name>.<schema-name>.<table-name>.

El esquema nyctaxi (también conocido como base de datos) contiene la tabla trips, que tiene detalles sobre las carreras de taxi en la ciudad de Nueva York. La siguiente instrucción devuelve los primeros 10 registros de esta tabla:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

El esquema tpch contiene datos del punto de referencia TPC-H. Para enumerar las tablas de este esquema, ejecute:

SHOW TABLES IN samples.tpch

Conjuntos de datos de Databricks (databricks-datasets)

Azure Databricks incluye varios conjuntos de datos de muestra montados en DBFS.

Nota:

La disponibilidad y la ubicación de los conjuntos de datos de Databricks están sujetas a cambios sin previo aviso.

Examen de conjuntos de datos de Databricks

Para examinar estos archivos desde un cuaderno de Python, Scala o R, puede usar la referencia de las Utilidades de Databricks (dbutils). En el código siguiente se enumeran todos los conjuntos de datos de Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Obtención de información sobre conjuntos de datos de Databricks

Para más información sobre un conjunto de datos de Databricks, puede utilizar una API de archivo local para imprimir el conjunto de datos README (si hay alguno disponible) mediante el uso de un cuaderno de Python, R o Scala, tal como se muestra en este ejemplo de código.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Creación de una tabla basada en un conjunto de datos de Databricks

En este ejemplo de código se muestra cómo usar SQL en el editor de SQL o cómo usar cuadernos de SQL, Python, Scala o R para crear una tabla basada en un conjunto de datos de Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")