Conjuntos de datos de ejemplo

Hay una variedad de conjuntos de datos de ejemplo proporcionados por Azure Databricks y disponibles mediante terceros que puede usar en el área de trabajo de Azure Databricks.

Conjuntos de datos Unity Catalog

Unity Catalog proporciona acceso a varios conjuntos de datos de ejemplo en el catálogo samples. Puede revisar estos conjuntos de datos en la UI de Catalog Explorer y hacer referencia a ellos directamente en un cuaderno o en el editor SQL mediante el patrón <catalog-name>.<schema-name>.<table-name>.

El esquema nyctaxi (también conocido como base de datos) contiene la tabla trips, que tiene detalles sobre las carreras de taxi en la ciudad de Nueva York. La siguiente instrucción devuelve los primeros 10 registros de esta tabla:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

El esquema tpch contiene datos del punto de referencia TPC-H. Para enumerar las tablas de este esquema, ejecute:

SHOW TABLES IN samples.tpch

Conjuntos de datos de Databricks (databricks-datasets)

Azure Databricks incluye varios conjuntos de datos de muestra montados en DBFS.

Nota:

La disponibilidad y la ubicación de los conjuntos de datos de Databricks están sujetas a cambios sin previo aviso.

Examen de conjuntos de datos de Databricks

Para examinar estos archivos desde un cuaderno de Python, Scala o R, puede usar la referencia de las Utilidades de Databricks (dbutils). En el código siguiente se enumeran todos los conjuntos de datos de Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Obtención de información sobre conjuntos de datos de Databricks

Para más información sobre un conjunto de datos de Databricks, puede utilizar una API de archivo local para imprimir el conjunto de datos README (si hay alguno disponible) mediante el uso de un cuaderno de Python, R o Scala, tal como se muestra en este ejemplo de código.

Python

f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())

Scala

scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
  print
}

R

library(readr)

f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Creación de una tabla basada en un conjunto de datos de Databricks

En este ejemplo de código se muestra cómo usar SQL en el editor de SQL o cómo usar cuadernos de SQL, Python, Scala o R para crear una tabla basada en un conjunto de datos de Databricks:

SQL

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')

Python

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Scala

spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

R

library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

Conjuntos de datos de ejemplo de terceros en formato CSV

Azure Databricks tiene herramientas integradas para cargar rápidamente conjuntos de datos de ejemplo de terceros como archivos de valores separados por comas (CSV) en áreas de trabajo de Azure Databricks. Estos son algunos conjuntos de datos de ejemplo populares de terceros que están disponibles en formato CSV:

Conjunto de datos de ejemplo Para descargar el conjunto de datos de ejemplo como un archivo .csv…
The Squirrel Census En la página web Data (Datos), haga clic en Park Data (Datos de parque),
Squirrel Data (Datos de ardilla) o Stories (Historias).
OWID Dataset Collection En el repositorio de GitHub, haga clic en la carpeta datasets. Haga clic en la subcarpeta que contiene el conjunto de datos de destino y, luego, haga clic en el archivo .csv del conjunto de datos.
Conjuntos de datos CSV de Data.gov En la página web de resultados de la búsqueda, haga clic en el resultado de la búsqueda de destino y, junto al icono CSV, haga clic en Download (Descargar).
Diamonds (requiere una cuenta de Kaggle) En la página web del conjunto de datos, en la pestaña Data (Datos), junto a diamonds.csv, haga clic en el icono de descarga.
NYC Taxi Trip Duration (requiere una cuenta de Kaggle) En la página web del conjunto de datos, en la pestaña Data (Datos), junto a sample_submission.zip, haga clic en el
icono de descarga. Para encontrar los archivos .csv del conjunto de datos, extraiga el contenido del archivo ZIP descargado.
UFO Sightings (requiere una cuenta de data.world) En la página web del conjunto de datos, junto a
nuforc_reports.csv, haga clic en el icono de descarga.

Para usar conjuntos de datos de ejemplo de terceros en el área de trabajo de Azure Databricks, haga lo siguiente:

  1. Siga las instrucciones del tercero en cuestión para descargar el conjunto de datos como un archivo .csv en el equipo local.
  2. Cargue el archivo .csv desde el equipo local en el área de trabajo de Azure Databricks.
  3. Para trabajar con los datos importados, use Databricks SQL para consultar los datos. También puede usar un cuaderno para cargar los datos como un dataframe.

Conjuntos de datos de ejemplo de terceros dentro de bibliotecas

Algunos terceros incluyen conjuntos de datos de ejemplo dentro de bibliotecas, como paquetes del Índice de paquetes de Python (PyPI) o paquetes de la Red de archivo de R completo (CRAN). Para obtener más información, consulte la documentación del proveedor de bibliotecas.