Conjuntos de datos de ejemplo
Hay una variedad de conjuntos de datos de ejemplo proporcionados por Azure Databricks y disponibles mediante terceros que puede usar en el área de trabajo de Azure Databricks.
Conjuntos de datos Unity Catalog
Unity Catalog proporciona acceso a varios conjuntos de datos de ejemplo en el catálogo samples
. Puede revisar estos conjuntos de datos en la UI de Catalog Explorer y hacer referencia a ellos directamente en un cuaderno o en el editor SQL mediante el patrón <catalog-name>.<schema-name>.<table-name>
.
El esquema nyctaxi
(también conocido como base de datos) contiene la tabla trips
, que tiene detalles sobre las carreras de taxi en la ciudad de Nueva York. La siguiente instrucción devuelve los primeros 10 registros de esta tabla:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
El esquema tpch
contiene datos del punto de referencia TPC-H. Para enumerar las tablas de este esquema, ejecute:
SHOW TABLES IN samples.tpch
Conjuntos de datos de Databricks (databricks-datasets)
Azure Databricks incluye varios conjuntos de datos de muestra montados en DBFS.
Nota:
La disponibilidad y la ubicación de los conjuntos de datos de Databricks están sujetas a cambios sin previo aviso.
Examen de conjuntos de datos de Databricks
Para examinar estos archivos desde un cuaderno de Python, Scala o R, puede usar la referencia de las Utilidades de Databricks (dbutils). En el código siguiente se enumeran todos los conjuntos de datos de Databricks disponibles.
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"
Obtención de información sobre conjuntos de datos de Databricks
Para más información sobre un conjunto de datos de Databricks, puede utilizar una API de archivo local para imprimir el conjunto de datos README
(si hay alguno disponible) mediante el uso de un cuaderno de Python, R o Scala, tal como se muestra en este ejemplo de código.
Python
f = open('/discover/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/discover/databricks-datasets/README.md").foreach {
print
}
R
library(readr)
f = read_lines("/discover/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Creación de una tabla basada en un conjunto de datos de Databricks
En este ejemplo de código se muestra cómo usar SQL en el editor de SQL o cómo usar cuadernos de SQL, Python, Scala o R para crear una tabla basada en un conjunto de datos de Databricks:
SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Conjuntos de datos de ejemplo de terceros en formato CSV
Azure Databricks tiene herramientas integradas para cargar rápidamente conjuntos de datos de ejemplo de terceros como archivos de valores separados por comas (CSV) en áreas de trabajo de Azure Databricks. Estos son algunos conjuntos de datos de ejemplo populares de terceros que están disponibles en formato CSV:
Conjunto de datos de ejemplo | Para descargar el conjunto de datos de ejemplo como un archivo .csv… |
---|---|
The Squirrel Census | En la página web Data (Datos), haga clic en Park Data (Datos de parque), Squirrel Data (Datos de ardilla) o Stories (Historias). |
OWID Dataset Collection | En el repositorio de GitHub, haga clic en la carpeta datasets. Haga clic en la subcarpeta que contiene el conjunto de datos de destino y, luego, haga clic en el archivo .csv del conjunto de datos. |
Conjuntos de datos CSV de Data.gov | En la página web de resultados de la búsqueda, haga clic en el resultado de la búsqueda de destino y, junto al icono CSV, haga clic en Download (Descargar). |
Diamonds (requiere una cuenta de Kaggle) | En la página web del conjunto de datos, en la pestaña Data (Datos), junto a diamonds.csv, haga clic en el icono de descarga. |
NYC Taxi Trip Duration (requiere una cuenta de Kaggle) | En la página web del conjunto de datos, en la pestaña Data (Datos), junto a sample_submission.zip, haga clic en el icono de descarga. Para encontrar los archivos .csv del conjunto de datos, extraiga el contenido del archivo ZIP descargado. |
UFO Sightings (requiere una cuenta de data.world) | En la página web del conjunto de datos, junto a nuforc_reports.csv, haga clic en el icono de descarga. |
Para usar conjuntos de datos de ejemplo de terceros en el área de trabajo de Azure Databricks, haga lo siguiente:
- Siga las instrucciones del tercero en cuestión para descargar el conjunto de datos como un archivo .csv en el equipo local.
- Cargue el archivo .csv desde el equipo local en el área de trabajo de Azure Databricks.
- Para trabajar con los datos importados, use Databricks SQL para consultar los datos. También puede usar un cuaderno para cargar los datos como un dataframe.
Conjuntos de datos de ejemplo de terceros dentro de bibliotecas
Algunos terceros incluyen conjuntos de datos de ejemplo dentro de bibliotecas, como paquetes del Índice de paquetes de Python (PyPI) o paquetes de la Red de archivo de R completo (CRAN). Para obtener más información, consulte la documentación del proveedor de bibliotecas.
- Para instalar una biblioteca en un clúster de Azure Databricks mediante la interfaz de usuario del clúster, consulte Bibliotecas de clústeres.
- Para instalar una biblioteca de Python mediante un cuaderno de Azure Databricks, consulte Bibliotecas de Python con ámbito de cuaderno.
- Para instalar una biblioteca de R mediante un cuaderno de Azure Databricks, consulte Bibliotecas de R con ámbito de cuaderno.