Conjuntos de datos de Azure Databricks

Azure Databricks incluye una variedad de conjuntos de datos montados en el sistema de archivos de Databricks (DBFS). Estos conjuntos de datos se usan en ejemplos en toda la documentación.

Para examinar estos archivos en Data Science & Engineering o Databricks Machine Learning mediante Python, R o Scala, puede usar Utilidades de Databricks. Este es un ejemplo de Python que puede usar en un cuaderno para enumerar todos los conjuntos de datos de Databricks.

display(dbutils.fs.ls("/databricks-datasets"))

Para obtener más información sobre cualquier conjunto de datos, puede usar una API de archivo local para imprimir el conjunto de datos README .

f = open("/dbfs/databricks-datasets/README.md", "r")
print(f.read())

Aquí se muestra cómo crear una tabla a partir de un conjunto de datos de Databricks en un cuaderno de Data Science & Engineering SQL o en el editor de consultas de Databricks SQL:

CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')