Orígenes de datos
En esta sección se describen los orígenes de datos de Apache Spark que se pueden usar en Azure Databricks. Muchos incluyen un cuaderno que muestra cómo utilizar el origen de datos para leer y escribir datos.
Los siguientes orígenes de datos se admiten directamente en Databricks Runtime o requieren comandos de la shell sencillos para habilitar el acceso:
- Archivo Avro
- Archivo binario
- Archivo CSV
- Tabla de Hive
- Imagen
- Archivo JSON
- Archivo comprimido LZO
- Experimento de MLflow
- Archivo Parquet
- Archivo XML
- Archivos ZIP
Para más información sobre los orígenes de datos de Apache Spark, consulte los artículos sobre funciones genéricas de carga/guardado y opciones genéricas de origen de archivo.
Los siguientes orígenes de datos de almacenamiento requieren que se configure la conexión al almacenamiento. Algunos también requieren que se cree una biblioteca de Azure Databricks y que se instale en un clúster:
- Almacenamiento de blobs de Azure
- Azure Data Lake Storage Gen1
- Azure Data Lake Storage Gen2
- Azure Cosmos DB
- Azure Synapse Analytics
- Cassandra
- Couchbase
- ElasticSearch
- MongoDB
- Neo4j
- Redis
- Serie temporal de Riak
- Snowflake
- Bases de datos SQL mediante JDBC
- Bases de datos SQL mediante el conector de Apache Spark