Transferencia de datos a Azure y desde este
Existen varias opciones para transferir datos a Azure, y desde este, en función de las necesidades de cada uno.
Transferencia física
El uso de hardware físico para transferir datos a Azure es una opción recomendable cuando:
- La red funciona con lentitud o es poco confiable.
- El costo de obtener más ancho de banda de red es prohibitivo.
- Las directivas de seguridad o de la organización no permiten las conexiones salientes cuando se trabaja con información confidencial.
Si su principal preocupación es el tiempo que se va a tardar en transferir los datos, es posible que desee ejecutar una prueba para comprobar si la transferencia de red es realmente más lenta que el transporte físico.
Hay dos opciones principales para transportar físicamente los datos a Azure:
Azure Import/Export. El servicio Azure Import/Export permite transferir de forma segura grandes cantidades de datos a Azure Blob Storage o Azure Files mediante el envío de unidades de disco duro o SSD a un centro de datos de Azure. También puede usar este servicio para transferir datos Azure Storage desde tardar hasta las unidades de disco duro y enviarlas al sitio local.
Azure Data Box. Azure Data Box es un dispositivo proporcionado por Microsoft que funciona de forma muy parecida al servicio Azure Import/Export. Microsoft envía un dispositivo de transferencia propietario, seguro y resistente a manipulaciones, y controla la logística de un extremo a otro, pero el usuario puede hacer un seguimiento de ella desde el portal. Una ventaja del servicio Azure Data Box es lo fácil que es usarlo. No es preciso adquirir varios discos duros, prepararlos y transferir archivos a todos y cada uno de ellos. Azure Data Box es compatible con varios asociados de Azure líderes de su sector, lo que facilita la tarea de transportar archivos sin conexión a la nube desde sus productos.
Herramientas de línea de comandos y API
Tenga en cuenta estas opciones cuando desee que la transferencia de datos se realice mediante programación y mediante scripts.
Azure CLI. La CLI de Azure es una herramienta multiplataforma que permite administrar los servicios de Azure y cargar datos en Azure Storage.
AzCopy. Use AzCopy desde una línea de comandos de Windows o Linux para copiar datos fácilmente tanto a Azure Blob, File y Table Storage como desde estos servicios con un rendimiento óptimo. AzCopy admite la simultaneidad y el paralelismo, y permite reanudar operaciones de copia cuando si se interrumpen. También puede usar AzCopy para copiar datos de AWS a Azure. Para acceder mediante programación, la Biblioteca de movimiento de datos de Microsoft Azure Storage es el marco principal que alimenta AzCopy. Se proporciona en forma de biblioteca de .NET Core.
PowerShell. El
Start-AzureStorageBlobCopycmdlet de PowerShell es una opción para los administradores de Windows acostumbrados a PowerShell.AdlCopy. AdlCopy permite copiar datos de Azure Storage Blobs a Data Lake Store. También se puede usar para copiar datos entre dos cuentas de Azure Data Lake Store. Sin embargo, no se puede utilizar para copiar datos de Data Lake Store a Storage Blob.
Distcp. Si tiene un clúster de HDInsight con acceso a Data Lake Store, puede usar herramientas del ecosistema de Hadoop, como Distcp, tanto para copiar datos a un almacenamiento de clúster de HDInsight (WASB) como para copiarlos desde este a una cuenta de Data Lake Store.
Sqoop. Sqoop es un proyecto de Apache que forma parte del ecosistema de Hadoop. Viene preinstalado en todos los clústeres de HDInsight. Permite la transferencia de datos entre un clúster de HDInsight y bases de datos relacionales, como SQL, Oracle, MySQL, etc. Sqoop es una colección de herramientas relacionadas, incluidas la importación y exportación. Sqoop funciona con clústeres de HDInsight mediante blobs de Azure Storage o almacenamiento adjunto de Data Lake Store.
PolyBase. PolyBase es una tecnología que accede a datos que están fuera de la base de datos a través del lenguaje de T-SQL. En SQL Server 2016, permite ejecutar consultas de datos externos en Hadoop o importar o exportar datos desde Azure Blob Storage. En Azure Synapse Analytics, puede importar y exportar datos tanto desde Azure Blob Storage como desde Azure Data Lake Store. Actualmente, PolyBase es el método más rápido de importación de datos en Azure Synapse.
Línea de comandos de Hadoop. Si tiene datos que residan en un nodo principal del clúster de HDInsight, puede usar el comando
hadoop -copyFromLocalpara copiarlos en el almacenamiento adjunto de su clúster, como Azure Storage Blob o Azure Data Lake Store. Para usar el comando de Hadoop, primero es preciso conectarse al nodo principal. Una vez conectado, puede cargar un archivo en el almacenamiento.
Interfaz gráfica
Si va a transferir solo unos pocos archivos u objetos de datos y no necesita automatizar el proceso, tenga en cuenta las siguientes opciones.
Explorador de Azure Storage. Explorador de Azure Storage es una herramienta multiplataforma que permite administrar el contenido de las cuentas de Azure Storage. Permite cargar, descargar y administrar blogs, archivos, colas, tablas y entidades de Azure Cosmos DB. Utilícelo con Blob Storage para administrar blobs y carpetas, así como para cargar y descargar blobs entre el sistema de archivos local y Blob Storage, o entre cuentas de almacenamiento.
Azure Portal. Tanto Blob Storage como Data Lake Store proporcionan una interfaz basada en web para explorar archivos y cargar nuevos archivos de uno en uno. Es una buena opción si no desea instalar herramientas ni generar comandos para explorar rápidamente los archivos, o simplemente cargar archivos nuevos.
Canalización de datos
Azure Data Factory. Azure Data Factory es un servicio administrado muy apropiado para transferir archivos con regularidad entre varios servicios de Azure, de forma local o una combinación de ambas posibilidades. Con Azure Data Factory puede crear y programar flujos de trabajo basados en datos (llamados canalizaciones) que ingieren datos de distintos almacenes de datos. Los datos se pueden procesar y transformar mediante servicios de proceso, como Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics y Azure Machine Learning. Cree flujos de trabajo controlados por datos para orquestar y automatizar tanto el movimiento de datos como la transformación de datos.
Principales criterios de selección
En los escenarios de transferencia de datos, elija el sistema que más se ajuste a sus necesidades, para lo que debe responder estas preguntas:
¿Necesita transferir grandes cantidades de datos y hacerlo a través de una conexión a Internet tardaría demasiado tiempo, sería poco confiables o demasiado caro? Si es así, considere la posibilidad de realizar transferencias físicas.
¿Prefiere realizar las tareas de transferencia de datos mediante scripts para que se puedan volver a utilizar? Si es así, seleccione una de las opciones de línea de comandos o Azure Data Factory.
¿Necesita transferir una gran cantidad de datos a través de una conexión de red? En ese caso, seleccione una opción que esté optimizada para macrodatos.
¿Necesita transferir datos a una base de datos relacional o desde ella? En caso afirmativo, elija una opción que admita una o varias bases de datos relacionales. Tenga en cuenta que algunas de estas opciones también requieren un clúster de Hadoop.
¿Necesita una canalización de datos o una orquestación de flujos de trabajo automatizadas? Si es así, considere la posibilidad de usar Azure Data Factory.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Transferencia física
| Capacidad | Servicio Azure Import/Export | Azure Data Box |
|---|---|---|
| Factor de forma | Unidades de disco duro o SSD SATA internas | Dispositivo de hardware individual seguro y a prueba de alteraciones |
| Microsoft administra la logística de envío | No | Sí |
| Se integra con productos de asociados | No | Sí |
| Dispositivo personalizado | No | Sí |
Herramientas de línea de comandos
Hadoop/HDInsight:
| Capacidad | Distcp | Sqoop | CLI de Hadoop |
|---|---|---|---|
| Optimizado para macrodatos | Sí | Sí | Sí |
| Copiar a base de datos relacional | No | Sí | No |
| Copiar de base de datos relacional | No | Sí | No |
| Copiar a Blob Storage | Sí | Sí | Sí |
| Copiar de Blob Storage | Sí | Sí | No |
| Copiar a Data Lake Store | Sí | Sí | Sí |
| Copiar de Data Lake Store | Sí | Sí | No |
Otros:
| Capacidad | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
|---|---|---|---|---|---|
| Plataformas compatibles | Linux, OS X y Windows | Linux y Windows | Windows | Linux, OS X y Windows | SQL Server, Azure Synapse |
| Optimizado para macrodatos | No | Sí | No | Sí 1 | Sí 2 |
| Copiar a base de datos relacional | No | No | No | No | Sí |
| Copiar de base de datos relacional | No | No | No | No | Sí |
| Copiar a Blob Storage | Sí | Sí | Sí | No | Sí |
| Copiar de Blob Storage | Sí | Sí | Sí | Sí | Sí |
| Copiar a Data Lake Store | No | Sí | Sí | Sí | Sí |
| Copiar de Data Lake Store | No | No | Sí | Sí | Sí |
[1] AdlCopy está optimizado para la transferencia de macrodatos cuando se utiliza con una cuenta de Data Lake Analytics.
[2] El rendimiento de PolyBase se puede aumentar mediante la inserción de cálculo en Hadoop y el uso de grupos de escalado horizontal de PolyBase para permitir la transferencia de datos paralela entre instancias de SQL Server y nodos de Hadoop.
Interfaz gráfica y Azure Data Factory
| Capacidad | Explorador de Azure Storage | Azure Portal* | Azure Data Factory |
|---|---|---|---|
| Optimizado para macrodatos | No | No | Sí |
| Copiar a base de datos relacional | No | No | Sí |
| Copiar de base de datos relacional | No | No | Sí |
| Copiar a Blob Storage | Sí | No | Sí |
| Copiar de Blob Storage | Sí | No | Sí |
| Copiar a Data Lake Store | No | No | Sí |
| Copiar de Data Lake Store | No | No | Sí |
| Cargar en Blob Storage | Sí | Sí | Sí |
| Cargar en Data Lake Store | Sí | Sí | Sí |
| Orquestar las transferencias de datos | No | No | Sí |
| Personalizar las transformaciones de datos | No | No | Sí |
| Modelo de precios | Gratuito | Gratuito | Pago por uso |
* En este caso, Azure Portal significa usar las herramientas de exploración basada en web para Blob Storage y Data Lake Store.