Descripción de los precios de Data Factory a través de ejemplos
SE APLICA A:
Azure Data Factory
Azure Synapse Analytics
En este artículo se explica y muestra el modelo de precios de Azure Data Factory con ejemplos detallados. También puede ver la Calculadora de precios de Azure para escenarios más específicos y para calcular los costos futuros de uso del servicio.
Nota
Los precios usados en los ejemplos siguientes son hipotéticos y no pretenden reflejar precios reales.
Copia de datos desde AWS S3 a Azure Blob Storage cada hora
En este escenario, va a copiar datos desde AWS S3 a Azure Blob Storage en una programación por hora.
Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:
Una actividad de copia con un conjunto de datos de entrada para los datos que se van a copiar desde AWS S3.
Un conjunto de datos de salida para los datos de Azure Storage.
Un desencadenador de programación para ejecutar la canalización cada hora.
| Operaciones | Tipos y unidades |
|---|---|
| Creación de un servicio vinculado | 2 entidades de lectura y escritura |
| Creación de conjuntos de datos | 4 entidades de lectura y escritura (2 para la creación del conjunto de datos y 2 para las referencias del servicio vinculado) |
| Creación de una canalización | 3 entidades de lectura y escritura (1 para la creación de la canalización y 2 para las referencias del conjunto de datos) |
| Obtención de la canalización | 1 entidad de lectura y escritura |
| Ejecución de la canalización | 2 ejecuciones de actividad (1 para la ejecución del desencadenador y 1 para ejecuciones de la actividad) |
| Asunción de la copia de datos: tiempo de ejecución = 10 min | 10 * 4 Azure Integration Runtime (el valor predeterminado de la unidad de integración de datos es 4). Para más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, consulte este artículo |
| Asunción de la supervisión de la canalización: solo se produjo 1 ejecución | 2 registros de ejecución de supervisión recuperados (1 para la ejecución de la canalización y 1 para la ejecución de la actividad) |
Precio total del escenario: 0,16811 $
- Operaciones de Data Factory = 0,0001 $
- Lectura y escritura = 10*0,00001 = USD 0,0001 [1 lectura y escritura = USD 0,50/50 000 = 0,00001]
- Supervisión = 2*0,000005 = USD 0,00001 [1 supervisión = USD 0,25/50 000 = 0,000005]
- Orquestación y ejecución la canalización = 0,168 $
- Ejecuciones de actividad = 0,001*2 = USD 0,002 [1 ejecución = USD 1/1000 = 0,001]
- Actividades de movimiento de datos = 0,166 $ (prorrateo durante 10 minutos de tiempo de ejecución. 0,25 $/hora en Azure Integration Runtime)
Copiar datos y transformarlos con Azure Databricks por hora
En este escenario, quiere copiar datos desde AWS S3 a Azure Blob Storage y transformarlos con Azure Databricks en una programación por hora.
Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:
- Una actividad de copia con un conjunto de datos de entrada para los datos que desea copiar desde AWS S3 y un conjunto de datos de salida para los datos del almacenamiento de Azure.
- Una actividad de Azure Databricks para la transformación de datos.
- Un desencadenador de programación para ejecutar la canalización cada hora.
| Operaciones | Tipos y unidades |
|---|---|
| Creación de un servicio vinculado | 3 entidades de lectura y escritura |
| Creación de conjuntos de datos | 4 entidades de lectura y escritura (2 para la creación del conjunto de datos y 2 para las referencias del servicio vinculado) |
| Creación de una canalización | 3 entidades de lectura y escritura (1 para la creación de la canalización y 2 para las referencias del conjunto de datos) |
| Obtención de la canalización | 1 entidad de lectura y escritura |
| Ejecución de la canalización | 3 ejecuciones de actividad (1 para la ejecución del desencadenador, 2 para ejecuciones de actividad) |
| Asunción de la copia de datos: tiempo de ejecución = 10 min | 10 * 4 Azure Integration Runtime (el valor predeterminado de la unidad de integración de datos es 4). Para más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, consulte este artículo |
| Asunción de la supervisión de la canalización: solo se produjo 1 ejecución | 3 registros de ejecución de supervisión recuperados (1 para la ejecución de la canalización y 2 para la ejecución de la actividad) |
| Asunción de la ejecución de la actividad de Databricks: tiempo de ejecución = 10 min | Ejecución de la actividad de canalización externa de 10 min |
Precio total del escenario: 0,16916 $
- Operaciones de Data Factory = 0,00012 $
- Lectura y escritura = 11*0,00001 = USD 0,00011 [1 lectura y escritura = USD 0,50/50 000 = 0,00001]
- Supervisión = 3*0,000005 = USD 0,00001 [1 supervisión = USD 0,25/50 000 = 0,000005]
- Orquestación y ejecución de la canalización = 0,16904 $
- Ejecuciones de actividad = 0,001*3 = USD 0,003 [1 ejecución = USD 1/1000 = 0,001]
- Actividades de movimiento de datos = 0,166 $ (prorrateo durante 10 minutos de tiempo de ejecución. 0,25 $/hora en Azure Integration Runtime)
- Actividad de canalización externa = 0,000041 $ (prorrateo durante 10 minutos de tiempo de ejecución. 0,00025 $/hora en Azure Integration Runtime)
Copiar datos y transformarlos con parámetros dinámicos por hora
En este escenario, quiere copiar datos desde AWS S3 a Azure Blob Storage y transformarlos con Azure Databricks (con parámetros dinámicos en el script) en una programación por hora.
Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:
- Una actividad de copia con un conjunto de datos de entrada para los datos que desea copiar desde AWS S3 y un conjunto de datos de salida para los datos del almacenamiento de Azure.
- Una actividad de búsqueda para pasar parámetros de forma dinámica al script de transformación.
- Una actividad de Azure Databricks para la transformación de datos.
- Un desencadenador de programación para ejecutar la canalización cada hora.
| Operaciones | Tipos y unidades |
|---|---|
| Creación de un servicio vinculado | 3 entidades de lectura y escritura |
| Creación de conjuntos de datos | 4 entidades de lectura y escritura (2 para la creación del conjunto de datos y 2 para las referencias del servicio vinculado) |
| Creación de una canalización | 3 entidades de lectura y escritura (1 para la creación de la canalización y 2 para las referencias del conjunto de datos) |
| Obtención de la canalización | 1 entidad de lectura y escritura |
| Ejecución de la canalización | 4 ejecuciones de actividad (1 para la ejecución del desencadenador, 3 para ejecuciones de actividad) |
| Asunción de la copia de datos: tiempo de ejecución = 10 min | 10 * 4 Azure Integration Runtime (el valor predeterminado de la unidad de integración de datos es 4). Para más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, consulte este artículo |
| Asunción de la supervisión de la canalización: solo se produjo 1 ejecución | 4 registros de ejecución de supervisión recuperados (1 para la ejecución de la canalización y 3 para la ejecución de la actividad) |
| Asunción de la ejecución de actividad de búsqueda: tiempo de ejecución = 1 min | Ejecución de la actividad de canalización de 1 min |
| Asunción de la ejecución de la actividad de Databricks: tiempo de ejecución = 10 min | Ejecución de la actividad de canalización externa de 10 min |
Precio total del escenario: 0,17020 $
- Operaciones de Data Factory = 0,00013 $
- Lectura y escritura = 11*0,00001 = USD 0,00011 [1 lectura y escritura = USD 0,50/50 000 = 0,00001]
- Supervisión = 4*0,000005 = USD 0,00002 [1 supervisión = USD 0,25/50 000 = 0,000005]
- Orquestación y ejecución de canalizaciones = 0,17007 $
- Ejecuciones de actividad = 0,001*4 = USD 0,004 [1 ejecución = USD 1/1000 = 0,001]
- Actividades de movimiento de datos = 0,166 $ (prorrateo durante 10 minutos de tiempo de ejecución. 0,25 $/hora en Azure Integration Runtime)
- Actividad de canalización = 0,00003 $ (prorrateo durante 1 minuto de tiempo de ejecución. 0,002 $/hora en Azure Integration Runtime)
- Actividad de canalización externa = 0,000041 $ (prorrateo durante 10 minutos de tiempo de ejecución. 0,00025 $/hora en Azure Integration Runtime)
Ejecución de paquetes SSIS en Azure-SSIS Integration Runtime
Azure-SSIS Integration Runtime (IR) es un clúster especializado de máquinas virtuales (VM) de Azure para ejecuciones de paquetes SSIS en Azure Data Factory (ADF). Al aprovisionarlo, será dedicado para usted, por lo que se le cobrará igual que cualquier otra máquina virtual de Azure dedicada, siempre y cuando lo mantenga en ejecución, independientemente de si se usa para ejecutar paquetes SSIS o no. Con respecto a su costo de ejecución, verá la estimación por hora en su panel de configuración en el portal de ADF, por ejemplo:
En el ejemplo anterior, si mantiene Azure-SSIS IR en ejecución durante 2 horas, se le cobrará: 2 (horas) x 1,158 USD/hora = 2,316 USD.
Para administrar el costo de ejecución de Azure-SSIS IR, puede reducir verticalmente el tamaño de la máquina virtual, reducir horizontalmente el tamaño del clúster, traer su propia licencia de SQL Server mediante la opción Ventaja híbrida de Azure (AHB) que ofrece ahorros significativos (vea Precios de Azure-SSIS IR), e iniciar y detener Azure-SSIS IR siempre que sea conveniente, a petición o justo a tiempo para procesar las cargas de trabajo de SSIS (vea Reconfiguración de Azure-SSIS IR y Programación de Azure-SSIS IR).
Uso de la depuración del flujo de datos de asignación en un día laboral normal
Como ingeniero de datos, Sam es responsable de diseñar, compilar y probar flujos de datos de asignación cada día. Sam inicia sesión en la interfaz de usuario de ADF por la mañana y habilita el modo de depuración de Data Flow. El TTL predeterminado para las sesiones de depuración es de 60 minutos. Sam trabaja a lo largo del día durante 8 horas, por lo que la sesión de depuración no expira nunca. Por lo tanto, el precio del día de Sam será:
8 (horas) x 8 (núcleos optimizados para proceso) x 0,193 USD = 12,35 USD
Al mismo tiempo, Chris, otro ingeniero de datos, también inicia sesión en la interfaz de usuario del explorador ADF para generar perfiles de datos y trabajar en el diseño ETL. Chris no trabaja en ADF todo el día, como Sam. Chris solo necesita usar el depurador de flujo de datos durante 1 hora en el mismo período y el mismo día que Sam. Estos son los cargos en los que Chris incurre por el uso de la depuración:
1 (hora) x 8 (núcleos de uso general) x $0,274 = $2,19
Transformación de datos del almacén de blobs con flujo de datos de asignación
En este escenario, le interesa transformar los datos del almacén de blobs visualmente en flujos de datos de asignación de ADF según una programación por hora.
Para lograr el escenario, es preciso crear una canalización con los siguientes elementos:
Una actividad de Data Flow con la lógica de transformación.
Un conjunto de datos de entrada para los datos de Azure Storage.
Un conjunto de datos de salida para los datos de Azure Storage.
Un desencadenador de programación para ejecutar la canalización cada hora.
| Operaciones | Tipos y unidades |
|---|---|
| Creación de un servicio vinculado | 2 entidades de lectura y escritura |
| Creación de conjuntos de datos | 4 entidades de lectura y escritura (2 para la creación del conjunto de datos y 2 para las referencias del servicio vinculado) |
| Creación de una canalización | 3 entidades de lectura y escritura (1 para la creación de la canalización y 2 para las referencias del conjunto de datos) |
| Obtención de la canalización | 1 entidad de lectura y escritura |
| Ejecución de la canalización | 2 ejecuciones de actividad (1 para la ejecución del desencadenador y 1 para ejecuciones de la actividad) |
| Suposiciones de Data Flow: tiempo de ejecución = 10 min + TTL de 10 minutos | 10 * 16 núcleos de proceso general con TTL de 10 |
| Asunción de la supervisión de la canalización: solo se produjo 1 ejecución | 2 registros de ejecución de supervisión recuperados (1 para la ejecución de la canalización y 1 para la ejecución de la actividad) |
Precio total del escenario: 1,4631 USD
- Operaciones de Data Factory = 0,0001 $
- Lectura y escritura = 10*0,00001 = USD 0,0001 [1 lectura y escritura = USD 0,50/50 000 = 0,00001]
- Supervisión = 2*0,000005 = USD 0,00001 [1 supervisión = USD 0,25/50 000 = 0,000005]
- Orquestación y ejecución de canalizaciones = 1,463 USD
- Ejecuciones de actividad = 0,001*2 = USD 0,002 [1 ejecución = USD 1/1000 = 0,001]
- Actividades de Data Flow = 1,461 USD prorrateados por 20 minutos (tiempo de ejecución de 10 minutos + TTL de 10 minutos). 0,274 USD/hora en Azure Integration Runtime con un proceso general de 16 núcleos
Integración de datos en VNET administrada de Azure Data Factory
En este escenario, quiere eliminar archivos originales en Azure Blob Storage y copiar datos de Azure SQL Database en Azure Blob Storage. Va a realizar esta ejecución dos veces en diferentes canalizaciones. El tiempo de ejecución de estas dos canalizaciones se superpone.
Para poner en práctica el escenario, es preciso crear dos canalizaciones con los siguientes elementos:
- Una actividad de canalización: actividad de eliminación.
- Una actividad de copia con un conjunto de datos de entrada para los datos que se van a copiar desde Azure Blob Storage.
- Un conjunto de datos de salida para los datos en Azure SQL Database.
- Un desencadenador de programación para ejecutar la canalización.
| Operaciones | Tipos y unidades |
|---|---|
| Creación de un servicio vinculado | 4 entidades de lectura y escritura |
| Creación de conjuntos de datos | 8 entidades de lectura y escritura (4 para la creación del conjunto de datos y 4 para las referencias del servicio vinculado) |
| Creación de una canalización | 6 entidades de lectura y escritura (2 para la creación de la canalización y 4 para las referencias del conjunto de datos) |
| Obtención de la canalización | 2 entidades de lectura y escritura |
| Ejecución de la canalización | 6 ejecuciones de actividad (2 para la ejecución del desencadenador y 4 para ejecuciones de actividad) |
| Ejecución de la actividad de eliminación: cada tiempo de ejecución = 5 minutos. La ejecución de la actividad de eliminación en la primera canalización es de 10:00 AM UTC a 10:05 AM UTC. La ejecución de la actividad de eliminación en la segunda canalización es de 10:02 AM UTC a 10:07 AM UTC. | Ejecución total de actividad de canalización de 7 minutos en VNET administrada. La actividad de canalización admite hasta 50 actividades simultáneas en una VNET administrada. Hay un período de vida de 60 minutos para la actividad de canalización. |
| Asunción de copia de datos: cada tiempo de ejecución = 10 minutos. La ejecución de la copia en la primera canalización es de 10:06 AM UTC a 10:15 AM UTC. La ejecución de la actividad de copia en la segunda canalización es de 10:08 a. m. UTC a 10:17 a. m. UTC. | 10 * 4 Azure Integration Runtime (valor predeterminado de DIU = 4). Para obtener más información sobre las unidades de integración de datos y la optimización del rendimiento de la copia, vea este artículo |
| Asunción de la supervisión de la canalización: Solo se han producido 2 ejecuciones | 6 registros de ejecución de supervisión recuperados (2 para la ejecución de la canalización y 4 para la ejecución de la actividad) |
Precio total del escenario: 1,45523 USD
- Operaciones de Data Factory = 0,00023 USD
- Lectura y escritura = 20*0,00001 = USD 0,0002 [1 lectura y escritura = USD 0,50/50 000 = 0,00001]
- Supervisión = 6*0,000005 = USD 0,00003 [1 supervisión = USD 0,25/50 000 = 0,000005]
- Orquestación y ejecución de la canalización = 1,455 USD
- Ejecuciones de actividad = 0,001*6 = USD 0,006 [1 ejecución = USD 1/1000 = 0,001]
- Actividades de movimiento de datos = 0,333 USD (prorrateo durante 10 minutos de tiempo de ejecución. 0,25 $/hora en Azure Integration Runtime)
- Actividad de canalización = 1,116 USD (prorrateo por 7 minutos de tiempo de ejecución más 60 minutos de período de vida. 1 USD/hora en Azure Integration Runtime)
Nota
Estos precios son solo para los fines de este ejemplo.
P+F
P: Si quiero ejecutar más de 50 actividades de canalización, ¿estas actividades se pueden ejecutar simultáneamente?
A. Se permite un máximo de 50 actividades de canalización simultáneas. La actividad de canalización 51ª se pone en cola hasta que hay un "hueco libre". Lo mismo ocurre con las actividades externas. Se permite un máximo de 800 actividades externas simultáneas.
Pasos siguientes
¡Ahora que comprende los precios de Azure Data Factory, puede empezar a trabajar!