Escenarios y casos de uso de entidades calculadas

El uso de entidades calculadas en un flujo de datos ofrece ventajas. En este artículo se describen los casos de uso de las entidades calculadas y se describe cómo funcionan en segundo plano.

¿Qué es una entidad calculada?

Una entidad representa la salida de datos de una consulta creada en un flujo de datos, una vez actualizado el flujo de datos. Representa los datos de un origen y, opcionalmente, las transformaciones que se le aplicaron. A veces, es posible que desee crear nuevas entidades que sean una función de una entidad ingerida previamente.

Aunque es posible repetir las consultas que crearon una entidad y aplicarles nuevas transformaciones, este enfoque tiene inconvenientes: los datos se ingieren dos veces y la carga en el origen de datos se duplica.

Las entidades calculadas resuelven ambos problemas. Las entidades calculadas son similares a otras entidades, ya que obtienen datos de un origen y puede aplicar transformaciones adicionales para crearlas. Pero sus datos se originan en el flujo de datos de almacenamiento utilizado y no en el origen de datos original. Es decir, se crearon previamente mediante un flujo de datos y, a continuación, se reutilizaron.

Las entidades calculadas se pueden crear haciendo referencia a una entidad del mismo flujo de datos o haciendo referencia a una entidad creada en un flujo de datos diferente.

Entidad calculada.

¿Por qué usar una entidad calculada?

La realización de todos los pasos de transformación en una entidad puede ser lenta. Puede haber muchas razones para esta ralentización: el origen de datos puede ser lento o es posible que las transformaciones que esté realizando deban replicarse en dos o — más consultas. Puede ser ventajoso ingerir primero los datos del origen y, a continuación, reutilizarlos en una o varias entidades. En tales casos, puede optar por crear dos entidades: una que obtiene datos del origen de datos y otra una entidad calculada que aplica transformaciones adicionales a los datos ya escritos en el lago de datos utilizado por un flujo de — — datos. Esto puede aumentar el rendimiento y la reusabilidad de los datos, lo que ahorra tiempo y recursos.

Por ejemplo, si dos entidades comparten incluso una parte de su lógica de transformación, sin una entidad calculada, la transformación tendrá que realizarse dos veces.

Imagen que muestra la transformación de los datos que se producen dos veces.

Sin embargo, si se usa una entidad calculada, la parte común (compartida) de la transformación se procesará una vez y se almacenará en Azure Data Lake Storage. Las transformaciones restantes se procesarán a partir de la salida de la transformación común. En general, este procesamiento es mucho más rápido.

Imagen en la que se muestran las transformaciones comunes realizadas una vez en la entidad calculada y almacenadas en el lago de datos, y los trans restantes únicos que se producen más adelante.

Una entidad calculada proporciona un lugar como código fuente para la transformación y acelera la transformación porque solo se debe realizar una vez en lugar de varias veces. También se reduce la carga en el origen de datos.

Escenario de ejemplo para usar una entidad calculada

Si va a crear una tabla agregada en Power BI para acelerar el modelo de datos, puede compilar la tabla agregada haciendo referencia a la tabla original y aplicando transformaciones adicionales a ella. Con este enfoque, no es necesario replicar la transformación desde el origen (la parte que es de la tabla original).

Por ejemplo, en la ilustración siguiente se muestra una entidad Orders.

Entidad Orders.

Con una referencia de esta entidad, puede crear una entidad calculada.

Crear una entidad calculada.

Imagen que muestra cómo crear una entidad calculada a partir de la entidad Orders. En primer lugar, haga clic con el botón derecho en la entidad Orders en el panel Consultas y seleccione la opción Referencia en el menú desplegable, que crea la entidad calculada, cuyo nombre se cambia aquí a Pedidos agregados.

La entidad calculada puede tener más transformaciones. Por ejemplo, puede usar Agrupar por para agregar los datos en el nivel de cliente.

Imagen que muestra la columna Customer en la entidad agregada Orders (Pedidos) resaltada.

Esto significa que la entidad Orders Aggregated (Pedidos agregados) recibirá datos de la entidad Orders y no del origen de datos de nuevo. Dado que algunas de las transformaciones que deben realizarse ya se han realizado en la entidad Orders, el rendimiento es mejor y la transformación de datos es más rápida.

Entidad calculada en otros flujos de datos

También puede crear una entidad calculada en otros flujos de datos. Se puede crear obteniendo datos de un flujo de datos con microsoft Power Platform conector de flujo de datos.

<obtener datos de Power Platform flujos de datos>

La imagen resalta el conector de flujos de datos Power Platform de la ventana de origen de datos Power Query choos, con una descripción que indica que una entidad de flujo de datos se puede crear sobre los datos de otra entidad de flujo de datos, que ya se conserva en el almacenamiento.

El concepto de la entidad calculada es tener una tabla persistente en el almacenamiento y otras tablas procedentes de ella, para que pueda reducir el tiempo de lectura del origen de datos y compartir algunas de las transformaciones comunes. Esto se puede lograr obteniendo datos de otros flujos de datos a través del conector de flujo de datos o haciendo referencia a otra consulta en el mismo flujo de datos.

Entidad calculada: ¿con transformaciones o sin?

Ahora que sabe que las entidades calculadas son excelentes para mejorar el rendimiento de la transformación de datos, una buena pregunta que se debe hacer es si las transformaciones siempre se deben aplazar a la entidad calculada o si se deben aplicar a la entidad de origen. Es decir, ¿los datos siempre se deben ingerir en una entidad y, a continuación, transformarse en una entidad calculada? ¿Cuáles son las ventajas y desventajas?

Carga de datos sin transformación para archivos de texto o CSV

Cuando un origen de datos no admite el plegado de consultas (por ejemplo, archivos de texto o CSV), la aplicación de transformaciones al obtener datos del origen es poca, especialmente si los volúmenes de datos son grandes. La entidad de origen solo debe cargar datos desde el archivo Text/CSV sin aplicar ninguna transformación. A continuación, las entidades calculadas pueden obtener datos de la entidad de origen y realizar la transformación sobre los datos ingeridos.

Podría preguntarse, ¿cuál es el valor de crear una entidad de origen que solo ingiera datos? Este tipo de entidad puede seguir siendo útil, ya que si los datos del origen se usan en más de una entidad, reduce la carga en el origen de datos. Además, ahora otras personas y flujos de datos pueden reutilizar los datos. Las entidades calculadas son especialmente útiles en escenarios en los que el volumen de datos es grande o cuando se accede a un origen de datos a través de una puerta de enlace de datos local, ya que reducen el tráfico de la puerta de enlace y la carga en los orígenes de datos subyacentes.

Realizar algunas de las transformaciones comunes para una SQL tabla

Si el origen de datos admite el plegado de consultas, es bueno realizar algunas de las transformaciones de la entidad de origen porque la consulta se plegará al origen de datos y solo se recuperarán de él los datos transformados. Esto mejora el rendimiento general. El conjunto de transformaciones que serán comunes en las entidades calculadas de bajada se debe aplicar en la entidad de origen, por lo que se pueden plegar al origen. Otras transformaciones que solo se aplican a entidades de nivel inferior deben realizarse en entidades calculadas.