Clasificación de los datos

Completado

En un negocio minorista en línea, puede haber diferentes tipos de datos. Cada tipo de datos podría beneficiarse de una solución de almacenamiento diferente.

Los datos de la aplicación se pueden clasificar de tres maneras diferentes: estructurados, semiestructurados y no estructurados. Aquí, aprenderá a clasificar los datos para poder elegir la solución de almacenamiento adecuada para el tipo de datos.

Enfoques para almacenar datos en la nube

En el vídeo siguiente se presentan las opciones para almacenar datos en la nube:

Datos estructurados

En los datos estructurados, a veces denominados datos relacionales, todos los datos tienen los mismos campos o propiedades. Todos los datos tienen la misma organización y forma, o esquema. El esquema compartido hace que sea fácil realizar búsquedas en este tipo de datos mediante lenguajes de consulta como Lenguaje de consulta estructurado (SQL). Esta capacidad hace que este estilo de datos sea idóneo para aplicaciones como los sistemas CRM, las reservas y la administración de inventarios.

Los datos estructurados a menudo se almacenan en tablas de base de datos con filas y columnas. En la tabla, una columna de clave indica cómo se relaciona una fila de una tabla con los datos de otra fila de otra tabla. En la imagen siguiente, una tabla que tiene datos sobre calificaciones obtiene datos de una tabla de nombres de alumnos y una tabla de datos de clase mediante columnas clave.

Diagram that shows two structured data tables and a relationship table that has data that ties them together.

Los datos estructurados son sencillos porque son fáciles de escribir, consultar y analizar. Todos los datos tienen el mismo formato. Pero forzar una estructura coherente también significa que la evolución de los datos es más complicada. Si agrega o quita campos de datos, tendrá que actualizar cada registro para que se ajuste a la nueva estructura.

Datos semiestructurados

Los datos semiestructurados están menos organizados que los datos estructurados. Los datos semiestructurados no se almacenan en un formato relacional porque los campos no encajan a la perfección en tablas, filas y columnas. Los datos semiestructurados contienen etiquetas que hacen evidentes la organización y la jerarquía de los datos. Un ejemplo son los pares clave-valor. Los datos semiestructurados también se conocen como datos no relacionales o datos no solo SQL (NoSQL).

Los datos semiestructurados se definen mediante un lenguaje de serialización. En la clasificación de datos, la serialización es el proceso de conversión de datos a un formato que se pueda transmitir o almacenar.

Los desarrolladores de software usan lenguajes de serialización de datos para escribir datos almacenados en memoria en un archivo, que después se puede enviar a otro sistema, analizarse y leerse. El emisor y el receptor no necesitan conocer detalles sobre el otro sistema. Siempre que se use el mismo lenguaje de serialización, los dos sistemas comprenderán los datos.

Lenguajes de serialización comunes

Tres lenguajes de serialización comunes son XML, JSON y YAML.

XML

Lenguaje de marcado extensible (XML) fue uno de los primeros lenguajes de datos que se usaron ampliamente. XML se basa en texto, lo que facilita la lectura tanto humana como mecánica. Hay analizadores XML disponibles para casi todas las plataformas de desarrollo populares.

Puede usar XML para expresar relaciones. XML tiene estándares de esquema, de transformación e incluso de representación en la web.

Este es un ejemplo de el nombre, la edad y las aficiones de una persona expresado en XML:

<Person Age="23">
    <FirstName>Quinn</FirstName>
    <LastName>Anderson</LastName>
    <Hobbies>
        <Hobby Type="Sports">Golf</Hobby>
        <Hobby Type="Leisure">Reading</Hobby>
        <Hobby Type="Leisure">Guitar</Hobby>
   </Hobbies>
</Person>

XML expresa la forma de los datos mediante etiquetas que se definen dentro de llaves angulares. Las etiquetas adoptan dos formatos: elementos, como <FirstName>, y atributos que se pueden expresar en texto, como Age="23". Los elementos pueden tener elementos secundarios para expresar relaciones. Por ejemplo, la etiqueta <Hobbies> expresa una colección de elementos Hobby.

XML es flexible y puede expresar datos complejos con facilidad, Pero tiende a ser más detallado, lo que hace que los resultados que hay que almacenar, procesar o pasar por una red sean más voluminosos. Este es el motivo por el que otros formatos se han vuelto más populares.

JSON

Notación de objetos JavaScript (JSON) tiene una especificación ligera y usa llaves para indicar la estructura de los datos. En comparación con XML, JSON es menos detallado y más fácil de leer para los humanos. Los servicios web usan JSON con frecuencia para devolver datos.

Esto son el nombre, la edad y las aficiones de la misma persona expresadas en JSON:

{
    "firstName": "Quinn",
    "lastName": "Anderson",
    "age": "23",
    "hobbies": [
        { "type": "Sports", "value": "Golf" },
        { "type": "Leisure", "value": "Reading" },
        { "type": "Leisure", "value": "Guitar" }
    ]
}

El formato JSON no es tan formal como XML. Es más similar a un modelo de pares clave-valor que a una expresión de datos formal. Como se puede deducir del nombre, el lenguaje de programación JavaScript tiene compatibilidad integrada con este formato, lo que hace que sea muy popular para el desarrollo web. Al igual que XML, otros lenguajes tienen analizadores que se pueden usar para trabajar con este formato de datos. El inconveniente de JSON es que tiende a estar más orientado a los programadores, lo que dificulta su lectura y modificación por parte de usuarios sin conocimientos técnicos.

YAML

YAML Ain't Markup Language (YAML) es un lenguaje de serialización de datos desarrollado más recientemente. Una de las ventajas de usar YAML es que es más fácil de leer para los seres humanos que otros lenguajes. La estructura de datos se define mediante la separación de líneas y sangrías. El formato YAML reduce la dependencia de caracteres estructurales como paréntesis, comas y corchetes.

Estos son los mismos datos, expresados en YAML:

firstName: Quinn
lastName: Anderson
age: 23
hobbies:
    - type: Sports
      value: Golf
    - type: Leisure
      value: Reading
    - type: Leisure
      value: Guitar

Este formato es más legible que JSON y se usa a menudo con archivos de configuración que deben escribir los usuarios, pero que los programas analizan. YAML es el más reciente de estos formatos de datos.

¿Qué son los datos semiestructurados o NoSQL?

En el vídeo siguiente se describen las opciones de almacenamiento de datos semiestructurados y NoSQL:

Datos no estructurados

La organización de los datos no estructurados es indefinida. Los datos no estructurados a menudo se entregan en formato de archivo, como en archivos de fotos o vídeos. El propio archivo de vídeo podría tener una estructura general e incluir metadatos semiestructurados, pero los datos que forman el vídeo en sí mismo no están estructurados. Por tanto, las fotos, los vídeos y otros archivos similares se clasifican como datos no estructurados.

Ejemplos de datos no estructurados son:

  • Archivos multimedia, como fotos, vídeos y archivos de audio
  • Archivos de Microsoft 365, como documentos de Word
  • Archivos de texto
  • Archivos de registro

Clasificación de datos: evaluación de los tipos de datos

Puede clasificar los datos de tres maneras: estructurados, semiestructurados y no estructurados. Comprender las diferencias para poder clasificar los datos le ayudará a elegir la solución de almacenamiento correcta.

Los datos estructurados son datos organizados que encajan fácilmente en tablas y columnas de datos. Los datos semiestructurados todavía están organizados y tienen propiedades y valores claros, pero hay diversidad en los datos. Los datos no estructurados no encajan a la perfección en tablas o columnas, y no tienen un esquema uniforme.

Ahora se verán los conjuntos de datos que se usan en una empresa minorista en línea y se clasificarán.

Datos del catálogo de productos

Los datos del catálogo de productos para una empresa minorista en línea están semiestructurados por naturaleza. Cada producto tiene una SKU de producto, una descripción, una cantidad, un precio, opciones de tamaño y color, una fotografía y, posiblemente, un vídeo. Por tanto, estos datos parecen inicialmente relacionales, ya que todos tienen la misma estructura. Pero cuando incorpore productos nuevos o distintos tipos de productos, es posible que quiera agregar otros campos. Por ejemplo, unas nuevas zapatillas deportivas que comercializa están habilitadas para Bluetooth, para transmitir datos desde el sensor de la zapatilla a una aplicación de fitness en el teléfono del usuario. Esta característica parece ser una tendencia creciente y quiere permitir que los clientes filtren por zapatillas "Habilitadas para Bluetooth". No quier actualizar todos los datos de zapatillas existentes con un propiedad Habilitado para Bluetooth. Quiere agregar esta nueva propiedad solo a las zapatillas nuevas.

Con la adición de la propiedad Habilitado para Bluetooth, los datos de zapatos ya no son homogéneos. Ha introducido diferencias en el esquema. Si este cambio es la única excepción que espera encontrar, puede normalizar los datos existentes para que todos los productos incluyan un campo "Habilitado para Bluetooth" a fin de mantener una organización relacional estructurada. Pero si es solo uno de los muchos campos de especialidad que prevé admitir en el futuro, la clasificación de los datos es semiestructurada. Los datos se organizan por etiquetas, pero cada producto del catálogo puede contener campos únicos.

La clasificación de los datos del catálogo de productos está semiestructurada.

Fotografías y vídeos

Las fotos y vídeos que se muestran en las páginas de productos son datos no estructurados. Aunque el archivo multimedia podría contener metadatos, el cuerpo del archivo multimedia no está estructurado.

La clasificación de datos de fotos y vídeos es no estructurada.

Datos empresariales

Los analistas de negocios quieren implementar inteligencia empresarial para realizar evaluaciones de canalizaciones de inventario y revisiones de datos de ventas. Para realizar estas operaciones, se deben agregar datos de varios meses y, luego, se deben consultar. Debido a la necesidad de agregar datos similares, estos datos deben ser estructurados, para que un mes se pueda comparar con el siguiente.

La clasificación de los datos empresariales es estructurada.

Comprobación de conocimientos

1.

¿Qué tipo de datos es un archivo JSON?

2.

¿Qué tipo de datos es un vídeo?