Klasifikace dat

Dokončeno

Online maloobchod má různé typy dat. Každý typ dat může těžit z jiného řešení úložiště.

Data aplikací můžou být klasifikovaná jedním ze tří způsobů. Můžou být: strukturovaná, částečně strukturovaná a nestrukturovaná. Tady se dozvíte, jak klasifikovat data, abyste mohli zvolit vhodné řešení úložiště pro typ dat.

Přístupy k ukládání dat v cloudu

Následující video představuje možnosti ukládání dat v cloudu:

Strukturovaná data

Ve strukturovaných datech, někdy označovaných jako relační data, mají všechna data stejná pole nebo vlastnosti. Všechna data mají stejnou organizaci a tvar nebo schéma. Sdílené schéma umožňuje snadno prohledávat tento typ dat pomocí dotazovacího jazyka, jako je jazyk SQL (Structured Query Language) (SQL). Díky této funkci je tento styl dat ideální pro aplikace, jako jsou systémy CRM, rezervace a správa inventáře.

Strukturovaná data se často ukládají v databázových tabulkách s řádky a sloupci. V tabulce klíčový sloupec označuje, jak jeden řádek v tabulce souvisí s daty v jiném řádku jiné tabulky. Na následujícím obrázku tabulka, která obsahuje data o známkách, získává data z tabulky jmen studentů a tabulky dat předmětu pomocí klíčových sloupců.

Diagram that shows two structured data tables and a relationship table that has data that ties them together.

Strukturovaná data můžeme jednoduše zadávat, vyhledávat dotazy a analyzovat. Všechna data jsou ve stejném formátu. Vynucení konzistentní struktury ale také znamená, že vývoj dat je obtížnější. Pokud přidáte nebo odeberete datová pole, je nutné aktualizovat každý záznam tak, aby odpovídal nové struktuře.

Částečně strukturovaná data

Částečně strukturovaná data jsou méně uspořádaná než strukturovaná data. Částečně strukturovaná data nejsou uložená v relačním formátu, protože pole se do tabulek, řádků a sloupců nevejdou přehledně. Částečně strukturovaná data obsahují značky, které vysvětlují organizaci a hierarchii dat. Jedním z příkladů je pár klíč/hodnota. Částečně strukturovaná data se také označují jako nerelační nebo nejen data SQL (NoSQL ).

Částečně strukturovaná data jsou definována jazykem serializace dat. Při klasifikaci dat je serializace proces převodu dat do formátu, který lze přenášet nebo ukládat.

Vývojáři softwaru používají jazyky serializace dat k zápisu dat uložených v paměti do souboru, který se pak dá odeslat do jiného systému, analyzovat a číst. Odesílatel a příjemce nemusí znát podrobnosti o druhém systému. Pokud se používá stejný jazyk serializace, lze data pochopit oběma systémy.

Běžné jazyky serializace

Tři běžné jazyky serializace jsou XML, JSON a YAML.

XML

Jazyk XML (Extensible Markup Language) byl jedním z prvních datových jazyků, které se mají široce používat. XML je textová, díky čemuž je snadno čitelný a strojově čitelný. Analyzátory XML jsou k dispozici pro téměř všechny oblíbené vývojové platformy.

K vyjádření relací můžete použít XML. XML má standardy pro schéma, transformaci a dokonce zobrazení na webu.

Tady je příklad jména, věku a koníčků osob vyjádřených v jazyce XML:

<Person Age="23">
    <FirstName>Quinn</FirstName>
    <LastName>Anderson</LastName>
    <Hobbies>
        <Hobby Type="Sports">Golf</Hobby>
        <Hobby Type="Leisure">Reading</Hobby>
        <Hobby Type="Leisure">Guitar</Hobby>
   </Hobbies>
</Person>

XML vyjadřuje tvar dat pomocí značek definovaných uvnitř úhlových závorek. Značky mají dvě formy: prvky, jako <FirstName> jsou a atributy, které lze vyjádřit v textu jako Age="23". Elementy můžou mít podřízené prvky pro vyjádření relací. Značka například <Hobbies> vyjadřuje kolekci Hobby prvků.

Jazyk XML je flexibilní a snadno dokáže vyjádřit složitá data. Obvykle to ale bývá více podrobné, což zvětší ukládání, zpracování a předávání přes síť. V důsledku toho jsou oblíbenější jiné jazyky.

JSON

JavaScript Object Notation (JSON) má zjednodušenou specifikaci a používá složené závorky k označení datové struktury. Ve srovnání s XML je JSON méně podrobný a je pro lidi jednodušší číst. JSON často používají webové služby k vrácení dat.

Toto je jméno, věk a koníčky stejné osoby vyjádřené ve formátu JSON:

{
    "firstName": "Quinn",
    "lastName": "Anderson",
    "age": "23",
    "hobbies": [
        { "type": "Sports", "value": "Golf" },
        { "type": "Leisure", "value": "Reading" },
        { "type": "Leisure", "value": "Guitar" }
    ]
}

Formát JSON není tak formální jako XML. Je blíž k modelu páru klíč/hodnota než k formálnímu datovému výrazu. Jak můžete odhadnout z názvu, programovací jazyk JavaScript má integrovanou podporu pro tento formát, takže je oblíbený pro vývoj pro web. Podobně jako XML mají i jiné jazyky analyzátory, které lze použít při práci s tímto formátem dat. Nevýhodou KÓDU JSON je, že je spíše orientovaný na programátory, takže je pro uživatele, kteří nejsou technickými uživateli, těžší číst a upravovat.

YAML

YAML Ain't Markup Language (YAML) je nedávno vyvinutý jazyk serializace dat. Jednou z výhod používání YAML je, že je pro lidi jednodušší číst než některé jiné jazyky. Datová struktura je definována oddělením a odsazením čar. Formát YAML snižuje závislost na strukturálních znacích, jako jsou závorky, čárky a hranaté závorky.

Tady jsou stejná data vyjádřená v YAML:

firstName: Quinn
lastName: Anderson
age: 23
hobbies:
    - type: Sports
      value: Golf
    - type: Leisure
      value: Reading
    - type: Leisure
      value: Guitar

Tento formát je čitelnější než JSON a často se používá pro konfigurační soubory, které potřebují psát lidé, ale parsované programy. YAML je nejnovější z těchto formátů dat.

Co jsou částečně strukturovaná data nebo data NoSQL?

Následující video popisuje částečně strukturovaná data a možnosti úložiště dat NoSQL:

Nestrukturovaná data

Uspořádání nestrukturovaných dat není definováno. Nestrukturovaná data se často doručuje ve formátu souboru, například ve foto nebo videosouborech. Samotný videosoubor může mít celkovou strukturu a má částečně strukturovaná metadata, ale data, která tvoří samotné video, jsou nestrukturovaná. Proto se fotky, videa a další podobné soubory klasifikují jako nestrukturovaná data.

Příklady nestrukturovaných dat:

  • Mediální soubory, jako jsou fotky, videa a zvukové soubory
  • Soubory Microsoft 365, jako jsou wordové dokumenty
  • Textové soubory
  • Soubory protokolu

Klasifikace dat: Vyhodnocení datových typů

Data můžete klasifikovat jedním ze tří způsobů: strukturovanou, částečně strukturovanou a nestrukturovanou. Pochopení rozdílů, abyste mohli klasifikovat data, vám pomůže zvolit správné řešení úložiště.

Strukturovaná data jsou uspořádaná data, která jsou přehledně vhodná pro tabulky nebo sloupce dat. Částečně strukturovaná data jsou také uspořádaná a mají jasné vlastnosti a hodnoty, ale existují v nich odlišnosti. Nestrukturovaná data se do tabulek nebo sloupců nevejdou přehledně a nemají jednotné schéma.

Pojďme se podívat na datové sady používané v online maloobchodě a klasifikovat je.

Data v katalogu produktů

Data katalogu produktů pro online maloobchodní firmu jsou částečně strukturovaná v přírodě. Každý produkt má skladovou položku produktu, popis, množství, cenu, možnosti velikosti, barevné možnosti, fotku a případně video. Proto se tato data zobrazují jako relační, protože všechny mají stejnou strukturu. Při zavádění nových produktů nebo různých druhů produktů ale můžete chtít přidat datová pole. Například nové tenisky, které nosíte, jsou bluetooth umožňující přenos dat ze snímačů z obuvi do fitness aplikace na telefonu uživatele. Zdá se, že tato funkce je rostoucím trendem a chcete zákazníkům poskytnout možnost filtrovat boty s podporou Bluetooth. Nechcete aktualizovat všechna stávající data obuvi pomocí vlastnosti s podporou Bluetooth. Tuto novou vlastnost chcete přidat pouze do nových bot.

S přidáním vlastnosti s podporou Bluetooth už data o botách nejsou homogenní. Ve schématu jste zavedli rozdíly. Pokud je tato změna jedinou výjimkou, kterou očekáváte, můžete stávající data normalizovat tak, aby všechny produkty obsahovaly pole s podporou Bluetooth, které udržuje strukturovanou relační organizaci. Pokud je to ale jen jedno z mnoha speciálních polí, která si v budoucnu představíte, klasifikace dat je částečně strukturovaná. Data jsou uspořádaná na základě značek, ale každý produkt v katalogu může obsahovat jedinečná pole.

Klasifikace dat katalogu produktů je částečně strukturovaná.

Fotky a videa

Fotky a videa zobrazené na stránkách produktu představují nestrukturovaná data. I když mediální soubor může obsahovat metadata, tělo mediálního souboru není nestrukturované.

Klasifikace dat pro fotky a videa není strukturovaná.

Firemní data

Obchodní analytici potřebují implementovat funkce business intelligence, aby mohli vyhodnocovat zásobovací kanály a kontrolovat prodejní data. Aby bylo možné tyto operace provést, musí se data z několika měsíců agregovat a pak dotazovat. Vzhledem k tomu, že je potřeba agregovat podobná data, musí být tato data strukturovaná, aby bylo možné porovnat jeden měsíc s dalšími daty.

Klasifikace obchodních dat je strukturovaná.

Prověřte si své znalosti

1.

Jaký typ dat je soubor JSON?

2.

Jaký typ dat je video?