Identifiera dataformat

Slutförd

Data är en samling fakta som siffror, beskrivningar och observationer som används för att registrera information. Datastrukturer där dessa data organiseras representerar ofta entiteter som är viktiga för en organisation (till exempel kunder, produkter, försäljningsorder och så vidare). Varje entitet har vanligtvis ett eller flera attribut eller egenskaper (till exempel kan en kund ha ett namn, en adress, ett telefonnummer och så vidare).

Du kan klassificera data som strukturerade, halvstrukturerade eller ostrukturerade.

Strukturerade data

Strukturerade data är data som följer ett fast schema, så alla data har samma fält eller egenskaper. Oftast är schemat för strukturerade dataentiteter tabellbaserat , med andra ord representeras data i en eller flera tabeller som består av rader som representerar varje instans av en dataentitet och kolumner som representerar attribut för entiteten. Följande bild visar till exempel tabelldatarepresentationer för kund- och produktentiteter.

Image showing how structured data is represented in tables

Strukturerade data lagras ofta i en databas där flera tabeller kan referera till varandra med hjälp av nyckelvärden i en relationsmodell , vilket vi kommer att utforska mer ingående senare.

Halvstrukturerade data

Halvstrukturerade data är information som har viss struktur, men som möjliggör viss variation mellan entitetsinstanser. Även om de flesta kunder till exempel har en e-postadress kan vissa ha flera e-postadresser och vissa kanske inte har någon alls.

Ett vanligt format för halvstrukturerade data är JavaScript Object Notation (JSON). Exemplet nedan visar ett par JSON-dokument som representerar kundinformation. Varje kunddokument innehåller adress- och kontaktinformation, men de specifika fälten varierar mellan kunderna.

// Customer 1
{
  "firstName": "Joe",
  "lastName": "Jones",
  "address":
  {
    "streetAddress": "1 Main St.",
    "city": "New York",
    "state": "NY",
    "postalCode": "10099"
  },
  "contact":
  [
    {
      "type": "home",
      "number": "555 123-1234"
    },
    {
      "type": "email",
      "address": "joe@litware.com"
    }
  ]
}

// Customer 2
{
  "firstName": "Samir",
  "lastName": "Nadoy",
  "address":
  {
    "streetAddress": "123 Elm Pl.",
    "unit": "500",
    "city": "Seattle",
    "state": "WA",
    "postalCode": "98999"
  },
  "contact":
  [
    {
      "type": "email",
      "address": "samir@northwind.com"
    }
  ]
}

Kommentar

JSON är bara ett av många sätt på vilka halvstrukturerade data kan representeras. Poängen här är inte att tillhandahålla en detaljerad undersökning av JSON-syntaxen, utan snarare att illustrera den flexibla karaktären hos halvstrukturerade datarepresentationer.

Ostrukturerade data

Alla data är inte strukturerade eller ens delvis strukturerade. Dokument, bilder, ljud- och videodata och binära filer kanske inte har någon specifik struktur. Den här typen av data kallas ostrukturerade data.

Image showing unstructured data in documents

Datalager

Organisationer lagrar vanligtvis data i strukturerat, halvstrukturerat eller ostrukturerat format för att registrera information om entiteter (till exempel kunder och produkter), specifika händelser (till exempel försäljningstransaktioner) eller annan information i dokument, bilder och andra format. Lagrade data kan sedan hämtas för analys och rapportering senare.

Det finns två breda kategorier av datalager som används gemensamt:

  • Fillager
  • Databaser

Vi utforskar båda dessa typer av datalager i efterföljande avsnitt.