Adatok áttekintése

12 perc

Az adatok egyszerűen a nyers tények és számok gyűjteményei. Az alkalmazások felelősek az adatok létrehozásáért, tárolásáért, elemzéséért és felhasználásáért, vagy ezek valamilyen kombinációjáért.

Az adatok természete és tulajdonságai általában hatással vannak a tárrendszerek implementálására és kialakítására. Ilyen tulajdonságok a mennyiség, a tartalom és az adathozzáférések gyakorisága. A Facebook² például nemrég mérte fel a felhasználók által közzétett kép- és videotartalmak elérését, és azt tapasztalta, hogy az idő múlásával a hozzáférési ráta exponenciálisan csökken. A cég ezeket az eredményeket használta egy, a saját igényeiknek megfelelő tárrendszer kialakításához és bevezetéséhez. Az alábbi videóban megtekintjük az adatok azon tulajdonságait, amelyek hatással vannak a tárrendszerek kialakítására.

Adatszerkezet

Az adatok dinamika és szerkezet szerint kategorizálhatók. Az adatok általában az alábbi ábra négy negyedének valamelyikébe sorolhatók. Az egyik kategorizáció az adatszerkezetet jelöli, amely strukturált vagy strukturálatlan lehet.

Segment data into various types.

1. ábra: Adatok szegmentálása különböző típusokba³

A strukturált adatok egy előre definiált adatmodellel rendelkeznek, amely egy könnyen feldolgozható, tárolható, lekérhető és kezelhető formában rendszerezi az adatokat. A strukturált adat általában kis méretűek, amelyek megjeleníthetők táblázatos formában, így könnyen tárolhatók hagyományos adatbázisokban (például relációs adatbázisokban). A strukturált adatok egyik példája az ügyfélkapcsolat-kezelési (CRM-) adatbázisban tárolt ügyfélkapcsolati adatok táblái. Ezek az adatok egy meglehetősen merev modellt (relációs adatbázisokban sémákat) követnek, amely gyorsan tárolható, elérhető és módosítható.

A strukturálatlan adatok esetén azonban előfordulhat, hogy nem feltétlenül rendelkeznek előre definiált, merev rendezési modellel. A strukturálatlan adatok nagyobb méretűek, és nem mindig tárolhatók táblázatos formában, így ezekhez nem használhatók relációs adatbázisok. A strukturálatlan adatokat így viszonylag nehéz könnyen feldolgozható, tárolható, lekérhető és kezelhető formában rendszerezni. Strukturálatlan adatok például a szöveget, video- vagy hangadatokat tartalmazó bináris fájlok. A strukturálatlan adatok nem feltétlenül struktúra nélküliek; egy dokumentum-, video- vagy hangfájl rendelkezhet társított fájlkódolási szerkezettel vagy metaadatokkal. A valamilyen struktúrával rendelkező adatok így szintén jellemezhetők strukturálatlanként, ha a szerkezet nem segít az adatokkal kapcsolatos feladat elvégzésében. Egy nagyméretű, szöveges (strukturálatlan) dokumentumokat tartalmazó gyorsítótár például nehezen indexelhető és kereshető egy (strukturált) ügyféladatokat tartalmazó relációs adatbázishoz képest. Ebben a kurzusban a strukturálatlan adatokat olyan adatként definiáljuk, amelyek nem használhatók természetesen egy relációs adatbázisban. Emellett egyes adatokat strukturálatlanként (nem adatbázisban tároltként) kezelhetünk, mivel ezekhez kiszámíthatatlan elérési mintákkal férünk hozzá, és a hagyományos adatbázis-optimalizációk értelmetlenek ilyen adatkörnyezetben.

A strukturált és strukturálatlan adattípusok között létezik egy harmadik, részben strukturáltnak nevezett adattípus. A részben strukturált adatok nem alkalmazkodnak a relációs adatbázisokkal vagy egyéb adattáblákkal társított adatmodellek formális szerkezetéhez, mégis tartalmaznak címkéket és egyéb jelölőket, amelyek elválasztják a szemantikai elemeket, és az adatok rekordjainak és mezőinek hierarchiáit kényszerítik. A jelölőnyelvekkel (például weblapokkal, kattintássorozat-adatokkal és webes objektumokkal) leírt adatok részben strukturált adatok. Az XML és a JSON klasszikus példák a részben strukturált adatokra, mivel beágyazott címkékkel ismertetik az adatokat.

Adatdinamika

Egy másik jellemző az adatok dinamikája, amely arra utal, hogy milyen gyakran változik. A dinamikus adatok – például Microsoft Office-dokumentumok és egy pénzügyi adatbázis tranzakciós bejegyzései – viszonylag gyakran változnak, míg a rögzített adatok a létrehozás után nem módosíthatók. A rögzített adatok közé tartoznak például az MRI- és CT-vizsgálatokból származó orvosi képalkotási adatok, valamint a videós tárakban archivált videófelvételek.

Az adatok beosztása ezekbe a negyedekbe segít megtervezni és kifejleszteni egy tárolási megoldást az adatokhoz. A strukturált adatokat jellemzően relációs adatbázisokkal dolgozzuk fel, amelyekben az adatok elérhetők, kezelhetők és módosíthatók pontos parancsokkal (amelyeket általában egy olyan lekérdezési nyelven kell megadni, mint az SQL). A strukturálatlan adatokat tárolhatjuk egybesimított fájlokban egy fájlrendszeren belül, vagy tovább rendszerezhetjük őket egy NoSQL-adatbázissal (ezzel a modul későbbi szakaszaiban foglalkozunk).

Az adatok struktúrája és dinamikája segíthet megállapítani, hogyan kell kialakítani a tárolási rendszert. Nagy mennyiségű statikus adatok lemeztömbökön tárolhatók, ha gyakran beolvassuk őket. A többszintű gyorsítótárazási architektúrával kialakított tárrendszerek növelik az ilyen adatok olvasási műveleteinek teljesítményét.

Bizonyos típusú fájlrendszerek, például a Hadoop elosztott fájlrendszer (HDFS) korábbi verziói viszonylag statikus adatokhoz lettek kifejlesztve. Segítségükkel egy fájl csak egyszer írható, ezt követően pedig már nem módosítható. A statikus adatok, például a lemezképek és a biztonsági mentésekhez készített pillanatképek a viszonylag alacsony költséggel archiválhatók offline tárolási rendszereken, ha nincs szükség a gyakori elérésükre.

Összefoglalva tehát figyelembe kell venni az alkalmazás által használt adatok jellegét, mielőtt kiválasztjuk a megfelelő tárolási architektúrát.

Az adatok részletessége és mennyisége

Az adattípuson kívül a tárolni és feldolgozni kívánt adatok mennyiségét is figyelembe kell venni. Az adatmennyiség két dimenzió szerint jellemezhető, az adatok átfogó mennyiségével (összes mennyiség), valamint az adatok egy hasznos szegmensének mérete (az adatok részletessége). Tegyük fel például, hogy egy fényképmegosztó webhelyen több millió felhasználó tesz közzé több tízezer fotót. Az adatok teljes mennyisége több tíz vagy több száz terabájt sőt akár petabájt is lehet, egy átlagos fotó azonban csak néhány megabájt. Ezt hasonlítsuk össze egy olyan webhellyel, mint a YouTube, ahol a webhelyen található összes videó összes mérete több petabájt, egy videó mérete pedig néhány száz megabájttól akár több gigabájtig is terjedhet.

Itt a nagy adatmennyiségek esetén gyakran használt kifejezést kell bevezetnünk: big data. A big data kifejezésnek számos definíciója van. Így foglalja össze egy népszerű értelmezés: olyan adatok, amelyek túl nagyméretűek ahhoz, hogy hagyományos technikákkal kezelhetők legyenek.

Az információs és kommunikációs technológia (ICT) gyors fejlődése az élet minden területére hatással van, ami jelentős adatrobbanást ért el az elmúlt néhány évtizedben. Az adatok kapcsolódásának és digitalizálásának főbb innovációinak köszönhetően mindennap egyre nagyobb mennyiségű adat jön létre. Ezek változatos adatok, Facebookra és YouTube-ra feltöltött mobiltelefonos képektől és videóktól kezdve 24 órás tévéközvetítéseken és több százezer biztonsági kamera felvételein át olyan nagyléptékű tudományos kísérletekig, mint a Nagy Hadronütköztető – amelyek több terabájtnyi adatot hoznak létre mindennap. Az International Data Corporation (IDC) legutóbbi Digital Universe-tanulmányának előrejelzése szerint a globálisan létrehozott adatok mértéke 2012. és 2020. között 300-szorosára nőtt, 130 exabájtról (10²⁸) 30 000 exabájtra.

Predicted growth of data from 2009 to 2020.

2. ábra: Az adatok előrejelzett növekedése 2009-ről 2020-ra¹

A szervezeteknek ilyen, folyamatosan növekvő adatmennyiségekkel kell megbirkózniuk. A Microsoft, a Google, a Yahoo és a Facebook már nem gigabájtos és terabájtos, hanem petabájtos léptékben dolgoz fel adatokat, ami rendkívüli terhelést helyez a folyamatosan működő számítási infrastruktúrára, amelynek az adatok exponenciális növekedésével együtt kell nőnie. Ezek a jelen és a jövő kihívásai, amelyekre választ kell találnia a tárolási technológiáknak.

Hivatkozások

John Gantz és David Reinsel (2012). The Digital Universe in 2020 IDC White paper
Subramanian Muralidhar, Wyatt Lloyd, Sabyasachi Roy, Cory Hill, Ernest Lin, Weiwen Liu, Satadru Pan, Shiva Shankar, Viswanath Sivakumar, Linpeng Tang és Sanjeev Kumar (2014). f4: A Facebook warm BLOB Storage System 11th U Standard kiadás NIX Symposium on Operating Systems Design and Implementation (OSDI 14) 383-398 U Standard kiadás NIX Association
Thomas Rivera (2012). The Evolution of File Systems SNIA Tutorial

Folytatás

Adatok áttekintése

Adatszerkezet

Adatdinamika

Az adatok részletessége és mennyisége

Hivatkozások

Visszajelzés