Modern elemzési architektúra az Azure Databricksszel

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Megoldási ötletek

Ez a cikk egy megoldási ötlet. Ha azt szeretné, hogy további információkkal bővítsük a tartalmat, például a lehetséges használati eseteket, alternatív szolgáltatásokat, megvalósítási szempontokat vagy díjszabási útmutatást, a GitHub visszajelzésével tudassa velünk.

Ez a megoldás egy modern adatarchitektúrát vázol fel. A megoldás magját az Azure Databricks képezi. Ez a platform zökkenőmentesen működik más szolgáltatásokkal, mint például az Azure Data Lake Storage Gen2, az Azure Data Factory, az Azure Synapse Analytics és a Power BI.

Az Apache® és az Apache Spark™ az Apache Software Foundation bejegyzett védjegyei vagy védjegyei a Egyesült Államok és/vagy más országokban. Az Apache Software Foundation nem támogatja ezeket a jeleket.

Architektúra

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Töltse le az architektúra Visio-fájlját.

Adatfolyam

  1. Az Azure Databricks betölti a nyers streamelési adatokat az Azure Event Hubsból.

  2. A Data Factory nyers kötegadatokat tölt be a Data Lake Storage Gen2-be.

  3. Adattárolás esetén:

    • A Data Lake Storage Gen2 minden típusú adatot tárol, például strukturált, strukturálatlan és félig strukturált adatokat. Emellett kötegelt és streamelési adatokat is tárol.

    • A Delta Lake alkotja a data lake válogatott rétegét. A finomított adatokat nyílt forráskódú formátumban tárolja.

    • Az Azure Databricks jól működik a medallion architektúrával , amely rétegekbe rendezi az adatokat:

      • Bronz: Nyers adatokat tárol.
      • Ezüst: Tisztított, szűrt adatokat tartalmaz.
      • Arany: Az üzleti elemzésekhez hasznos összesített adatokat tárol.
  4. Az elemzési platform betölti az adatokat a különböző kötegekből és streamelési forrásokból. Az adattudósok ezeket az adatokat az alábbi feladatokhoz használják:

    • Adatok előkészítése.
    • Adatfeltárás.
    • Modell előkészítése.
    • Modell betanítása.

    Az MLflow kezeli a paraméter-, metrika- és modellkövetést az adatelemzési kódfuttatásokban. A kódolási lehetőségek rugalmasak:

    • A kód lehet SQL, Python, R és Scala nyelven is.
    • A kód olyan népszerű nyílt forráskódú kódtárakat és keretrendszereket használhat, mint a Koalas, a Pandas és a scikit-learn, amelyek előre telepítve és optimalizálva vannak.
    • A szakemberek egycsomópontos és többcsomópontos számítási lehetőségekkel optimalizálhatják a teljesítményt és a költségeket.
  5. A gépi tanulási modellek több formátumban is elérhetők:

    • Az Azure Databricks az MLflow modellregisztrációs adatbázisában tárolja a modellek adatait. A beállításjegyzék kötegelt, streamelési és REST API-kon keresztül teszi elérhetővé a modelleket.
    • A megoldás modelleket is üzembe helyezhet az Azure Machine Tanulás webszolgáltatásokban vagy az Azure Kubernetes Service-ben (AKS).
  6. Az adatokkal dolgozó szolgáltatások egyetlen mögöttes adatforráshoz csatlakoznak a konzisztencia biztosítása érdekében. A felhasználók például SQL-lekérdezéseket futtathatnak a data lake-en az Azure Databricks SQL Analytics használatával. A szolgáltatás a következőket teszi:

    • Lekérdezésszerkesztőt és katalógust, lekérdezési előzményeket, alapszintű irányítópultokat és riasztásokat biztosít.
    • Olyan integrált biztonságot használ, amely sorszintű és oszlopszintű engedélyeket tartalmaz.
    • Foton-alapú Delta motorral gyorsítja a teljesítményt.
  7. A Power BI elemzési és előzményjelentéseket és irányítópultokat hoz létre az egységes adatplatformról. Ez a szolgáltatás a következő funkciókat használja az Azure Databricks használatakor:

    • Beépített Azure Databricks-összekötő az alapul szolgáló adatok megjelenítéséhez.
    • Optimalizált Java Database Csatlakozás ivity (JDBC) és Open Database Csatlakozás ivity (ODBC) illesztőprogramok.
  8. A felhasználók az optimalizált Synapse-összekötőn keresztül exportálhatják az arany adatkészleteket a data lake-ből az Azure Synapse-be. Az Azure Synapse SQL-készletei adattárház- és számítási környezetet biztosítanak.

  9. A megoldás azure-szolgáltatásokat használ az együttműködéshez, a teljesítményhez, a megbízhatósághoz, a szabályozáshoz és a biztonsághoz:

    • A Microsoft Purview adatfelderítési szolgáltatásokat, bizalmas adatbesorolást és szabályozási elemzéseket biztosít az adattulajdonban.

    • Az Azure DevOps folyamatos integrációt és folyamatos üzembe helyezést (CI/CD) és egyéb integrált verziókövetési funkciókat kínál.

    • Az Azure Key Vault biztonságosan kezeli a titkos kulcsokat, kulcsokat és tanúsítványokat.

    • A Microsoft Entra ID egyszeri bejelentkezést (SSO) biztosít az Azure Databricks felhasználói számára. Az Azure Databricks támogatja az automatizált felhasználói kiépítést a Microsoft Entra-azonosítóval az alábbi feladatokhoz:

      • Új felhasználók létrehozása.
      • Minden felhasználóhoz hozzáférési szint hozzárendelése.
      • Felhasználók eltávolítása és hozzáférés megtagadása.
    • Az Azure Monitor összegyűjti és elemzi az Azure-erőforrások telemetriáját. A problémák proaktív azonosításával ez a szolgáltatás maximalizálja a teljesítményt és a megbízhatóságot.

    • Az Azure Cost Management és a Billing pénzügyi szabályozási szolgáltatásokat nyújt az Azure számítási feladataihoz.

Összetevők

A megoldás a következő összetevőket használja.

Alapösszetevők

  • Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök több forrásból származó nagy adatstreameket dolgoznak fel. Az Azure Databricks megtisztítja és átalakítja a strukturálatlan adathalmazokat. Egyesíti a feldolgozott adatokat az operatív adatbázisokból vagy adattárházakból származó strukturált adatokkal. Az Azure Databricks skálázható gépi tanulási és mélytanulási modelleket is betanít és üzembe helyez.

  • Az Event Hubs egy big data-alapú streamelési platform. Szolgáltatásként nyújtott platformként (PaaS) ez az eseménybetöltési szolgáltatás teljes mértékben felügyelt.

  • A Data Factory egy hibrid adatintegrációs szolgáltatás. Ezzel a teljes mértékben felügyelt, kiszolgáló nélküli megoldás segítségével adatátalakítási munkafolyamatokat hozhat létre, ütemezhet és vezényelhet.

  • A Data Lake Storage Gen2 egy méretezhető és biztonságos data lake a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok strukturálhatók, részben strukturáltak vagy strukturálatlanok lehetnek. Általában több heterogén forrásból, például naplókból, fájlokból és adathordozókból származik.

  • Az Azure Databricks SQL Analytics lekérdezéseket futtat data lake-eken. Ez a szolgáltatás az irányítópultokon lévő adatokat is megjeleníti.

  • A gépi Tanulás egy felhőalapú környezet, amely segít prediktív elemzési megoldások létrehozásában, üzembe helyezésében és kezelésében. Ezekkel a modellekkel előre jelezheti a viselkedést, az eredményeket és a trendeket.

  • Az AKS egy magas rendelkezésre állású, biztonságos és teljes körűen felügyelt Kubernetes-szolgáltatás. Az AKS megkönnyíti a tárolóalapú alkalmazások üzembe helyezését és kezelését.

  • Az Azure Synapse adatraktárak és big data rendszerek elemzési szolgáltatása. Ez a szolgáltatás integrálható a Power BI,a Machine Tanulás és más Azure-szolgáltatásokkal.

  • Az Azure Synapse-összekötők lehetővé teszik az Azure Synapse elérését az Azure Databricksből. Ezek az összekötők hatékonyan továbbítják a nagy mennyiségű adatot az Azure Databricks-fürtök és az Azure Synapse-példányok között.

  • Az SQL-készletek adattárházat és számítási környezetet biztosítanak az Azure Synapse-ban. A készletek kompatibilisek az Azure Storage és a Data Lake Storage Gen2 szolgáltatással.

  • A Delta Lake egy nyílt fájlformátumot használó tárolási réteg. Ez a réteg olyan felhőbeli tárolókon fut, mint a Data Lake Storage Gen2. A Delta Lake támogatja az adatok verziószámozását, visszaállítását és tranzakcióit az adatok frissítéséhez, törléséhez és egyesítéséhez.

  • Az MLflow egy nyílt forráskódú platform a gépi tanulási életciklushoz. Összetevői a gépi tanulási modelleket figyelik a betanítás és a futtatás során. Az MLflow emellett modelleket is tárol, és éles környezetben tölti be őket.

Összetevők jelentése és szabályozása

  • A Power BI szoftverszolgáltatások és alkalmazások gyűjteménye. Ezek a szolgáltatások olyan jelentéseket hoznak létre és osztanak meg, amelyek összekapcsolják és vizualizálják a nem kapcsolódó adatforrásokat. Az Azure Databricks mellett a Power BI alapvető okok meghatározását és nyers adatelemzést is biztosít.

  • A Microsoft Purview a helyszíni, többfelhős és szoftveres (SaaS-) adatokat kezeli. Ez a szabályozási szolgáltatás az adatok fekvő tájolású térképeit kezeli. A funkciók közé tartozik az automatizált adatfelderítés, a bizalmas adatbesorolás és az adatsorozás.

  • Az Azure DevOps egy DevOps vezénylési platform. Ez az SaaS eszközöket és környezeteket biztosít az alkalmazások létrehozásához, üzembe helyezéséhez és együttműködéséhez.

  • Az Azure Key Vault tárolja és szabályozza a titkos kulcsokhoz, például jogkivonatokhoz, jelszavakhoz és API-kulcsokhoz való hozzáférést. A Key Vault emellett titkosítási kulcsokat is létrehoz és szabályoz, valamint kezeli a biztonsági tanúsítványokat.

  • A Microsoft Entra ID felhőalapú identitás- és hozzáférés-kezelési szolgáltatásokat kínál. Ezek a funkciók lehetővé teszik, hogy a felhasználók bejelentkezhessenek és hozzáférjenek az erőforrásokhoz.

  • Az Azure Monitor adatokat gyűjt és elemez a környezetekről és az Azure-erőforrásokról. Ezek az adatok alkalmazástelemetria, például teljesítménymetrikák és tevékenységnaplók.

  • Az Azure Cost Management és a Számlázás felügyeli a felhőköltségeket. A költségvetések és javaslatok használatával ez a szolgáltatás rendszerezi a költségeket, és bemutatja, hogyan csökkenthetők a költségek.

Forgatókönyv részletei

A modern adatarchitektúrák megfelelnek az alábbi feltételeknek:

  • Adat-, elemzési és AI-számítási feladatok egységesítése.
  • Futtasson hatékonyan és megbízhatóan bármilyen léptékben.
  • Elemzési irányítópultokon, operatív jelentéseken vagy speciális elemzéseken keresztül biztosíthatja az elemzéseket.

Ez a megoldás egy modern adatarchitektúrát vázol fel, amely megvalósítja ezeket a célokat. A megoldás magját az Azure Databricks képezi. Ez a platform zökkenőmentesen működik más szolgáltatásokkal. Ezek a szolgáltatások együttesen az alábbi tulajdonságokkal rendelkező megoldást biztosítják:

  • Egyszerű: Az egységes elemzés, az adatelemzés és a gépi tanulás leegyszerűsíti az adatarchitektúrát.
  • Megnyitás: A megoldás támogatja a nyílt forráskódú kódot, a nyílt szabványokat és a nyílt keretrendszereket. Emellett népszerű integrált fejlesztési környezetekkel (IDE-kkel), kódtárakkal és programozási nyelvekkel is működik. Natív összekötők és API-k révén a megoldás számos más szolgáltatással is működik.
  • Együttműködés: Az adatmérnökök, adattudósok és elemzők együttműködnek ezzel a megoldással. Közös jegyzetfüzeteket, azonosítókat, irányítópultokat és egyéb eszközöket használhatnak a közös mögöttes adatok eléréséhez és elemzéséhez.

Lehetséges használati esetek

Ezt a megoldást az a rendszer ihlette, amelyet a Swiss Re Group a Property & Casualty Viszontbiztosítási részlegéhez épített. A biztosítási ágazaton kívül a big data- vagy gépi tanulással foglalkozó területek is élvezhetik ezt a megoldást. Ide sorolhatóak például a kövekezők:

  • Az energiaágazat
  • Kiskereskedelem és e-kereskedelem
  • Banki szolgáltatások és pénzügyek
  • Gyógyszer és egészségügyi ellátás

Következő lépések

A kapcsolódó megoldásokról az alábbi információkból tájékozódhat: