Wat is Azure Synapse Data Explorer? (Preview)
Azure Synapse Data Explorer biedt klanten een interactieve query-ervaring voor het ontgrendelen van inzichten uit logboek- en telemetriegegevens. Als aanvulling op bestaande SQL- en Apache Spark Analytics-runtime-engines is de Data Explorer Analytics-runtime geoptimaliseerd voor efficiënte logboekanalyse met behulp van krachtige indexeringstechnologie om automatisch vrije tekst en semi-gestructureerde gegevens te indexeren die vaak worden gevonden in telemetriegegevens.
Wat maakt Azure Synapse Data Explorer uniek?
Eenvoudige opname: Data Explorer biedt ingebouwde integraties voor gegevensinvoer zonder code/weinig code, gegevens met hoge doorvoer en gegevens uit realtimebronnen in de caching. Gegevens kunnen worden opgenomen uit bronnen zoals Event Hub, Kafka, Azure Data Lake en open source-agents zoals Fluentd/Fluent Bit en een groot aantal gegevensbronnen in de cloud en on-premises.
Geen complexe gegevensmodelleer: met Data Explorer hoeft u geen complexe gegevensmodellen te bouwen en hoeft u geen complexe scripting uit te voeren om gegevens te transformeren voordat deze worden gebruikt.
Geen indexonderhoud: onderhoudstaken hoeven niet te worden uitgevoerd om gegevens te optimaliseren voor queryprestaties en hoeven niet te worden onderhouden. Met Data Explorer zijn alle onbewerkte gegevens onmiddellijk beschikbaar, zodat u query's met hoge prestaties en hoge gelijktijdigheid kunt uitvoeren op uw streaming- en permanente gegevens. U kunt deze query's gebruiken om bijna realtime dashboards en waarschuwingen te bouwen en operationele analysegegevens te verbinden met de rest van het data analytics-platform.
Gegevensanalyse democratiseren: Data Explorer democratiseert selfservice-big data-analyses met de intuïtieve Kusto Query Language (KQL) die de expressiviteit en kracht van SQL biedt met de eenvoud van Excel. KQL is in hoge mate geoptimaliseerd voor het verkennen van onbewerkte telemetrie- en tijdreeksgegevens door gebruik te maken van de best-in-class tekstindexeringstechnologie van Data Explorer voor efficiënt zoeken in vrije tekst en regex, en uitgebreide parseringsmogelijkheden voor het uitvoeren van query's op traceringen\tekstgegevens en semi-gestructureerde JSON-gegevens, waaronder matrices en geneste structuren. KQL biedt geavanceerde ondersteuning voor tijdreeksen voor het maken, bewerken en analyseren van meerdere tijdreeksen met ondersteuning voor python-uitvoering in de engine voor het scoren van modellen.
Bewezen technologie op petabyteschaal: Data Explorer is een gedistribueerd systeem met rekenkracht en opslag dat onafhankelijk kan worden geschaald, waardoor analyse van gigabytes of petabytes aan gegevens mogelijk is.
Geïntegreerd: Azure Synapse Analytics biedt interoperabiliteit tussen gegevens tussen Data Explorer-, Apache Spark- en SQL-engines, wat data engineers, gegevenswetenschappers en gegevensanalisten in staat stelt om eenvoudig en veilig toegang te krijgen tot en samen te werken aan dezelfde gegevens in de data lake.
Wanneer gebruikt u Azure Synapse Data Explorer?
Gebruik Data Explorer als een gegevensplatform voor het bouwen van bijna realtime log analytics- en IoT-analyseoplossingen voor het volgende:
Consolideren en correleren van uw logboeken en gebeurtenisgegevens in on-premises gegevensbronnen, cloudbronnen en externe gegevensbronnen.
Versnel uw AI Ops-traject (patroonherkenning, anomaliedetectie, prognoses en meer).
Vervang oplossingen voor zoeken in logboeken op basis van infrastructuur om kosten te besparen en de productiviteit te verhogen.
Bouw IoT-analyseoplossingen voor uw IoT-gegevens.
SaaS-oplossingen voor analyse bouwen om services aan te bieden aan uw interne en externe klanten.
Data Explorer-poolarchitectuur
Data Explorer-pools implementeren een uitschaalarchitectuur door de reken- en opslagresources van elkaar te scheiden. Hierdoor kunt u elke resource onafhankelijk schalen en bijvoorbeeld meerdere alleen-lezen berekeningen uitvoeren op dezelfde gegevens. Data Explorer-pools bestaan uit een set berekeningen die de engine uitvoeren die verantwoordelijk is voor het automatisch indexeren, comprimeren, in de caching en het uitvoeren van gedistribueerde query's. Ze hebben ook een tweede set berekeningen die de gegevensbeheerservice uitvoeren die verantwoordelijk is voor achtergrondsysteemtaken en de opname van beheerde en in de wachtrij geplaatste gegevens. Alle gegevens worden opgeslagen in beheerde blobopslagaccounts met behulp van een gecomprimeerde kolomindeling.
Data Explorer-pools ondersteunen een uitgebreid ecosysteem voor het opnemen van gegevens met behulp van connectors, SDK's, REST API's en andere beheerde mogelijkheden. Het biedt verschillende manieren om gegevens te gebruiken voor ad-hoc-query's, rapporten, dashboards, waarschuwingen, REST API's en SDK's.
Er zijn veel unieke mogelijkheden waardoor Data Explore de beste analytische engine is voor logboek- en tijdreeksanalyses in Azure. Als u meer wilt weten over hoe Data Explorer werkt, zie Azure Data Explorer whitepaper.
In de volgende secties worden de belangrijkste differentiators belicht.
Het indexeren van vrije tekst en semi-gestructureerde gegevens maakt bijna realtime hoge prestaties en hoge gelijktijdige query's mogelijk
Data Explorer indexeert semi-gestructureerde gegevens (JSON) en ongestructureerde gegevens (vrije tekst) waardoor het uitvoeren van query's zeer goed presteert op dit type gegevens. Standaard wordt elk veld geïndexeerd tijdens de gegevens opname met de optie om een coderingsbeleid op laag niveau te gebruiken om de index voor specifieke velden af te stemmen of uit te schakelen. Het bereik van de index is één gegevensshard.
De implementatie van de index is als volgt afhankelijk van het type veld:
| Veldtype | Implementatie van indexering |
|---|---|
| Tekenreeks | De engine bouwt een omgekeerde termindex voor tekenreekskolomwaarden. Elke tekenreekswaarde wordt geanalyseerd en gesplitst in genormaliseerde termen en een geordende lijst met logische posities, met record ordinalen, wordt vastgelegd voor elke term. De resulterende gesorteerde lijst met termen en de bijbehorende posities wordt opgeslagen als een onveranderbare B-structuur. |
| Numeriek DateIime Tijdspanne |
De engine bouwt een eenvoudige forward-index op basis van een bereik. De index registreert de min/max-waarden voor elk blok, voor een groep blokken en voor de hele kolom in de gegevensshard. |
| Dynamisch | Tijdens het opnameproces worden alle 'atomische' elementen in de dynamische waarde geïnsommen, zoals eigenschapsnamen, waarden en matrixelementen, en worden deze doorgestuurd naar de opbouwer van de index. Dynamische velden hebben dezelfde omgekeerde termindex als tekenreeksvelden. |
Deze efficiënte indexeringsmogelijkheden stellen Data Explore in staat om de gegevens bijna in realtime beschikbaar te maken voor query's met hoge prestaties en hoge gelijktijdigheid. Het systeem optimaliseert gegevensshards automatisch om de prestaties verder te verbeteren.
Kusto-querytaal
KQL heeft een grote, groeiende community met de snelle acceptatie van Azure Monitor Log Analytics en Application Insights, Microsoft Sentinel, Azure Data Explorer en andere Microsoft-aanbiedingen. De taal is goed ontworpen met een gemakkelijk te lezen syntaxis en biedt een soepele overgang van eenvoudige één-omsinge naar complexe query's voor gegevensverwerking. Hierdoor kunnen Data Explorer uitgebreide Ondersteuning voor Intellisense en een uitgebreide set taal constructies en ingebouwde mogelijkheden bieden voor aggregaties, tijdreeksen en gebruikersanalyses die niet beschikbaar zijn in SQL voor snelle verkenning van telemetriegegevens.