Vad är Azure Synapse Datautforskaren? (Förhandsversion)
Azure Synapse Datautforskaren ger kunderna en interaktiv frågeupplevelse för att få insikter från logg- och telemetridata. För att komplettera befintliga SQL- och Apache Spark-analyskörningsmotorer är Datautforskaren Analytics Runtime optimerad för effektiv logganalys med kraftfull indexeringsteknik för att automatiskt indexera fritext och halvstrukturerade data som vanligtvis finns i telemetridata.
Vad gör Azure Synapse Datautforskaren unikt?
Enkel inmatning – Datautforskaren erbjuder inbyggda integreringar för datainmatning utan kod/med lite kod, datainmatning med högt dataflöde och cachelagring av data från realtidskällor. Data kan matas in från källor som Event Hub, Kafka, Azure Data Lake, agenter med öppen källkod som Fluentd/Fluent Bit och en mängd olika molnbaserade och lokala datakällor.
Ingen komplex datamodellering – med Datautforskaren finns det inget behov av att skapa komplexa datamodeller och inget behov av komplexa skript för att transformera data innan de används.
Inget indexunderhåll – Det finns inget behov av underhållsaktiviteter för att optimera data för frågeprestanda och inget behov av indexunderhåll. Med Datautforskaren är alla rådata tillgängliga omedelbart, så att du kan köra frågor med höga prestanda och hög samtidighet på dina strömmande och beständiga data. Du kan använda dessa frågor för att skapa instrumentpaneler och aviseringar i nära realtid och ansluta driftanalysdata till resten av dataanalysplattformen.
Demokratisera dataanalys – Datautforskaren demokratiserar självbetjänings- och stordataanalys med det intuitiva Kusto Query Language (KQL) som ger uttryck och kraft för SQL med enkelheten i Excel. KQL är mycket optimerat för att utforska råtelemetri- och tidsseriedata genom att utnyttja Datautforskaren:s förstklassiga textindexeringsteknik för effektiv fritext- och regex-sökning och omfattande parsningsfunktioner för att fråga efter spårnings-\textdata och JSON-halvstrukturerade data, inklusive matriser och kapslade strukturer. KQL erbjuder avancerat tidsseriestöd för att skapa, manipulera och analysera flera tidsserier med stöd för python-körning i motorn för modellbedömning.
Beprövad teknik i petabyteskala – Datautforskaren är ett distribuerat system med beräkning och lagring som kan skalas oberoende av varandra, vilket möjliggör analys på gigabyte eller petabyte med data.
Integrerad – Azure Synapse Analytics ger samverkan mellan data mellan Datautforskaren-, Apache Spark- och SQL-motorer så att datatekniker, dataexperter och dataanalytiker enkelt och säkert kan komma åt och samarbeta kring samma data i datasjön.
När ska jag använda Azure Synapse Datautforskaren?
Använd Datautforskaren som en dataplattform för att skapa logganalys- och IoT-analyslösningar i nära realtid för att:
Konsolidera och korrelera dina loggar och händelsedata i lokala datakällor, molndatakällor och datakällor från tredje part.
Påskynda din AI Ops-resa (mönsterigenkänning, avvikelseidentifiering, prognoser med mera).
Ersätt infrastrukturbaserade loggsökningslösningar för att spara kostnader och öka produktiviteten.
Skapa IoT-analyslösningar för dina IoT-data.
Skapa SaaS-analyslösningar för att erbjuda tjänster till dina interna och externa kunder.
Datautforskaren för pool
Datautforskaren implementerar en utskalningsarkitektur genom att separera beräknings- och lagringsresurserna. På så sätt kan du oberoende skala varje resurs och till exempel köra flera skrivskyddade beräkningar på samma data. Datautforskaren-pooler består av en uppsättning beräkningar som kör motorn och som ansvarar för att automatiskt indexera, komprimera, cachelagra och betjäna distribuerade frågor. De har också en andra uppsättning beräkningar som kör datahanteringstjänsten som ansvarar för bakgrundsjobb och hanterad och köad datainmatning. Alla data bevaras på hanterade bloblagringskonton med ett komprimerat kolumnformat.
Datautforskaren har stöd för ett omfattande ekosystem för att mata in data med anslutningsappar, SDK:er, REST-API:er och andra hanterade funktioner. Den erbjuder olika sätt att använda data för adhoc-frågor, rapporter, instrumentpaneler, aviseringar, REST-API:er och SDK:er.
Det finns många unika funktioner som gör Data Explore till den bästa analysmotorn för logg- och tidsserieanalys i Azure. Om du vill veta mer om hur Datautforskaren fungerar kan du läsa Azure Data Explorer white paper.
I följande avsnitt beskrivs de viktigaste differentiatorerna.
Fritextdata och halvstrukturerad dataindexering möjliggör höga prestanda och höga samtidiga frågor nästan i realtid
Datautforskaren indexerar halvstrukturerade data (JSON) och ostrukturerade data (fritext) som gör att frågor som körs presterar mycket bra på den här typen av data. Som standard indexeras varje fält under datainmatningen med alternativet att använda en kodningsprincip på låg nivå för att finjustera eller inaktivera indexet för specifika fält. Omfånget för indexet är en enda datashard.
Implementeringen av indexet beror på typen av fält, enligt följande:
| Fälttyp | Indexeringsimplementering |
|---|---|
| Sträng | Motorn skapar ett inverterat termindex för strängkolumnvärden. Varje strängvärde analyseras och delas upp i normaliserade termer och en ordnad lista över logiska positioner som innehåller postordningstal registreras för varje term. Den sorterade listan med termer och deras associerade positioner lagras som ett oföränderligt B-träd. |
| Numerisk DateIime Gått |
Motorn skapar ett enkelt intervallbaserat framåtriktade index. Indexet registrerar min/max-värdena för varje block, för en grupp med block och för hela kolumnen i datasharden. |
| Dynamiskt | Inmatningsprocessen räknar upp alla "atomiska" element i det dynamiska värdet, till exempel egenskapsnamn, värden och matriselement, och vidarebefordrar dem till indexverktyget. Dynamiska fält har samma inverterade termindex som strängfält. |
Dessa effektiva indexeringsfunktioner gör det möjligt för Data Explore att göra data tillgängliga nästan i realtid för frågor med höga prestanda och hög samtidighet. Systemet optimerar automatiskt datashards för att förbättra prestandan ytterligare.
Kusto-frågespråk
KQL har en stor, växande community med det snabba införandet av Azure Monitor Log Analytics och Application Insights, Microsoft Sentinel, Azure Data Explorer och andra Microsoft-erbjudanden. Språket är väl utformat med en lättläst syntax och ger en smidig övergång från enkla frågor till komplexa databearbetningsfrågor. Detta gör Datautforskaren ge omfattande IntelliSense-stöd och en omfattande uppsättning språkkonstruktioner och inbyggda funktioner för aggregeringar, tidsserier och användaranalys som inte är tillgängliga i SQL för snabb utforskning av telemetridata.