How-to: Onboard your ric data to Metrics Advisor (Uw metrische gegevens onboarden voor Metrics Advisor
Gebruik dit artikel voor meer informatie over het onboarden van uw gegevens voor Metrics Advisor.
Vereisten en configuratie voor gegevensschema
Azure Metrics Advisor is een service voor anomaliedetectie, diagnostische gegevens en analyse van tijdreeksen. Als ai-service worden uw gegevens gebruikt om het gebruikte model te trainen. De service accepteert tabellen van geaggregeerde gegevens met de volgende kolommen:
- Meting (vereist): Een meting is een fundamentele of eenheidsspecifieke term en een meetbare waarde van de metrische waarde. Dit betekent dat een of meer kolommen numerieke waarden bevatten.
- Tijdstempel (optioneel): nul of één kolom, met het type of
DateTimeString. Als deze kolom niet is ingesteld, wordt het tijdstempel ingesteld als de begintijd van elke opnameperiode. Maak het tijdstempel als volgt op:yyyy-MM-ddTHH:mm:ssZ. - Dimensie (optioneel): Een dimensie is een of meer categorische waarden. De combinatie van deze waarden identificeert een bepaalde univariate tijdreeks (bijvoorbeeld land, taal en tenant). De dimensiekolommen kunnen van elk gegevenstype zijn. Wees voorzichtig bij het werken met grote hoeveelheden kolommen en waarden, om te voorkomen dat er buitensporig veel dimensies worden verwerkt.
Als u gegevensbronnen zoals Azure Data Lake Storage of Azure Blob Storage gebruikt, kunt u uw gegevens aggregeren om ze af te stemmen op het verwachte schema voor metrische gegevens. Dit komt doordat deze gegevensbronnen een bestand gebruiken als invoer voor metrische gegevens.
Als u gegevensbronnen zoals Azure SQL of Azure Data Explorer gebruikt, kunt u aggregatiefuncties gebruiken om gegevens te aggregeren in uw verwachte schema. Dit komt doordat deze gegevensbronnen ondersteuning bieden voor het uitvoeren van een query om metrische gegevens op te halen uit bronnen.
Als u niet zeker weet wat sommige termen zijn, raadpleegt u Verklarende woordenlijst.
Vermijd het laden van gedeeltelijke gegevens
Gedeeltelijke gegevens worden veroorzaakt door inconsistenties tussen de gegevens die zijn opgeslagen in Metrics Advisor en de gegevensbron. Dit kan gebeuren wanneer de gegevensbron wordt bijgewerkt nadat Metrics Advisor het binnenhalen van gegevens is voltooid. Metrics Advisor haalt slechts eenmaal gegevens op uit een bepaalde gegevensbron.
Bijvoorbeeld als er onboarding van een metrische gegevens is Metrics Advisor voor bewaking. Metrics Advisor met succes metrische gegevens op tijdstempel A en voert anomaliedetectie uit. Als de metrische gegevens van die specifieke tijdstempel A echter zijn vernieuwd nadat de gegevens zijn opgenomen. Nieuwe gegevenswaarde wordt niet opgehaald.
U kunt proberen historische gegevens in te vullen (later beschreven) om inconsistenties te beperken, maar dit activeert geen nieuwe anomaliewaarschuwingen als er al waarschuwingen voor die tijdpunten zijn geactiveerd. Dit proces kan extra werkbelasting toevoegen aan het systeem en is niet automatisch.
Om te voorkomen dat gedeeltelijke gegevens worden geladen, raden we twee benaderingen aan:
Gegevens genereren in één transactie:
Zorg ervoor dat de metrische waarden voor alle dimensiecombinaties tegelijkertijd worden opgeslagen in de gegevensbron in één transactie. In het bovenstaande voorbeeld wacht u totdat de gegevens uit alle gegevensbronnen gereed zijn en laadt u deze vervolgens in Metrics Advisor in één transactie. Metrics Advisor kunt de gegevensfeed regelmatig peilen totdat de gegevens (of gedeeltelijk) zijn opgehaald.
Vertraging gegevens opnemen door het instellen van een juiste waarde voor de opname tijd offset parameter:
Stel de offsetparameter Opnametijd voor uw gegevensfeed in om de opname uit te stellen totdat de gegevens volledig zijn voorbereid. Dit kan handig zijn voor sommige gegevensbronnen die geen ondersteuning bieden voor transacties zoals Azure Table Storage. Zie Geavanceerde instellingen voor meer informatie.
Begin met het toevoegen van een gegevensfeed
Nadat u zich hebt Metrics Advisor portal en uw werkruimte hebt gekozen, klikt u op Aan de slag. Klik vervolgens op de hoofdpagina van de werkruimte in het linkermenu op Gegevensfeed toevoegen.
Verbindingsinstellingen toevoegen
1. Basisinstellingen
Vervolgens geeft u een set parameters op om uw tijdreeksgegevensbron te verbinden.
- Brontype: Het type gegevensbron waarin uw tijdreeksgegevens zijn opgeslagen.
- Granulariteit: het interval tussen opeenvolgende gegevenspunten in uw tijdreeksgegevens. Momenteel Metrics Advisor: Jaarlijks, Maandelijks, Wekelijks, Dagelijks, Elk uur en Aangepast. Het laagste interval dat de aanpassingsoptie ondersteunt, is 300 seconden.
- Seconden: het aantal seconden waarin granulariteitName is ingesteld op Aanpassen.
- Gegevens opnemen sinds (UTC): de begintijd van de basislijn voor gegevens opname.
startOffsetInSecondswordt vaak gebruikt om een offset toe te voegen om te helpen bij gegevensconsistentie.
2. Geef connection string
Vervolgens moet u de verbindingsgegevens voor de gegevensbron opgeven. Zie How-to:Verbinding maken verschillende gegevensbronnen voor meer informatie over de andere velden en het verbinden van verschillende typen gegevensbronnen.
3. Geef een query op voor één tijdstempel
Zie How-to:Verbinding maken verschillende gegevensbronnen voor meer informatie over verschillende typen gegevensbronnen.
Gegevens laden
Nadat de connection string en queryreeks zijn ingevoerd, selecteert u Gegevens laden. In deze bewerking controleert Metrics Advisor verbinding en machtiging voor het laden van gegevens, controleert u de benodigde parameters ( en ) die moeten worden gebruikt in de query en controleert u de kolomnaam uit de @IntervalStart @IntervalEnd gegevensbron.
Als er een fout is opgetreden bij deze stap:
- Controleer eerst of de connection string geldig is.
- Controleer vervolgens of er voldoende machtigingen zijn en of het IP-adres van de opnamewerker toegang krijgt.
- Controleer vervolgens of de vereiste parameters ( @IntervalStart en ) worden gebruikt in uw @IntervalEnd query.
Schemaconfiguratie
Zodra het gegevensschema is geladen, selecteert u de juiste velden.
Als de tijdstempel van een gegevenspunt wordt weggelaten, gebruikt Metrics Advisor het tijdstempel wanneer het gegevenspunt wordt opgenomen. Voor elke gegevensfeed kunt u ten meeste één kolom opgeven als een tijdstempel. Als u een bericht krijgt dat een kolom niet kan worden opgegeven als een tijdstempel, controleert u uw query of gegevensbron en of het queryresultaat meerdere tijdstempels heeft, niet alleen in de voorbeeldgegevens. Bij het opnemen van gegevens kan Metrics Advisor slechts één segment (bijvoorbeeld één dag, één uur , volgens de granulariteit) van tijdreeksgegevens uit de opgegeven bron gebruiken.
| Selectie | Beschrijving | Notities |
|---|---|---|
| Weergavenaam | Naam die moet worden weergegeven in uw werkruimte in plaats van de oorspronkelijke kolomnaam. | Optioneel. |
| Tijdstempel | Het tijdstempel van een gegevenspunt. Als u niets invult, wordt in Metrics Advisor het tijdstempel van opname van de gegevenspunten gebruikt. Voor elke gegevensfeed kunt u ten meeste één kolom opgeven als tijdstempel. | Optioneel. Moet worden opgegeven met maximaal één kolom. Als u een kolom krijgt die niet kan worden opgegeven als tijdstempelfout, controleert u uw query of gegevensbron op dubbele tijdstempels. |
| Measure | De numerieke waarden in de gegevensfeed. Voor elke gegevensfeed kunt u meerdere metingen opgeven, maar ten minste één kolom moet worden geselecteerd als meting. | Moet worden opgegeven met minimaal één kolom. |
| Dimensie | Categorische waarden. Een combinatie van verschillende waarden identificeert een bepaalde tijdreeks met één dimensie, bijvoorbeeld: land, taal, tenant. U kunt nul of meer kolommen als dimensies selecteren. Opmerking: wees voorzichtig bij het selecteren van een kolom zonder tekenreeks als dimensie. | Optioneel. |
| Negeren | De geselecteerde kolom negeren. | Optioneel. Voor gegevensbronnen die ondersteuning bieden voor het gebruik van een query om gegevens op te halen, is er geen optie 'Negeren'. |
Als u kolommen wilt negeren, raden we u aan uw query of gegevensbron bij te werken om deze kolommen uit te sluiten. U kunt kolommen ook negeren met Kolommen negeren en vervolgens Negeren voor de specifieke kolommen. Als een kolom een dimensie moet zijn en per ongeluk is ingesteld als Genegeerd, kan Metrics Advisor uiteindelijk gedeeltelijke gegevens opnemen. Stel dat de gegevens van uw query er als hieronder uit zien:
| Rij-id | Tijdstempel | Land/regio | Taal | Inkomsten |
|---|---|---|---|---|
| 1 | 2019/11/10 | China | ZH-CN | 10.000 |
| 2 | 2019/11/10 | China | EN-US | 1000 |
| 3 | 2019/11/10 | VS | ZH-CN | 12000 |
| 4 | 2019/11/11 | VS | EN-US | 23000 |
| ... | ... | ... | ... | ... |
Als Land een dimensie is en Taal is ingesteld op Genegeerd, hebben de eerste en tweede rij dezelfde dimensies voor een tijdstempel. Metrics Advisor gebruikt willekeurig één waarde uit de twee rijen. Metrics Advisor worden de rijen in dit geval niet geaggregeerd.
Nadat u het schema heeft geconfigureerd, selecteert u Schema verifiëren. In deze bewerking voert Metrics Advisor volgende controles uit:
- Of tijdstempel van querygegevens in één interval valt.
- Of er dubbele waarden worden geretourneerd voor dezelfde dimensiecombinatie binnen één metrische interval.
Instellingen voor automatisch verzamelen
Belangrijk
Als u hoofdoorzaakanalyse en andere diagnostische mogelijkheden wilt inschakelen, moeten de instellingen voor automatisch roll up worden geconfigureerd. Zodra dit is ingeschakeld, kunnen de instellingen voor automatisch updaten niet meer worden gewijzigd.
Metrics Advisor kan tijdens de opname automatisch aggregatie (bijvoorbeeld SUM, MAX, MIN) uitvoeren op elke dimensie en vervolgens een hiërarchie bouwen die wordt gebruikt in hoofd-caseanalyse en andere diagnostische functies.
Denk eens na over de volgende scenario's:
"Ik hoeft de analyse van het verzamelen van gegevens niet op te nemen."
U hoeft de Metrics Advisor te gebruiken.
"Mijn gegevens zijn al verzameld en de dimensiewaarde wordt vertegenwoordigd door: NULL of Leeg (standaard), alleen NULL, Overige."
Deze optie betekent Metrics Advisor de gegevens niet hoeven te worden verzameld omdat de rijen al zijn opgeteld. Als u bijvoorbeeld alleen NULL selecteert, wordt de tweede gegevensrij in het onderstaande voorbeeld gezien als een aggregatie van alle landen en taal EN-US; De vierde gegevensrij met een lege waarde voor Land wordt echter gezien als een gewone rij die kan duiden op onvolledige gegevens.
Land/regio Taal Inkomsten China ZH-CN 10.000 (NULL) EN-US 999999 VS EN-US 12000 EN-US 5000 "Ik moet Metrics Advisor gegevens kunnen verzamelen door Som/Max/Min/Gemiddelde/Aantal te berekenen en deze weer te geven met {een tekenreeks}.
Sommige gegevensbronnen, zoals Cosmos DB of Azure Blob Storage bieden geen ondersteuning voor bepaalde berekeningen, zoals groep voor of kubus. Metrics Advisor biedt de optie voor het automatisch genereren van een gegevenskubus tijdens de opname. Deze optie betekent dat u Metrics Advisor moet berekenen met behulp van het algoritme dat u hebt geselecteerd en dat u de opgegeven tekenreeks moet gebruiken om het samen te Metrics Advisor. Hiermee worden geen gegevens in uw gegevensbron gewijzigd. Stel bijvoorbeeld dat u een set tijdreeksen hebt die staat voor metrische gegevens over Verkoop met de dimensie (Land, Regio). Voor een bepaalde tijdstempel kan dit er als volgt uitzien:
Land Region Verkoop Canada Alberta 100 Canada Brits-Columbia 500 Verenigde Staten Montana 100 Nadat Automatisch verzamelen met Som is inschakelen, Metrics Advisor de dimensiecombinaties berekend en worden de metrische gegevens opgeteld tijdens de gegevens opname. Het resultaat kan zijn:
Land Region Verkoop Canada Alberta 100 NULL Alberta 100 Canada Brits-Columbia 500 NULL Brits-Columbia 500 Verenigde Staten Montana 100 NULL Montana 100 NULL NULL 700 Canada NULL 600 Verenigde Staten NULL 100 (Country=Canada, Region=NULL, Sales=600)betekent dat de som van verkoop in Canada (alle regio's) 600 is.Hier volgt de transformatie in SQL taal.
SELECT dimension_1, dimension_2, ... dimension_n, sum (metrics_1) AS metrics_1, sum (metrics_2) AS metrics_2, ... sum (metrics_n) AS metrics_n FROM each_timestamp_data GROUP BY CUBE (dimension_1, dimension_2, ..., dimension_n);Houd rekening met het volgende voordat u de functie Automatisch inrollen gebruikt:
- Als u SUM wilt gebruiken om uw gegevens te aggregeren, moet u ervoor zorgen dat uw metrische gegevens additief zijn in elke dimensie. Hier zijn enkele voorbeelden van niet-additieve metrische gegevens:
- Metrische gegevens op basis van breuken. Dit omvat ratio, percentage, enzovoort. U moet bijvoorbeeld niet het werkeloosheidspercentage van elke staat toevoegen om het werkeloosheidspercentage van het hele land te berekenen.
- Overlap in dimensie. U moet bijvoorbeeld niet het aantal personen aan elke sport toevoegen om het aantal mensen te berekenen dat van sport houdt, omdat er een overlap tussen hen is, kan één persoon van meerdere sport houden.
- Om de status van het hele systeem te garanderen, is de grootte van de kubus beperkt. Momenteel is de limiet 1.000.000. Als uw gegevens deze limiet overschrijden, mislukt de opname voor die tijdstempel.
- Als u SUM wilt gebruiken om uw gegevens te aggregeren, moet u ervoor zorgen dat uw metrische gegevens additief zijn in elke dimensie. Hier zijn enkele voorbeelden van niet-additieve metrische gegevens:
Geavanceerde instellingen
Er zijn verschillende geavanceerde instellingen waarmee gegevens op een aangepaste manier kunnen worden opgenomen, zoals het opgeven van opname-offset of gelijktijdigheid. Zie de sectie Geavanceerde instellingen in het artikel gegevensfeedbeheer voor meer informatie.
Geef een naam op voor de gegevensfeed en controleer de voortgang van de opname
Geef een aangepaste naam op voor gegevensfeed op. Deze naam wordt weergegeven in uw werkruimte. Klik vervolgens op Verzenden. Op de detailpagina van de gegevensfeed kunt u de voortgangsbalk voor opname gebruiken om statusinformatie weer te geven.
Details van opnamefout controleren:
- Klik op Details tonen.
- Klik op Status en kies Vervolgens Mislukt of Fout.
- Beweeg de muisaanwijzer over een mislukte opname en bekijk het bericht met details dat wordt weergegeven.
Een mislukte status geeft aan dat de opname voor deze gegevensbron later opnieuw wordt proberen. De status Fout geeft aan Metrics Advisor wordt niet opnieuw voor de gegevensbron gebruikt. Als u gegevens opnieuw wilt laden, moet u een backfill/reload handmatig activeren.
U kunt de voortgang van een opname ook opnieuw laden door op Voortgang vernieuwen te klikken. Nadat de gegevens zijn opgenomen, kunt u op metrische gegevens klikken en de resultaten van anomaliedetectie controleren.