Så här matar du in historiska data i Azure Data Explorer

Artikel
02/23/2024

Ett vanligt scenario vid registrering till Azure Data Explorer är att mata in historiska data, som ibland kallas återfyllnad. Processen omfattar inmatning av data från ett befintligt lagringssystem till en tabell, vilket är en samling utrymmen.

Vi rekommenderar att du matar in historiska data med hjälp av egenskapen creationTime-inmatning för att ange tiden för skapande av utrymmen till den tidpunkt då data skapades. Om du använder skapandetiden som inmatningspartitioneringskriterier kan du åldersbestäma dina data i enlighet med dina cache- och kvarhållningsprinciper och göra tidsfilter mer effektiva.

Som standard anges skapandetiden för utrymmen till den tid då data matas in, vilket kanske inte ger det beteende som du förväntar dig. Anta till exempel att du har en tabell som har en cacheperiod på 30 dagar och en kvarhållningsperiod på två år. I det normala flödet cachelagras data som matas in när de skapas i 30 dagar och flyttas sedan till kall lagring. Efter två år, baserat på skapandetiden, tas äldre data bort en dag i taget. Men om du matar in två års historiska data där data som standard markeras med skapandetiden som den tid då data matas in. Det här kanske inte ger önskat resultat eftersom:

Alla data hamnar i cacheminnet och stannar där i 30 dagar med hjälp av mer cacheminne än du förväntade dig.
Äldre data tas inte bort en dag i taget. Därför behålls data i klustret längre än nödvändigt och efter två år tas alla bort samtidigt.
Data, som tidigare grupperats efter datum i källsystemet, kan nu grupperas i samma utsträckning, vilket leder till ineffektiva frågor.

Diagram som visar det förväntade kontra faktiska resultatet av inmatning av historiska data med standardtiden för skapande.

I den här artikeln får du lära dig hur du partitioner historiska data:

Använda inmatningsegenskapen creationTime under inmatning (rekommenderas)

Om möjligt kan du mata in historiska data med hjälp av creationTime inmatningsegenskapen, vilket gör att du kan ange skapandetiden för utrymmena genom att extrahera dem från filen eller blobsökvägen. Om mappstrukturen inte använder ett mönster för skapandedatum rekommenderar vi att du omstrukturerar filen eller blobsökvägen så att den återspeglar skapandetiden. Med den här metoden matas data in i tabellen med rätt skapandetid och cache- och kvarhållningsperioder tillämpas korrekt.

Anteckning

Som standard partitioneras utrymmena när de skapas (inmatning), och i de flesta fall behöver du inte ange en princip för datapartitionering.
Använda en partitioneringsprincip efter inmatning

Om du inte kan använda inmatningsegenskapen creationTime , till exempel om du matar in data med hjälp av Azure Cosmos DB-anslutningsappen där du inte kan styra skapandetiden eller om du inte kan strukturera om mappstrukturen, kan du partitionera om tabellen efter inmatningen för att uppnå samma effekt med partitioneringsprincipen. Den här metoden kan dock kräva en del utvärderingsversioner och fel för att optimera principegenskaper och är mindre effektiv än att använda inmatningsegenskapen creationTime . Vi rekommenderade endast den här metoden när det inte går att använda inmatningsegenskapen creationTime .

Förutsättningar

Ett Microsoft-konto eller en Microsoft Entra användaridentitet. En Azure-prenumeration krävs inte.
Ett Azure Data Explorer-kluster och en databas. Skapa ett kluster och en databas.
Ett lagringskonto.
Installera LightIngest för den rekommenderade metoden att använda inmatningsegenskapen creationTime under inmatningen.

Mata in historiska data

Vi rekommenderar starkt att du partitionerar historiska data med hjälp av inmatningsegenskapen creationTime under inmatningen. Men om du inte kan använda den här metoden kan du partitionera om tabellen efter inmatning med hjälp av en partitioneringsprincip.

Under inmatning (rekommenderas)
Efter inmatning

LightIngest kan vara användbart för att läsa in historiska data från ett befintligt lagringssystem till Azure Data Explorer. Du kan skapa ett eget kommando med hjälp av listan med kommandoradsargument, men den här artikeln visar hur du skapar kommandot automatiskt via en inmatningsguide. Förutom att skapa kommandot kan du använda den här processen för att skapa en ny tabell och skapa schemamappning. Det här verktyget härleder schemamappning från din datauppsättning.

Mål

I webbgränssnittet för Azure Data Explorer väljer du Fråga på den vänstra menyn.
Högerklicka på databasen där du vill mata in data och välj sedan LightIngest.

Fönstret Mata in data öppnas med fliken Mål markerad. Fälten Kluster och Databas fylls i automatiskt.
Välj en måltabell. Om du vill mata in data i en ny tabell väljer du Ny tabell och anger sedan ett tabellnamn.

Anteckning

Tabellnamn kan innehålla upp till 1 024 tecken, inklusive blanksteg, alfanumeriska tecken, bindestreck och understreck. Specialtecken stöds inte.
Välj Nästa: Källa.

Källa

Under Välj källa väljer du antingen Lägg till URL eller Välj container.
- När du lägger till en URL under Länk till källa anger du kontonyckeln eller SAS-URL:en till en container. Du kan skapa SAS-URL:en manuellt eller automatiskt.
- När du väljer en container från ditt lagringskonto väljer du din Lagringsprenumeration, Lagringskonto och Container i listrutorna.
Anteckning

Inmatning stöder en maximal filstorlek på 6 GB. Rekommendationen är att mata in filer mellan 100 MB och 1 GB.
Välj Avancerade inställningar för att definiera ytterligare inställningar för inmatningsprocessen med LightIngest.

I fönstret Avancerad konfiguration definierar du LightIngest-inställningarna enligt följande tabell.

Skärmbild av det avancerade konfigurationsfönstret som visar de ytterligare inställningarna för inmatningsbearbetning som involverar verktyget LightIngest.

Egenskap	Beskrivning
Tidsmönster för skapande	Ange för att åsidosätta inmatningstidsegenskapen för den skapade omfattningen med ett mönster, till exempel för att tillämpa ett datum baserat på containerns mappstruktur. Se även Tidsmönster för skapande.
Mönster för blobnamn	Ange det mönster som används för att identifiera de filer som ska matas in. Mata in alla filer som matchar mönstret för blobnamn i den angivna containern. Stöder jokertecken. Vi rekommenderar att du omsluter dubbla citattecken.
Tag	En tagg som tilldelats till inmatade data. Taggen kan vara vilken sträng som helst.
Begränsa mängden filer	Ange hur många filer som kan matas in. Matar in de första `n` filerna som matchar mönstret för blobnamn, upp till det angivna talet.
Vänta inte på att inmatningen ska slutföras	Om detta anges köar blobarna för inmatning utan att övervaka inmatningsprocessen. Om den inte anges fortsätter LightIngest att avsöka inmatningsstatusen tills inmatningen har slutförts.
Visa endast markerade objekt	Visa en lista över filerna i containern, men mata inte in dem.

Välj Klar för att återgå till fliken Källa .
1. Du kan också välja Filfilter för att filtrera data för att endast mata in filer i en specifik mappsökväg eller med ett visst filnamnstillägg.
  
  Som standard väljs en av filerna i containern slumpmässigt och används för att generera schemat för tabellen.
2. Du kan också ange vilken fil som ska användas under Schemadefinieringsfil.
Välj Nästa: Schema för att visa och redigera konfigurationen av tabellkolumnen.

Schema

Fliken Schema innehåller en förhandsgranskning av data.

Generera kommandot LightIngest genom att välja Nästa: Starta inmatning.

Valfritt:

Ändra det automatiskt härledda dataformatet genom att välja önskat format i den nedrullningsbara menyn.
Ändra det automatiskt härledda mappningsnamnet. Du kan använda alfanumeriska tecken och understreck. Blanksteg, specialtecken och bindestreck stöds inte.
När du använder en befintlig tabell kan du behålla det aktuella tabellschemat om tabellschemat matchar det valda formatet.
Välj Kommandovisningsprogram för att visa och kopiera de automatiska kommandon som genereras från dina indata.
Redigera kolumner. Under Partiell dataförhandsgranskning väljer du listrutorna i kolumnen för att ändra olika aspekter av tabellen.

Vilka ändringar du kan göra i en tabell beror på följande parametrar:

Tabelltypen är ny eller befintlig
Mappningstypen är ny eller befintlig

Tabelltyp	Mappningstyp	Tillgängliga justeringar
Ny tabell	Ny mappning	Ändra datatyp, Byt namn på kolumn, Ny kolumn, Ta bort kolumn, Uppdatera kolumn, Sortera stigande, Sortera fallande
Befintlig tabell	Ny mappning	Ny kolumn (där du sedan kan ändra datatyp, byta namn på och uppdatera) Uppdatera kolumn, Sortera stigande, Sortera fallande
	Befintlig mappning	Sortera stigande, Sortera fallande

Anteckning

När du lägger till en ny kolumn eller uppdaterar en kolumn kan du ändra mappningstransformeringar. Mer information finns i Mappa transformeringar

Mata in

När kommandot table, mapping och LightIngest har markerats med gröna bockmarkeringar väljer du kopieringsikonen längst upp till höger i kommandorutan Genererad för att kopiera det genererade LightIngest-kommandot.

Anteckning

Om det behövs kan du ladda ned LightIngest-verktyget genom att välja Ladda ned LightIngest.
För att slutföra inmatningsprocessen måste du köra LightIngest med hjälp av det kopierade kommandot.

Steg 1: Förbereda för ompartitionering

Justera kvarhållningsprincipen så att gamla data tillåts. I följande exempel anger du kvarhållningsprincipen för tabellen MyTable till 10 år.
```
.alter-merge table MyTable policy retention softdelete = 3650d recoverability = enabled
```
Justera cachelagringsprincipen så att alla data finns i frekvent cache för ompartitioneringen, eftersom endast frekventa data kan partitioneras om efter inmatning. I följande exempel anger du cachelagringen för tabellen MyTable till 10 år.
```
.alter table MyTable policy caching hot = 3650d
```
Viktigt

Att öka cachelagringsprincipen kan använda betydligt mer frekvent cachelagring än i normala åtgärder och kan leda till ökade kostnader.

Steg 2: Initiera ompartitionering

Skapa en partitioneringsprincip som partitionerar data efter kolumnen med namnet Timestamp. I följande exempel anger du partitioneringsprincipen för tabellen MyTable till partitionering efter kolumnen med namnet Timestamp.
```
.alter table MyTable policy partitioning
```
{
  "EffectiveDateTime" : "1970-01-01T00:00:00",
  "PartitionKeys": [
    {
      "ColumnName": "Timestamp",
      "Kind": "UniformRange",
      "Properties": {
        "Reference": "1970-01-01T00:00:00",
        "RangeSize": "1.00:00:00",
        "OverrideCreationTime": true
      }
    }
  ]
}
```
```
Information om partitioneringsprincipegenskaperna finns i partitionsegenskaper. För historisk inmatning är det viktigt hur du anger följande egenskaper:
- Egenskapen EffectiveDateTime måste anges till ett datum tidigare än inmatningens början för att utlösa ompartitioneringen.
- RangeSize är inställt på en dag så att data partitioneras om till bucketar om en dag. Du bör dock ange det här värdet så att det överensstämmer med dina data. Om du till exempel har mindre än flera GB data per dag kan du överväga att ange ett större värde.
- OverrideCreationTime måste anges till true så att utrymmena markeras med den dagen som skapandetid när data partitioneras till dagsbucketar.
Ange en sammanslagningsprincip som tillåter sammanslagning av alla utrymmen, inklusive utrymmen som är äldre än 14 dagar. Det är viktigt att ange den här principen eftersom ompartitioneringsprocessen skapar utrymmen som är äldre än 14 dagar, vilket som standard undantas av sammanslagningsprocessen.
```
.alter table MyTable policy merge
```
{
  "Lookback": {
    "Kind": "HotCache"
  }
}
```
```
Övervaka ompartitioneringsframställningen med hjälp av kommandot .show database extents partitioning statistics (.show database extents partitioning statistics ). I de returnerade resultaten letar du upp den tabell som du partitionerar om och övervakar kolumnen PartitionedRowPercentage . När värdet för kolumnen PartitionedRowPercentage är 100slutförs ompartitioneringen.

Steg 3: Rensa efter ompartitionering

När ompartitioneringen är klar kan du rensa de principer som du angav i föregående steg.

Ta bort partitioneringsprincipen.

.delete table MyTable policy partitioning

Ta bort sammanslagningsprincipen.
```
.delete table MyTable policy merge
```

Ta bort eller ange cachelagringsprincipen.

// Remove the caching policy
.delete table MyTable policy caching
// OR set the caching policy to your desired value
.alter table MyTable policy caching hot = 90d

Ta bort eller ange kvarhållningsprincipen.

// Remove the retention policy
.delete table MyTable policy retention
// OR set the retention policy to your desired value
.alter-merge table MyTable policy retention softdelete = 30d recoverability = enabled

Fråga efter data i Azure Data Explorer

Share via