Historische gegevens opnemen in Azure Data Explorer

Een veelvoorkomend scenario bij het onboarden naar Azure Data Explorer is het opnemen van historische gegevens, ook wel backfill genoemd. Het proces omvat het opnemen van gegevens uit een bestaand opslagsysteem in een tabel, wat een verzameling van gebieden is.

We raden u aan historische gegevens op te nemen met behulp van de eigenschap creationTime ingestion om de aanmaaktijd van gebieden in te stellen op het moment dat de gegevens zijn gemaakt. Het gebruik van de aanmaaktijd als criterium voor opnamepartitionering kan uw gegevens verouderen in overeenstemming met uw cache - en bewaarbeleid en tijdfilters efficiënter maken.

Standaard is de aanmaaktijd voor gebieden ingesteld op het tijdstip waarop de gegevens worden opgenomen, wat mogelijk niet het verwachte gedrag veroorzaakt. Stel dat u een tabel hebt met een cacheperiode van 30 dagen en een bewaarperiode van twee jaar. In de normale stroom worden gegevens die tijdens de productie worden opgenomen, gedurende 30 dagen in de cache opgeslagen en vervolgens verplaatst naar koude opslag. Na twee jaar, op basis van de aanmaaktijd, worden oudere gegevens één dag tegelijk verwijderd. Als u echter twee jaar aan historische gegevens opneemt, waarbij de gegevens standaard worden gemarkeerd met aanmaaktijd als het tijdstip waarop de gegevens worden opgenomen. Dit levert mogelijk niet het gewenste resultaat op omdat:

  • Alle gegevens komen in de cache terecht en blijven daar 30 dagen, waarbij meer cache wordt gebruikt dan verwacht.
  • Oudere gegevens worden niet één dag tegelijk verwijderd; daarom worden gegevens langer bewaard in het cluster dan nodig is en worden ze na twee jaar allemaal in één keer verwijderd.
  • Gegevens, die eerder waren gegroepeerd op datum in het bronsysteem, kunnen nu in dezelfde mate in batches worden samengevoegd , wat leidt tot inefficiënte query's.

Diagram met het verwachte versus werkelijke resultaat van het opnemen van historische gegevens met behulp van de standaardaanmaaktijd.

In dit artikel leert u hoe u historische gegevens partitioneren:

  • creationTime De opnameeigenschap gebruiken tijdens opname (aanbevolen)

    Neem waar mogelijk historische gegevens op met behulp van de creationTime opnameeigenschap, waarmee u de aanmaaktijd van de gebieden kunt instellen door deze uit het bestand of blobpad te extraheren. Als uw mappenstructuur geen patroon voor het maken van een datum gebruikt, raden we u aan uw bestand of blobpad te herstructureren om de aanmaaktijd weer te geven. Met deze methode worden de gegevens opgenomen in de tabel met de juiste aanmaaktijd en worden de cache- en bewaarperioden correct toegepast.

    Notitie

    Standaard worden gebieden gepartitioneerd op het moment van maken (opname) en in de meeste gevallen is het niet nodig om een beleid voor gegevenspartitionering in te stellen.

  • Een partitioneringsbeleid na opname gebruiken

    Als u de creationTime opname-eigenschap niet kunt gebruiken, bijvoorbeeld als u gegevens opneemt met behulp van de Azure Cosmos DB-connector waar u de aanmaaktijd niet kunt beheren of als u de mappenstructuur niet kunt herstructureren, kunt u de tabel na opname opnieuw partitioneren om hetzelfde effect te bereiken met behulp van het partitiebeleid. Deze methode kan echter enige proefversies vereisen om beleidseigenschappen te optimaliseren en is minder efficiënt dan het gebruik van de creationTime opname-eigenschap. We raden deze methode alleen aan wanneer het gebruik van de creationTime opname-eigenschap niet mogelijk is.

Vereisten

  • Een Microsoft-account of een Microsoft Entra gebruikersidentiteit. Een Azure-abonnement is niet vereist.
  • Een Azure Data Explorer-cluster en -database. Maak een cluster en database.
  • Een opslagaccount.
  • Installeer LightIngest voor de aanbevolen methode voor het gebruik van de creationTime eigenschap opname tijdens opname.

Historische gegevens opnemen

We raden u ten zeerste aan om historische gegevens te partitioneren met behulp van de creationTime opname-eigenschap tijdens opname. Als u deze methode echter niet kunt gebruiken, kunt u de tabel na opname opnieuw partitioneren met behulp van een partitioneringsbeleid.

LightIngest kan handig zijn voor het laden van historische gegevens van een bestaand opslagsysteem naar Azure Data Explorer. Hoewel u uw eigen opdracht kunt maken met behulp van de lijst met opdrachtregelargumenten, wordt in dit artikel beschreven hoe u deze opdracht automatisch kunt genereren via een opnamewizard. Naast het maken van de opdracht, kunt u dit proces gebruiken om een nieuwe tabel te maken en schematoewijzing te maken. Met dit hulpprogramma wordt schematoewijzing afgeleid van uw gegevensset.

Doel

  1. Selecteer in de webinterface van Azure Data Explorer in het linkermenu de optie Query.

  2. Klik met de rechtermuisknop op de database waarin u de gegevens wilt opnemen en selecteer vervolgens LightIngest.

    Schermopname van de webinterface van Azure Data Explorer met het menu Meer database.

    Het venster Gegevens opnemen wordt geopend met het tabblad Bestemming geselecteerd. De velden Cluster en Database worden automatisch ingevuld.

  3. Selecteer een doeltabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u Nieuwe tabel en voert u een tabelnaam in.

    Notitie

    Tabelnamen mogen maximaal 1024 tekens bevatten, inclusief spaties, alfanumerieke tekens, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.

    Schermopname van het doeltabblad met de doeldatabase en -tabel.

  4. Selecteer Volgende: Bron.

Bron

  1. Selecteer onder Bron selecteren de optie URL toevoegen of Container selecteren.

    • Wanneer u een URL toevoegt, geeft u onder Koppelen aan bron de accountsleutel of SAS-URL voor een container op. U kunt de SAS-URL handmatig of automatisch maken.

    • Wanneer u een container selecteert in uw opslagaccount, selecteert u uw Opslagabonnement, Opslagaccount en Container in de vervolgkeuzelijsten.

      Schermopname van het dialoogvenster voor het selecteren van een container in het opslagabonnement en -account.

    Notitie

    Opname ondersteunt een maximale bestandsgrootte van 6 GB. Het wordt aanbevolen om bestanden tussen 100 MB en 1 GB op te nemen.

  2. Selecteer Geavanceerde instellingen om aanvullende instellingen te definiëren voor het opnameproces met behulp van LightIngest.

    Schermopname van het selecteren van geavanceerde instellingen voor de opnameverwerking met het hulpprogramma LightIngest.

  3. Definieer in het deelvenster Geavanceerde configuratie de LightIngest-instellingen volgens de volgende tabel.

    Schermopname van het deelvenster Geavanceerde configuratie met de aanvullende instellingen voor de opnameverwerking met het hulpprogramma LightIngest.

    Eigenschap Beschrijving
    Patroon voor aanmaaktijd Geef op om de eigenschap opnametijd van het gemaakte bereik te overschrijven met een patroon, bijvoorbeeld om een datum toe te passen op basis van de mapstructuur van de container. Zie ook Patroon aanmaaktijd.
    Blobnaampatroon Geef het patroon op dat wordt gebruikt om de bestanden te identificeren die moeten worden opgenomen. Alle bestanden opnemen die overeenkomen met het blobnaampatroon in de opgegeven container. Ondersteunt jokertekens. We raden u aan tussen dubbele aanhalingstekens te plaatsen.
    Tag Een tag die is toegewezen aan de opgenomen gegevens. De tag kan elke tekenreeks zijn.
    Beperk het aantal bestanden Geef het aantal bestanden op dat kan worden opgenomen. Hiermee worden de eerste n bestanden opgenomen die overeenkomen met het blobnaampatroon, tot het opgegeven getal.
    Niet wachten totdat de opname is voltooid Indien ingesteld, worden de blobs in de wachtrij geplaatst voor opname zonder het opnameproces te controleren. Als deze optie niet is ingesteld, blijft LightIngest de opnamestatus peilen totdat de opname is voltooid.
    Alleen geselecteerde items weergeven Vermeld de bestanden in de container, maar neemt ze niet op.
  4. Selecteer Gereed om terug te keren naar het tabblad Bron .

    1. Selecteer desgewenst Bestandsfilters om de gegevens te filteren om alleen bestanden op te nemen in een specifiek mappad of met een bepaalde bestandsextensie.

      Schermopname van het filteren van gegevens op het tabblad Bron van het scherm Nieuwe gegevens opnemen.

      Standaard wordt een van de bestanden in de container willekeurig geselecteerd en gebruikt om het schema voor de tabel te genereren.

    2. U kunt desgewenst onder Bestand met schema definiëren het te gebruiken bestand opgeven.

  5. Selecteer Volgende: Schema om de configuratie van de tabelkolom weer te geven en te bewerken.

Schema

Het tabblad Schema biedt een voorbeeld van de gegevens.

Als u de opdracht LightIngest wilt genereren, selecteert u Volgende: Opname starten.

Optioneel:

  • Wijzig de automatisch afgeleide gegevensindeling door de gewenste indeling te selecteren in de vervolgkeuzelijst.
  • Wijzig de automatisch afgeleide toewijzingsnaam. U kunt alfanumerieke tekens en onderstrepingstekens gebruiken. Spaties, speciale tekens en afbreekstreepjes worden niet ondersteund.
  • Wanneer u een bestaande tabel gebruikt, kunt u het huidige tabelschema behouden als het tabelschema overeenkomt met de geselecteerde indeling.
  • Selecteer Opdrachtviewer om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer.
  • Kolommen bewerken. Selecteer onder Gedeeltelijk gegevensvoorbeeld de vervolgkeuzemenu's van de kolom om verschillende aspecten van de tabel te wijzigen.

De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:

  • Tabeltype is nieuw of bestaand
  • Toewijzingstype is nieuw of bestaand
Tabletype Toewijzingstype Beschikbare aanpassingen
Nieuwe tabel Nieuwe toewijzing Gegevenstype wijzigen, Kolomnaam wijzigen, Nieuwe kolom, Kolom verwijderen, Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande tabel Nieuwe toewijzing Nieuwe kolom (waarop u vervolgens het gegevenstype kunt wijzigen, de naam kunt wijzigen en bijwerken),
Kolom bijwerken, Oplopend sorteren, Aflopend sorteren
Bestaande toewijzing Oplopend sorteren, Aflopend sorteren

Notitie

Wanneer u een nieuwe kolom toevoegt of een kolom bijwerkt, kunt u toewijzingstransformaties wijzigen. Zie Toewijzingstransformaties voor meer informatie

Opnemen

  1. Zodra de tabel, toewijzing en de opdracht LightIngest zijn gemarkeerd met groene vinkjes, selecteert u het kopieerpictogram rechtsboven in het opdrachtvak Gegenereerd om de gegenereerde LightIngest-opdracht te kopiëren.

    Schermopname van het tabblad Samenvatting met de opdracht gegenereerd. U kunt de opdracht kopiëren met behulp van het kopieerpictogram boven het gegenereerde opdrachtvak.

    Notitie

    Indien nodig kunt u het hulpprogramma LightIngest downloaden door LightIngest downloaden te selecteren.

  2. Als u het opnameproces wilt voltooien, moet u LightIngest uitvoeren met behulp van de gekopieerde opdracht.