Azure Adatkezelő adatfeldolgozásAzure Data Explorer data ingestion

Az adatgyűjtési folyamat az adatrekordok egy vagy több forrásból való betöltésére szolgál az Azure Adatkezelő-beli tábla létrehozásához vagy frissítéséhez.Data ingestion is the process used to load data records from one or more sources to create or update a table in Azure Data Explorer. A betöltést követően az adatmennyiség elérhetővé válik a lekérdezéshez.Once ingested, the data becomes available for query. Az alábbi ábra az Azure-Adatkezelő működésének teljes folyamatát mutatja be, beleértve az adatfeldolgozást is.The diagram below shows the end-to-end flow for working in Azure Data Explorer, including data ingestion.

Az adatfolyam

Az adatfeldolgozásért felelős Azure Adatkezelő adatkezelési szolgáltatás a következő funkciókat biztosítja:The Azure Data Explorer data management service, which is responsible for data ingestion, provides the following functionality:

  1. Lekérés: Adatok lekérése külső forrásokból (Event Hubs) vagy betöltési kérések beolvasása egy Azure-üzenetsor alapján.Data pull: Pull data from external sources (Event Hubs) or read ingestion requests from an Azure Queue.

  2. Kötegelt feldolgozás: A kötegelt adatok ugyanabba az adatbázisba és táblázatba áramlanak a betöltési teljesítmény optimalizálása érdekében.Batching: Batch data flowing to the same database and table to optimize ingestion throughput.

  3. Ellenőrzés: Az előzetes érvényesítés és a formátum átalakítása, ha szükséges.Validation: Preliminary validation and format conversion if necessary.

  4. Adatkezelés: A séma egyeztetése, az adatok rendszerezése, indexelése, kódolása és tömörítése.Data manipulation: Matching schema, organizing, indexing, encoding and compressing the data.

  5. A betöltési folyamat adatmegőrzési pontja: Kezelheti a betöltési terhelést a motoron, és az átmeneti hibák miatt újra próbálkozik.Persistence point in the ingestion flow: Manage ingestion load on the engine and handle retries upon transient failures.

  6. Az adatfeldolgozás véglegesítve: A lekérdezéshez elérhetővé teszi az adatfeldolgozást.Commit the data ingest: Makes the data available for query.

Betöltési módszerekIngestion methods

Az Azure Adatkezelő több betöltési módszert is támogat, amelyek mindegyike saját céljával, előnyökkel és hátrányokkal rendelkezik.Azure Data Explorer supports several ingestion methods, each with its own target scenarios, advantages, and disadvantages. Az Azure Adatkezelő a közös szolgáltatásokhoz, az SDK-k használatával történő programozott betöltéshez, valamint a motorhoz való közvetlen hozzáféréshez nyújt lehetőséget a felderítési célokra.Azure Data Explorer offers pipelines and connectors to common services, programmatic ingestion using SDKs, and direct access to the engine for exploration purposes.

Betöltés folyamatok, összekötők és beépülő modulok használatávalIngestion using pipelines, connectors, and plugins

Az Azure Adatkezelő jelenleg a következőket támogatja:Azure Data Explorer currently supports:

Betöltés az Integration Services használatávalIngestion using integration services

Programozott betöltésProgrammatic ingestion

Az Azure Adatkezelő a lekérdezésekhez és az adatfeldolgozáshoz használható SDK-kat biztosít.Azure Data Explorer provides SDKs that can be used for query and data ingestion. A programozott betöltés a betöltési költségek csökkentése érdekében van optimalizálva, a tárolási tranzakciók minimalizálása és a betöltési folyamat után.Programmatic ingestion is optimized for reducing ingestion costs (COGs), by minimizing storage transactions during and following the ingestion process.

Elérhető SDK-k és nyílt forráskódú projektek:Available SDKs and open-source projects:

A Kusto olyan ügyféloldali SDK-t kínál, amely az alábbiakkal végezheti el az adatgyűjtést és-lekérdezéseket:Kusto offers client SDK that can be used to ingest and query data with:

Programozottbetöltési technikák:Programmatic ingestion techniques:

  • Adatok betöltése az Azure Adatkezelő adatkezelési szolgáltatással (nagy átviteli sebesség és megbízható betöltés):Ingesting data through the Azure Data Explorer data management service (high-throughput and reliable ingestion):

    Köteg betöltése (SDK által biztosított): az ügyfél feltölti az Azure Blob Storage-ba (amelyet az Azure Adatkezelő adatkezelési szolgáltatása jelöl), és értesítéseket küld egy Azure-várólistára.Batch ingestion (provided by SDK): the client uploads the data to Azure Blob storage (designated by the Azure Data Explorer data management service) and posts a notification to an Azure Queue. A kötegelt betöltés a nagy mennyiségű, megbízható és olcsó adatfeldolgozáshoz ajánlott módszer.Batch ingestion is the recommended technique for high-volume, reliable, and cheap data ingestion.

  • Az adatfeldolgozás közvetlenül az Azure Adatkezelő Engine-be (a feltáráshoz és a prototípusokhoz legmegfelelőbb):Ingesting data directly into the Azure Data Explorer engine (most appropriate for exploration and prototyping):

    • Beágyazottbetöltés: a sávon kívüli adatot tartalmazó vezérlési parancs (. betöltés inline) ad hoc tesztelési célokra szolgál.Inline ingestion: control command (.ingest inline) containing in-band data is intended for ad hoc testing purposes.

    • Betöltés a lekérdezésből: vezérlési parancs (. set,. set-vagy-append,. set-vagy-replace), amely lekérdezési eredményekre mutat, a jelentések vagy kisebb ideiglenes táblák generálására szolgál.Ingest from query: control command (.set, .set-or-append, .set-or-replace) that points to query results is used for generating reports or small temporary tables.

    • Betöltés a Storageszolgáltatásból: a (. betöltés a (z) rendszerbe való betöltése) a külsőleg tárolt adatok (például az Azure Blob Storage) lehetővé teszik az adatok hatékony tömeges betöltését.Ingest from storage: control command (.ingest into) with data stored externally (for example, Azure Blob Storage) allows efficient bulk ingestion of data.

Különböző metódusok késése:Latency of different methods:

MódszerMethod KésésLatency
Beágyazott betöltésInline ingestion AzonnaliImmediate
Betöltés a lekérdezésbőlIngest from query Lekérdezési idő + feldolgozási időQuery time + processing time
Betöltés a tárolóbólIngest from storage Letöltési idő + feldolgozási időDownload time + processing time
Várólistán lévő betöltésQueued ingestion Kötegelt feldolgozás ideje + feldolgozási időBatching time + processing time

A feldolgozási idő az adatok méretétől függ, és kevesebb, mint néhány másodperc.Processing time depends on the data size, less than a few seconds. A kötegelt feldolgozás ideje az alapértelmezett érték 5 perc.Batching time defaults to 5 minutes.

A legmegfelelőbb betöltési módszer kiválasztásaChoosing the most appropriate ingestion method

Mielőtt elkezdi az adatgyűjtést, kérdezze meg a következő kérdéseket.Before you start to ingest data, you should ask yourself the following questions.

  • Hol találhatók az adataim?Where does my data reside?
  • Mi az adatformátum, és hogyan módosítható?What is the data format, and can it be changed?
  • Mik a lekérdezni kívánt mezők?What are the required fields to be queried?
  • Mi a várt adatmennyiség és a sebesség?What is the expected data volume and velocity?
  • Hány eseménytípus várható (a táblák számának megfelelően)?How many event types are expected (reflected as the number of tables)?
  • Milyen gyakran várható az esemény sémájának módosítása?How often is the event schema expected to change?
  • Hány csomópont hozza elő az adatmennyiséget?How many nodes will generate the data?
  • Mi a forrás operációs rendszer?What is the source OS?
  • Mik a késési követelmények?What are the latency requirements?
  • Használható az egyik meglévő felügyelt betöltési folyamat is?Can one of the existing managed ingestion pipelines be used?

Az olyan meglévő infrastruktúrával rendelkező szervezetek esetében, amelyek egy olyan üzenetkezelő szolgáltatáson alapulnak, mint az Event hub és a IoT Hub, az összekötők valószínűleg a legmegfelelőbb megoldást használják.For organizations with an existing infrastructure that are based on a messaging service like Event Hub and IoT Hub, using a connector is likely the most appropriate solution. A várólistára helyezett betöltés a nagy adatmennyiségek esetében megfelelő.Queued ingestion is appropriate for large data volumes.

Támogatott adatformátumokSupported data formats

A lekérdezésből bekövetkező összes betöltési módszernél formázza az adatot úgy, hogy az Azure Adatkezelő képes legyen elemezni.For all ingestion methods other than ingest from query, format the data so that Azure Data Explorer can parse it. A támogatott adatformátumok a következők:The supported data formats are:

  • CSV, TSV, TSVE, PSV, SCSV, RENDSZERÁLLAPOT-KIMUTATÁSCSV, TSV, TSVE, PSV, SCSV, SOH
  • JSON (sor-külön, többsoros), AvroJSON (line-separated, multi-line), Avro
  • ZIP és GZIPZIP and GZIP

Megjegyzés

Az adatgyűjtés során az adattípusok a céltábla oszlopai alapján lesznek kikövetkeztetve.When data is being ingested, data types are inferred based on the target table columns. Ha egy rekord hiányos, vagy egy mező nem értelmezhető a szükséges adattípussal, a rendszer null értékekkel tölti fel a megfelelő táblázat oszlopait.If a record is incomplete or a field cannot be parsed as the required data type, the corresponding table columns will be populated with null values.

Betöltési javaslatok és korlátozásokIngestion recommendations and limitations

  • A betöltött adatok tényleges adatmegőrzési szabályzata az adatbázis adatmegőrzési házirendjéből származik.The effective retention policy of ingested data is derived from the database's retention policy. Részletekért lásd: adatmegőrzési szabályzat .See retention policy for details. Az adatfeldolgozáshoz tábla -betöltési vagy adatbázis -betöltési engedélyek szükségesek.Ingesting data requires Table ingestor or Database ingestor permissions.
  • A betöltés legfeljebb 5 GB méretű fájlméretet támogat.Ingestion supports a maximum file size of 5 GB. A javaslat a fájlok 100 MB és 1 GB közötti betöltésére szolgál.The recommendation is to ingest files between 100 MB and 1 GB.

Séma-hozzárendelésSchema mapping

A séma-hozzárendelés segíti a forrásadatok mezőinek kötését a céltábla oszlopaihoz.Schema mapping helps bind source data fields to destination table columns.

  • CSV-megfeleltetés (nem kötelező) az összes sorszám-alapú formátummal működik.CSV Mapping (optional) works with all ordinal-based formats. A Betöltés parancs paraméterrel vagy előre létrehozott paranccsal végezhető el a betöltési parancs paraméterének használatával.It can be performed using the ingest command parameter or pre-created on the table and referenced from the ingest command parameter.
  • JSON-megfeleltetés (kötelező) és Avro-leképezés (kötelező) a betöltési parancs paraméterrel végezhető el.JSON Mapping (mandatory) and Avro mapping (mandatory) can be performed using the ingest command parameter. Emellett előre létrehozhatók a táblában , és a betöltési parancs paraméterében is szerepelhetnek.They can also be pre-created on the table and referenced from the ingest command parameter.

További lépésekNext steps