Vad är Azure Data Factory?What is Azure Data Factory?

När det gäller stordata, lagras råa, oordnade data ofta i relationella, icke-relationella och andra lagringssystem.In the world of big data, raw, unorganized data is often stored in relational, non-relational, and other storage systems. Men i sig självt så har rådata inte rätt kontext eller mening för att ge analytiker, dataforskare och beslutsfattare meningsfulla insikter.However, on its own, raw data doesn't have the proper context or meaning to provide meaningful insights to analysts, data scientists, or business decision makers.

Stordata kräver en tjänst som kan samordna och operationalisera processer för att förfina dessa enorma lager av rådata till handlingsbara affärsinsikter.Big data requires service that can orchestrate and operationalize processes to refine these enormous stores of raw data into actionable business insights. Azure Data Factory är en hanterad molntjänst som skapats för dessa komplexa, hybrida, ETL- (extract-transform-load), ELT- (extract-load-transform) och dataintegreringsprojekt.Azure Data Factory is a managed cloud service that's built for these complex hybrid extract-transform-load (ETL), extract-load-transform (ELT), and data integration projects.

Tänk dig till exempel ett spelföretag som samlar in petabyte med spelloggar från spel i molnet.For example, imagine a gaming company that collects petabytes of game logs that are produced by games in the cloud. Företaget vill analysera dessa loggar för att få insikter om kunders preferenser, demografi och användningsbeteende.The company wants to analyze these logs to gain insights into customer preferences, demographics, and usage behavior. Det vill också identifiera möjligheter till merförsäljning och korsförsäljning, utveckla intressanta nya funktioner, driva affärstillväxten och ge en bättre kundupplevelse.It also wants to identify up-sell and cross-sell opportunities, develop compelling new features, drive business growth, and provide a better experience to its customers.

När företaget ska analysera loggarna måste de använda referensdata, till exempel kundinformation, spelinformation och marknadsföringskampanjinformation som finns i ett lokalt datalager.To analyze these logs, the company needs to use reference data such as customer information, game information, and marketing campaign information that is in an on-premises data store. Företaget vill använda dessa data från det lokala datalagret och kombinera dem med ytterligare loggdata som de har i ett molndatalager.The company wants to utilize this data from the on-premises data store, combining it with additional log data that it has in a cloud data store.

För att utvinna insikter så hoppas de kunna bearbeta dessa sammanslagna data med hjälp av ett Spark-kluster i molnet (Azure HDInsight) och publicera omvandlade data till ett molninformationslager, till exempel Azure SQL Data Warehouse, för att enkelt kunna skapa en rapport från dem.To extract insights, it hopes to process the joined data by using a Spark cluster in the cloud (Azure HDInsight), and publish the transformed data into a cloud data warehouse such as Azure SQL Data Warehouse to easily build a report on top of it. De vill automatisera det här arbetsflödet och övervaka och hantera det enligt ett dagligt schema.They want to automate this workflow, and monitor and manage it on a daily schedule. De vill också köra det när filer landar i en bloblagercontainer.They also want to execute it when files land in a blob store container.

Azure Data Factory är en plattform som löser den här typen av datascenarier.Azure Data Factory is the platform that solves such data scenarios. Det är den MOLNBASERAD ETL-och data integrerings tjänst som gör att du kan skapa data drivna arbets flöden för att dirigera data förflyttning och omvandla data i skala.It is the cloud-based ETL and data integration service that allows you to create data-driven workflows for orchestrating data movement and transforming data at scale. Med Azure Data Factory kan du skapa och schemalägga datadrivna arbetsflöden (kallas pipelines) som kan mata in data från olika datalager.Using Azure Data Factory, you can create and schedule data-driven workflows (called pipelines) that can ingest data from disparate data stores. Du kan bygga komplexa ETL-processer som omvandlar data visuellt med data flöden eller med hjälp av beräknings tjänster som Azure HDInsight Hadoop, Azure Databricks och Azure SQL Database.You can build complex ETL processes that transform data visually with data flows or by using compute services such as Azure HDInsight Hadoop, Azure Databricks, and Azure SQL Database.

Dessutom kan du publicera dina transformerade data till data lager som Azure SQL Data Warehouse för Business Intelligence-program (BI) att använda.Additionally, you can publish your transformed data to data stores such as Azure SQL Data Warehouse for business intelligence (BI) applications to consume. Slutligen kan rådata ordnas, via Azure Data Factory, i meningsfulla datalager och datasjöar för att ge bättre beslutsunderlag.Ultimately, through Azure Data Factory, raw data can be organized into meaningful data stores and data lakes for better business decisions.

Toppnivåvy över Data Factory

Hur fungerar det?How does it work?

Data Factory innehåller en serie sammankopplade system som tillhandahåller en komplett plattform för data tekniker.Data Factory contains a series of interconnected systems that provide a complete end-to-end platform for data engineers.

Ansluta och samla inConnect and collect

Företag har olika typer av data som befinner sig på olika platser, lokalt, i molnet, strukterade, ostrukturerade och delvis strukturerade och alla dessa data anländer i olika intervall och med olika hastighet.Enterprises have data of various types that are located in disparate sources on-premises, in the cloud, structured, unstructured, and semi-structured, all arriving at different intervals and speeds.

Det första steget när det gäller att skapa ett informationsproduktionssystem är att ansluta till alla nödvändiga data- och bearbetningskällor, exempelvis SaaS-tjänster, databaser, filresurser och FTP-webbtjänster.The first step in building an information production system is to connect to all the required sources of data and processing, such as software-as-a-service (SaaS) services, databases, file shares, and FTP web services. Nästa steg är att flytta data efter behov till en central plats för senare bearbetning.The next step is to move the data as needed to a centralized location for subsequent processing.

Utan Data Factory måste företag skapa egna dataöverföringskomponenter eller skriva anpassade tjänster för att integrera dessa data- och bearbetningskällor.Without Data Factory, enterprises must build custom data movement components or write custom services to integrate these data sources and processing. Det är dyrt och svårt att integrera och underhålla sådana system.It's expensive and hard to integrate and maintain such systems. De saknar dessutom ofta övervakning, varningar och de kontroller i företagsklass som en helt hanterad tjänst kan erbjuda.In addition, they often lack the enterprise-grade monitoring, alerting, and the controls that a fully managed service can offer.

Med Data Factory kan du använda kopieringsaktiviteten i en datapipeline för att flytta data från datalager lokalt och molnet till ett centralt datalager i molnet där du kan analysera dem.With Data Factory, you can use the Copy Activity in a data pipeline to move data from both on-premises and cloud source data stores to a centralization data store in the cloud for further analysis. Du kan till exempel samla in data i Azure Data Lake Storage och transformera data senare med hjälp av en Azure Data Lake Analytics Compute-tjänst.For example, you can collect data in Azure Data Lake Storage and transform the data later by using an Azure Data Lake Analytics compute service. Eller så kan du samla in data i en Azure Blob Storage och sedan omvandla de med ett Azure HDInsight Hadoop-kluster.You can also collect data in Azure Blob storage and transform it later by using an Azure HDInsight Hadoop cluster.

Omvandla och berikaTransform and enrich

När data är tillgängliga i ett centraliserat data lager i molnet, bearbeta eller transformera du insamlade data med hjälp av data flöden för automatisk mappning.After data is present in a centralized data store in the cloud, process or transform the collected data by using ADF mapping data flows. Data flöden gör det möjligt för data tekniker att bygga och underhålla data omvandlings diagram som körs i Spark utan att behöva förstå Spark-kluster eller Spark-programmering.Data flows enable data engineers to build and maintain data transformation graphs that execute on Spark without needing to understand Spark clusters or Spark programming.

Om du föredrar att koda omvandlingar manuellt stöder ADF externa aktiviteter för att köra dina omvandlingar på beräknings tjänster som HDInsight Hadoop, Spark, Data Lake Analytics och Machine Learning.If you prefer to code transformations by hand, ADF supports external activities for executing your transformations on compute services such as HDInsight Hadoop, Spark, Data Lake Analytics, and Machine Learning.

CI/CD och publiceraCI/CD and publish

Data Factory erbjuder fullt stöd för CI/CD-datapipeliner med Azure DevOps och GitHub.Data Factory offers full support for CI/CD of your data pipelines using Azure DevOps and GitHub. På så sätt kan du stegvis utveckla och leverera dina ETL-processer innan du publicerar den färdiga produkten.This allows you to incrementally develop and deliver your ETL processes before publishing the finished product. Efter att rådata har förfinats till en form som företaget kan använda, läser du in data i Azure Data Warehouse, Azure SQL Database, Azure CosmosDB eller den analysmotor som ditt företags användare kan peka till från sina business intelligence-verktyg.After the raw data has been refined into a business-ready consumable form, load the data into Azure Data Warehouse, Azure SQL Database, Azure CosmosDB, or whichever analytics engine your business users can point to from their business intelligence tools.

ÖvervakaMonitor

När du har skapat och distribuerat din pipeline för dataintegrering och fått affärsvärde från förfinade data, kan du övervaka schemalagda aktiviteter och pipelines för att se hur många som lyckats respektive misslyckats.After you have successfully built and deployed your data integration pipeline, providing business value from refined data, monitor the scheduled activities and pipelines for success and failure rates. Azure Data Factory har ett inbyggt stöd för pipelineövervakning via Azure Monitor, API, PowerShell, Azure Monitor-loggar och hälsopaneler i Azure-portalen.Azure Data Factory has built-in support for pipeline monitoring via Azure Monitor, API, PowerShell, Azure Monitor logs, and health panels on the Azure portal.

ToppnivåbegreppTop-level concepts

En Azure-prenumeration kan ha en eller flera Azure Data Factory-instanser (eller datafabriker).An Azure subscription might have one or more Azure Data Factory instances (or data factories). Azure Data Factory består av fyra nyckelkomponenter.Azure Data Factory is composed of four key components. De här komponenterna samverkar för att tillhandahålla en plattform där du kan skapa datadrivna arbetsflöden med steg för att flytta och omvandla data.These components work together to provide the platform on which you can compose data-driven workflows with steps to move and transform data.

PipelinePipeline

En datafabrik kan ha en eller flera pipelines.A data factory might have one or more pipelines. En pipeline är en logisk gruppering aktiviteter för att utföra en arbetsprocess.A pipeline is a logical grouping of activities that performs a unit of work. Aktiviteterna i en pipeline utför en uppgift tillsammans.Together, the activities in a pipeline perform a task. En pipeline kan till exempel innehålla en grupp med aktiviteter som matar in data från en Azure-blob och sedan kör en Hive-fråga på ett HDInsight-kluster för att partitionera data.For example, a pipeline can contain a group of activities that ingests data from an Azure blob, and then runs a Hive query on an HDInsight cluster to partition the data.

Fördelen med detta är att pipelinen låter dig hantera aktiviteter som en uppsättning istället för enskilt.The benefit of this is that the pipeline allows you to manage the activities as a set instead of managing each one individually. Aktiviteter i en pipeline kan sammanlänkas för att köras sekventiellt eller så kan de köras fristående och parallellt.The activities in a pipeline can be chained together to operate sequentially, or they can operate independently in parallel.

Mappa dataflödenMapping data flows

Skapa och hantera diagram över data omvandlings logik som du kan använda för att omvandla data i alla storlekar.Create and manage graphs of data transformation logic that you can use to transform any-sized data. Du kan skapa ett återanvändbart bibliotek med data omvandlings rutiner och köra dessa processer på ett utskalat sätt från dina ADF-pipeliner.You can build-up a reusable library of data transformation routines and execute those processes in a scaled-out manner from your ADF pipelines. Data Factory kommer att köra din logik på ett Spark-kluster som snurrar upp och snurrar ned när du behöver det.Data Factory will execute your logic on a Spark cluster that spins-up and spins-down when you need it. Du behöver inte någonsin hantera eller underhålla kluster.You won't ever have to manage or maintain clusters.

AktivitetActivity

Aktiviteter representerar ett bearbetningssteg i en pipeline.Activities represent a processing step in a pipeline. Du kan till exempel använda en kopieringsaktivitet för att kopiera data från ett datalager till ett annat.For example, you might use a copy activity to copy data from one data store to another data store. På samma sätt kan du använda en Hive-aktivitet som kör en Hive-fråga på ett Azure HDInsight-kluster för att transformera eller analysera dina data.Similarly, you might use a Hive activity, which runs a Hive query on an Azure HDInsight cluster, to transform or analyze your data. Data Factory stöder tre typer av aktiviteter: dataförflyttning, datatransformering och kontroll.Data Factory supports three types of activities: data movement activities, data transformation activities, and control activities.

DatauppsättningarDatasets

Datauppsättningar representerar datastrukturer i datalager som pekar på eller refererar till de data som du vill använda i dina aktiviteter som indata eller utdata.Datasets represent data structures within the data stores, which simply point to or reference the data you want to use in your activities as inputs or outputs.

Länkade tjänsterLinked services

Länkade tjänster liknar anslutningssträngar som definierar den anslutningsinformation som behövs för att Data Factory ska kunna ansluta till externa resurser.Linked services are much like connection strings, which define the connection information that's needed for Data Factory to connect to external resources. Man kan se det som att datamängden representerar strukturen för data och den länkade tjänsten definierar anslutningen till datakällan.Think of it this way: a linked service defines the connection to the data source, and a dataset represents the structure of the data. Till exempel anger en länkad Azure Storage-tjänst en anslutningssträng för att ansluta till ett Azure Storage-konto.For example, an Azure Storage-linked service specifies a connection string to connect to the Azure Storage account. Och en Azure Blob-datauppsättning anger vilken blobcontainer och mapp som innehåller data.Additionally, an Azure blob dataset specifies the blob container and the folder that contains the data.

Länkade tjänster används för två syften i Data Factory:Linked services are used for two purposes in Data Factory:

  • Att representera ett datalager som inkluderar, men inte begränsas till, en lokal SQL Server-databas, Oracle-databas, filresurs eller ett Azure Blob Storage-konto.To represent a data store that includes, but isn't limited to, an on-premises SQL Server database, Oracle database, file share, or Azure blob storage account. En lista över datalager som stöds finns i artikeln om kopieringsaktiviteter.For a list of supported data stores, see the copy activity article.

  • Så här visar du en beräkningsresurs som kan vara värd för körningen av en aktivitet.To represent a compute resource that can host the execution of an activity. HDInsightHive-aktiviteten körs till exempel på ett HDInsight Hadoop-kluster.For example, the HDInsightHive activity runs on an HDInsight Hadoop cluster. En lista över transformeringsaktiviteter och beräkningsmiljöer som stöds finns i artikeln om omvandling av data.For a list of transformation activities and supported compute environments, see the transform data article.

UtlösareTriggers

Utlösare representerar en bearbetningsenhet som avgör när en pipelinekörning måste startas.Triggers represent the unit of processing that determines when a pipeline execution needs to be kicked off. Det finns olika typer av utlösare för olika typer av händelser.There are different types of triggers for different types of events.

PipelinekörningarPipeline runs

En pipelinekörning är en instans av en pipelinekörning.A pipeline run is an instance of the pipeline execution. Pipelinekörningar initieras vanligen genom att skicka argumenten till de parametrar som definierats i pipelines.Pipeline runs are typically instantiated by passing the arguments to the parameters that are defined in pipelines. Argumenten kan skickas manuellt eller i en utlösardefinition.The arguments can be passed manually or within the trigger definition.

ParametrarParameters

Parametrar är nyckel/värde-par i en skrivskyddad konfiguration.Parameters are key-value pairs of read-only configuration.  Parametrar definieras i pipelinen.  Parameters are defined in the pipeline. Argumenten för de definierade parametrarna skickas vid körning från körningskontexten som skapats av en utlösare eller en pipeline som körs manuellt.The arguments for the defined parameters are passed during execution from the run context that was created by a trigger or a pipeline that was executed manually. Aktiviteter i pipelinen använder parametervärdena.Activities within the pipeline consume the parameter values.

En datauppsättning är en starkt typifierad parameter och en återanvändbar/refererbar entitet.A dataset is a strongly typed parameter and a reusable/referenceable entity. En aktivitet kan referera till datauppsättningar och kan använda egenskaperna som definierats i definitionen för datauppsättningen.An activity can reference datasets and can consume the properties that are defined in the dataset definition.

En länkad tjänst är också en starkt typifierad parameter som innehåller anslutningsinformationen till antingen ett datalager eller en beräkningsmiljö.A linked service is also a strongly typed parameter that contains the connection information to either a data store or a compute environment. Det är också en återanvändningsbar/refererbar entitet.It is also a reusable/referenceable entity.

KontrollflödeControl flow

Kontrollflöde är en orkestrering av pipelineaktiviteter som innefattar kedjesammansättning av aktiviteter i en sekvens, branchning definiering av parametrar på pipelinenivå och argument som skickas vid anrop till pipelinen på begäran eller från en utlösare.Control flow is an orchestration of pipeline activities that includes chaining activities in a sequence, branching, defining parameters at the pipeline level, and passing arguments while invoking the pipeline on-demand or from a trigger. Det innefattar även att skicka anpassade tillstånd och loopcontainer, d.v.s. for-each-iteratorer.It also includes custom-state passing and looping containers, that is, For-each iterators.

VariablerVariables

Variabler kan användas i pipelines för att lagra tillfälliga värden och kan också användas tillsammans med parametrar för att möjliggöra överföring av värden mellan pipelines, data flöden och andra aktiviteter.Variables can be used inside of pipelines to store temporary values and can also be used in conjunction with parameters to enable passing values between pipelines, data flows, and other activities.

Nästa stegNext steps

Här är några viktiga nästa steg i dokument som du kan utforska:Here are important next step documents to explore: