Azure Data Factory - Veelgestelde vragen

Notitie

Dit artikel is van toepassing op versie 1 van Data Factory. Als u de huidige versie van de Data Factory-service gebruikt, raadpleegt u veelgestelde vragen - Data Factory.

Notitie

In dit artikel wordt de Azure Az PowerShell-module gebruikt. Dit is de aanbevolen PowerShell-module voor interactie met Azure. Raadpleeg Azure PowerShell installeren om aan de slag te gaan met de Az PowerShell-module. Raadpleeg Azure PowerShell migreren van AzureRM naar Az om te leren hoe u naar de Azure PowerShell-module migreert.

Algemene vragen

Wat is Azure Data Factory?

Data Factory is een cloudservice voor gegevensintegratie waarmee de verplaatsing en transformatie van gegevens wordt geautomatiseerd. Net als een fabriek die apparatuur uitvoert om grondstoffen te nemen en te transformeren in afgewerkte goederen, organiseert Data Factory bestaande services die onbewerkte gegevens verzamelen en transformeren in kant-en-klare informatie.

Met Data Factory kunt u gegevensgestuurde werkstromen maken om gegevens te verplaatsen tussen zowel on-premises als cloudgegevensarchieven en gegevens verwerken/transformeren met behulp van rekenservices zoals Azure HDInsight en Azure Data Lake Analytics. Nadat u een pijplijn hebt gemaakt die de benodigde actie uitvoert, kunt u plannen dat deze periodiek wordt uitgevoerd (elk uur, dagelijks, wekelijks, enzovoort).

Zie Overzichtssleutelconcepten &voor meer informatie.

Waar vind ik prijsdetails voor Azure Data Factory?

Zie de pagina Prijsdetails van Data Factory voor de prijsdetails voor de Azure Data Factory.

Hoe kan ik aan de slag met Azure Data Factory?

Wat is de beschikbaarheid van de data factory-regio?

Data Factory is beschikbaar in VS - west en Europa - noord. De reken- en opslagservices die door gegevensfactory's worden gebruikt, kunnen zich in andere regio's bevinden. Zie Ondersteunde regio's.

Wat zijn de limieten voor het aantal data factory's/pijplijnen/activiteiten/gegevenssets?

Zie Azure Data Factory sectie Limieten van het artikel Azure-abonnement en servicelimieten, quota en beperkingen.

Wat is de ontwerp-/ontwikkelaarservaring met Azure Data Factory service?

U kunt data factory's maken/maken met behulp van een van de volgende hulpprogramma's/SDK's:

Kan ik de naam van een data factory wijzigen?

Nee. Net als bij andere Azure-resources kan de naam van een Azure-data factory niet worden gewijzigd.

Kan ik een data factory verplaatsen van het ene Azure-abonnement naar het andere?

Ja. Gebruik de knop Verplaatsen op de blade Gegevensfactory, zoals wordt weergegeven in het volgende diagram:

Move data factory

Wat worden de rekenomgevingen ondersteund door Data Factory?

Hoe vergelijkt Azure Data Factory met SQL Server Integration Services (SSIS)?

Bekijk de Azure Data Factory versus SSIS-presentatie van een van onze MVP's (Meest gewaardeerde professionals): Reza Rad. Sommige recente wijzigingen in Data Factory worden mogelijk niet vermeld in de diaserie. We voegen voortdurend meer mogelijkheden toe aan Azure Data Factory. We voegen voortdurend meer mogelijkheden toe aan Azure Data Factory. Deze updates worden later dit jaar opgenomen in de vergelijking van technologieën voor gegevensintegratie van Microsoft.

Activiteiten - Veelgestelde vragen

Wat zijn de verschillende soorten activiteiten die u kunt gebruiken in een Data Factory-pijplijn?

Wanneer wordt een activiteit uitgevoerd?

De instelling voor beschikbaarheidsconfiguratie in de uitvoergegevenstabel bepaalt wanneer de activiteit wordt uitgevoerd. Als invoergegevenssets worden opgegeven, controleert de activiteit of aan alle afhankelijkheden van de invoergegevens wordt voldaan (dat wil gezegd, gereed ) voordat deze wordt uitgevoerd.

Kopieeractiviteit - Veelgestelde vragen

Is het beter om een pijplijn met meerdere activiteiten of een afzonderlijke pijplijn voor elke activiteit te hebben?

Pijplijnen moeten gerelateerde activiteiten bundelen. Als de gegevenssets waarmee ze verbinding maken, niet worden gebruikt door andere activiteiten buiten de pijplijn, kunt u de activiteiten in één pijplijn bewaren. Op deze manier hoeft u geen actieve perioden voor pijplijnen te koppelen, zodat ze met elkaar worden uitgelijnd. Bovendien blijft de gegevensintegriteit in de tabellen die intern zijn voor de pijplijn beter behouden bij het bijwerken van de pijplijn. Pijplijnupdate stopt in feite alle activiteiten in de pijplijn, verwijdert ze en maakt ze opnieuw. Vanuit ontwerpperspectief is het mogelijk ook gemakkelijker om de gegevensstroom in de gerelateerde activiteiten in één JSON-bestand voor de pijplijn te zien.

Wat zijn de ondersteunde gegevensarchieven?

De kopieeractiviteit in Data Factory kopieert gegevens van een brongegevensarchief naar een sinkgegevensarchief. Data Factory ondersteunt de volgende gegevensarchieven. Gegevens vanuit elke willekeurige bron kunnen naar een sink worden geschreven. Klik op een gegevensarchief voor informatie over het kopiëren van gegevens naar en van dat archief.

Categorie Gegevensarchief Ondersteund als een bron Ondersteund als een sink
Azure Azure Blob Storage
  Azure Cosmos DB (SQL API)
  Azure Data Lake Storage Gen1
  Azure SQL Database
  Azure Synapse Analytics
  Azure Cognitive Search-index
  Azure Table storage
Databases Amazon Redshift
  DB2*
  MySQL*
  Oracle*
  PostgreSQL*
  SAP Business Warehouse*
  SAP HANA*
  SQL Server*
  Sybase*
  Teradata*
NoSQL Cassandra*
  MongoDB*
File Amazon S3
  File System*
  FTP
  HDFS*
  SFTP
Overige Algemene HTTP
  Algemene OData
  Algemene ODBC*
  Salesforce
  Webtabel (tabel van HTML)

Notitie

Gegevensarchieven met een * kunnen zich on-premises of op Azure IaaS bevinden. Hiervoor moet u Data Management Gateway installeren op een on-premises/Azure IaaS-computer.

Wat zijn de ondersteunde bestandsindelingen?

Azure Data Factory ondersteunt de volgende bestandstypen:

Waar wordt de kopieerbewerking uitgevoerd?

Zie de sectie Wereldwijd beschikbare gegevensverplaatsing voor meer informatie. Kortom, wanneer een on-premises gegevensarchief betrokken is, wordt de kopieerbewerking uitgevoerd door de Gegevensbeheer Gateway in uw on-premises omgeving. En wanneer de gegevensverplaatsing zich tussen twee cloudarchieven bevindt, wordt de kopieerbewerking uitgevoerd in de regio die zich het dichtst bij de sinklocatie in dezelfde geografie bevindt.

HDInsight-activiteit - Veelgestelde vragen

Welke regio's worden ondersteund door HDInsight?

Zie de sectie Geografische beschikbaarheid in het volgende artikel: of HDInsight-prijsdetails.

Welke regio wordt gebruikt door een HDInsight-cluster op aanvraag?

Het HDInsight-cluster op aanvraag wordt gemaakt in dezelfde regio waar de opslag die u hebt opgegeven voor gebruik met het cluster bestaat.

Aanvullende opslagaccounts koppelen aan uw HDInsight-cluster

Als u uw eigen HDInsight-cluster (BYOC - Bring Your Own Cluster) gebruikt, raadpleegt u de volgende onderwerpen:

Als u een cluster op aanvraag gebruikt dat is gemaakt door de Data Factory-service, geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de Data Factory-service deze namens u kan registreren. Gebruik in de JSON-definitie voor de gekoppelde on-demand service de eigenschap additionalLinkedServiceNames om alternatieve opslagaccounts op te geven, zoals wordt weergegeven in het volgende JSON-fragment:

{
    "name": "MyHDInsightOnDemandLinkedService",
    "properties":
    {
        "type": "HDInsightOnDemandLinkedService",
        "typeProperties": {
            "version": "3.5",
            "clusterSize": 1,
            "timeToLive": "00:05:00",
            "osType": "Linux",
            "linkedServiceName": "LinkedService-SampleData",
            "additionalLinkedServiceNames": [ "otherLinkedServiceName1", "otherLinkedServiceName2" ]
        }
    }
}

In het bovenstaande voorbeeld vertegenwoordigen andereLinkedServiceName1 en otherLinkedServiceName2 gekoppelde services waarvan de definities referenties bevatten die het HDInsight-cluster nodig heeft voor toegang tot alternatieve opslagaccounts.

Segmenten - Veelgestelde vragen

Waarom zijn mijn invoersegmenten niet in de status Gereed?

Een veelvoorkomende fout is het niet instellen van een externe eigenschap op true voor de invoergegevensset wanneer de invoergegevens extern zijn voor de gegevensfactory (niet geproduceerd door de data factory).

In het volgende voorbeeld hoeft u alleen extern in te stellen op waar op gegevensset1.

DataFactory1 Pijplijn 1: gegevensset1 -> activiteit1 -> gegevensset2 - activiteit2 ->> gegevensset3 Pipeline 2: gegevensset3-> activiteit3 -> gegevensset4

Als u een andere gegevensfactory hebt met een pijplijn die gegevensset4 gebruikt (geproduceerd door pijplijn 2 in data factory 1), markeert u gegevensset4 als een externe gegevensset omdat de gegevensset wordt geproduceerd door een andere gegevensfactory (DataFactory1, niet DataFactory2).

DataFactory2
Pijplijn 1: gegevensset4-activity4-dataset5>>

Als de externe eigenschap juist is ingesteld, controleert u of de invoergegevens aanwezig zijn op de locatie die is opgegeven in de definitie van de invoergegevensset.

Hoe kan ik een segment uitvoeren op een ander tijdstip dan middernacht wanneer het segment dagelijks wordt geproduceerd?

Gebruik de offseteigenschap om het tijdstip op te geven waarop het segment moet worden geproduceerd. Zie de sectie Beschikbaarheid van gegevenssets voor meer informatie over deze eigenschap. Hier volgt een snel voorbeeld:

"availability":
{
    "frequency": "Day",
    "interval": 1,
    "offset": "06:00:00"
}

Dagelijkse segmenten beginnen om 6:00 uur in plaats van de standaard middernacht.

Hoe kan ik een segment opnieuw uitvoeren?

U kunt een segment op een van de volgende manieren opnieuw uitvoeren:

  • Gebruik App bewaken en beheren om een activiteitenvenster of segment opnieuw uit te voeren. Zie Geselecteerde activiteitsvensters opnieuw uitvoeren voor instructies.

  • Klik op Uitvoeren in de opdrachtbalk op de blade DATA SLICE voor het segment in de Azure Portal.

  • Voer set-AzDataFactorySliceStatus-cmdlet uit met Status ingesteld op Wachten op het segment.

    Set-AzDataFactorySliceStatus -Status Waiting -ResourceGroupName $ResourceGroup -DataFactoryName $df -TableName $table -StartDateTime "02/26/2015 19:00:00" -EndDateTime "02/26/2015 20:00:00"
    

    Zie Set-AzDataFactorySliceStatus voor meer informatie over de cmdlet.

Hoe lang duurde het om een segment te verwerken?

Gebruik Activiteitsvensterverkenner in Monitor-app & beheren om te weten hoe lang het duurde om een gegevenssegment te verwerken. Zie Activiteitenvensterverkenner voor meer informatie.

U kunt ook het volgende doen in de Azure Portal:

  1. Klik op de tegel Gegevenssets op de blade DATA FACTORY voor uw data factory.
  2. Klik op de specifieke gegevensset op de blade Gegevenssets .
  3. Selecteer het segment waarin u geïnteresseerd bent in de lijst Recente segmenten op de blade TABEL .
  4. Klik op de activiteitsuitvoering in de lijst Activiteituitvoeringen op de blade DATA SLICE .
  5. Klik op de tegel Eigenschappen op de blade DETAILS VAN ACTIVITEITSUITVOERING .
  6. U ziet het veld DUUR met een waarde. Deze waarde is de tijd die nodig is om het segment te verwerken.

Een actief segment stoppen?

Als u wilt voorkomen dat de pijplijn wordt uitgevoerd, kunt u de cmdlet Suspend-AzDataFactoryPipeline gebruiken. Als u de pijplijn op dit moment onderbreekt, worden de segmentuitvoeringen die worden uitgevoerd, niet gestopt. Zodra de uitvoeringen zijn voltooid, wordt er geen extra segment opgehaald.

Als u alle uitvoeringen echt onmiddellijk wilt stoppen, kunt u de pijplijn alleen verwijderen en opnieuw maken. Als u ervoor kiest om de pijplijn te verwijderen, hoeft u geen tabellen en gekoppelde services te verwijderen die door de pijplijn worden gebruikt.