Notitie
Dit artikel is van toepassing op versie 1 van Data Factory. Als u de huidige versie van de Data Factory-service gebruikt, raadpleegt u veelgestelde vragen - Data Factory.
Notitie
In dit artikel wordt de Azure Az PowerShell-module gebruikt. Dit is de aanbevolen PowerShell-module voor interactie met Azure. Raadpleeg Azure PowerShell installeren om aan de slag te gaan met de Az PowerShell-module. Raadpleeg Azure PowerShell migreren van AzureRM naar Az om te leren hoe u naar de Azure PowerShell-module migreert.
Algemene vragen
Wat is Azure Data Factory?
Data Factory is een cloudservice voor gegevensintegratie waarmee de verplaatsing en transformatie van gegevens wordt geautomatiseerd. Net als een fabriek die apparatuur uitvoert om grondstoffen te nemen en te transformeren in afgewerkte goederen, organiseert Data Factory bestaande services die onbewerkte gegevens verzamelen en transformeren in kant-en-klare informatie.
Met Data Factory kunt u gegevensgestuurde werkstromen maken om gegevens te verplaatsen tussen zowel on-premises als cloudgegevensarchieven en gegevens verwerken/transformeren met behulp van rekenservices zoals Azure HDInsight en Azure Data Lake Analytics. Nadat u een pijplijn hebt gemaakt die de benodigde actie uitvoert, kunt u plannen dat deze periodiek wordt uitgevoerd (elk uur, dagelijks, wekelijks, enzovoort).
Zie Overzichtssleutelconcepten &voor meer informatie.
Waar vind ik prijsdetails voor Azure Data Factory?
Zie de pagina Prijsdetails van Data Factory voor de prijsdetails voor de Azure Data Factory.
Hoe kan ik aan de slag met Azure Data Factory?
- Zie Inleiding tot Azure Data Factory voor een overzicht van Azure Data Factory.
- Zie Gegevens kopiëren van Azure Blob Storage naar Azure SQL Database voor een zelfstudie over het kopiëren/verplaatsen van gegevens met behulp van kopieeractiviteit.
- Voor een zelfstudie over het transformeren van gegevens met HDInsight Hive-activiteit. Procesgegevens bekijken door Hive-script uit te voeren in Hadoop-cluster
Wat is de beschikbaarheid van de data factory-regio?
Data Factory is beschikbaar in VS - west en Europa - noord. De reken- en opslagservices die door gegevensfactory's worden gebruikt, kunnen zich in andere regio's bevinden. Zie Ondersteunde regio's.
Wat zijn de limieten voor het aantal data factory's/pijplijnen/activiteiten/gegevenssets?
Zie Azure Data Factory sectie Limieten van het artikel Azure-abonnement en servicelimieten, quota en beperkingen.
Wat is de ontwerp-/ontwikkelaarservaring met Azure Data Factory service?
U kunt data factory's maken/maken met behulp van een van de volgende hulpprogramma's/SDK's:
- Visual Studio U kunt Visual Studio gebruiken om een Azure-data factory te maken. Zie Uw eerste gegevenspijplijn bouwen met behulp van Visual Studio voor meer informatie.
- Azure PowerShell Zie Azure Data Factory maken en bewaken met behulp van Azure PowerShell voor een zelfstudie/stapsgewijze instructies voor het maken van een data factory met behulp van PowerShell. Zie Naslaginformatie over Data Factory-cmdlets in MSDN-bibliotheek voor een uitgebreide documentatie over Data Factory-cmdlets.
- .NET-klassebibliotheek U kunt programmatisch gegevensfactory's maken met behulp van de Data Factory .NET SDK. Zie Gegevensfactory's maken, bewaken en beheren met behulp van .NET SDK voor een overzicht van het maken van een data factory met behulp van .NET SDK. Zie naslaginformatie over de Data Factory-klassebibliotheek voor een uitgebreide documentatie over De .NET SDK van Data Factory.
- REST API U kunt ook de REST API gebruiken die door de Azure Data Factory-service wordt weergegeven om gegevensfactory's te maken en te implementeren. Zie Data Factory REST API Reference for a uitgebreide documentation of Data Factory REST API.
- Azure Resource Manager-sjabloon Zie zelfstudie: Uw eerste Azure-gegevensfactory bouwen met behulp van Azure Resource Manager sjabloon voor meer informatie.
Kan ik de naam van een data factory wijzigen?
Nee. Net als bij andere Azure-resources kan de naam van een Azure-data factory niet worden gewijzigd.
Kan ik een data factory verplaatsen van het ene Azure-abonnement naar het andere?
Ja. Gebruik de knop Verplaatsen op de blade Gegevensfactory, zoals wordt weergegeven in het volgende diagram:
Wat worden de rekenomgevingen ondersteund door Data Factory?
De volgende tabel bevat een lijst met rekenomgevingen die worden ondersteund door Data Factory en de activiteiten die erop kunnen worden uitgevoerd.
Hoe vergelijkt Azure Data Factory met SQL Server Integration Services (SSIS)?
Bekijk de Azure Data Factory versus SSIS-presentatie van een van onze MVP's (Meest gewaardeerde professionals): Reza Rad. Sommige recente wijzigingen in Data Factory worden mogelijk niet vermeld in de diaserie. We voegen voortdurend meer mogelijkheden toe aan Azure Data Factory. We voegen voortdurend meer mogelijkheden toe aan Azure Data Factory. Deze updates worden later dit jaar opgenomen in de vergelijking van technologieën voor gegevensintegratie van Microsoft.
Activiteiten - Veelgestelde vragen
Wat zijn de verschillende soorten activiteiten die u kunt gebruiken in een Data Factory-pijplijn?
- Activiteiten voor gegevensverplaatsing om gegevens te verplaatsen.
- Activiteiten voor gegevenstransformatie om gegevens te verwerken/transformeren.
Wanneer wordt een activiteit uitgevoerd?
De instelling voor beschikbaarheidsconfiguratie in de uitvoergegevenstabel bepaalt wanneer de activiteit wordt uitgevoerd. Als invoergegevenssets worden opgegeven, controleert de activiteit of aan alle afhankelijkheden van de invoergegevens wordt voldaan (dat wil gezegd, gereed ) voordat deze wordt uitgevoerd.
Kopieeractiviteit - Veelgestelde vragen
Is het beter om een pijplijn met meerdere activiteiten of een afzonderlijke pijplijn voor elke activiteit te hebben?
Pijplijnen moeten gerelateerde activiteiten bundelen. Als de gegevenssets waarmee ze verbinding maken, niet worden gebruikt door andere activiteiten buiten de pijplijn, kunt u de activiteiten in één pijplijn bewaren. Op deze manier hoeft u geen actieve perioden voor pijplijnen te koppelen, zodat ze met elkaar worden uitgelijnd. Bovendien blijft de gegevensintegriteit in de tabellen die intern zijn voor de pijplijn beter behouden bij het bijwerken van de pijplijn. Pijplijnupdate stopt in feite alle activiteiten in de pijplijn, verwijdert ze en maakt ze opnieuw. Vanuit ontwerpperspectief is het mogelijk ook gemakkelijker om de gegevensstroom in de gerelateerde activiteiten in één JSON-bestand voor de pijplijn te zien.
Wat zijn de ondersteunde gegevensarchieven?
De kopieeractiviteit in Data Factory kopieert gegevens van een brongegevensarchief naar een sinkgegevensarchief. Data Factory ondersteunt de volgende gegevensarchieven. Gegevens vanuit elke willekeurige bron kunnen naar een sink worden geschreven. Klik op een gegevensarchief voor informatie over het kopiëren van gegevens naar en van dat archief.
Categorie | Gegevensarchief | Ondersteund als een bron | Ondersteund als een sink |
---|---|---|---|
Azure | Azure Blob Storage | ✓ | ✓ |
Azure Cosmos DB (SQL API) | ✓ | ✓ | |
Azure Data Lake Storage Gen1 | ✓ | ✓ | |
Azure SQL Database | ✓ | ✓ | |
Azure Synapse Analytics | ✓ | ✓ | |
Azure Cognitive Search-index | ✓ | ||
Azure Table storage | ✓ | ✓ | |
Databases | Amazon Redshift | ✓ | |
DB2* | ✓ | ||
MySQL* | ✓ | ||
Oracle* | ✓ | ✓ | |
PostgreSQL* | ✓ | ||
SAP Business Warehouse* | ✓ | ||
SAP HANA* | ✓ | ||
SQL Server* | ✓ | ✓ | |
Sybase* | ✓ | ||
Teradata* | ✓ | ||
NoSQL | Cassandra* | ✓ | |
MongoDB* | ✓ | ||
File | Amazon S3 | ✓ | |
File System* | ✓ | ✓ | |
FTP | ✓ | ||
HDFS* | ✓ | ||
SFTP | ✓ | ||
Overige | Algemene HTTP | ✓ | |
Algemene OData | ✓ | ||
Algemene ODBC* | ✓ | ||
Salesforce | ✓ | ||
Webtabel (tabel van HTML) | ✓ |
Notitie
Gegevensarchieven met een * kunnen zich on-premises of op Azure IaaS bevinden. Hiervoor moet u Data Management Gateway installeren op een on-premises/Azure IaaS-computer.
Wat zijn de ondersteunde bestandsindelingen?
Azure Data Factory ondersteunt de volgende bestandstypen:
Waar wordt de kopieerbewerking uitgevoerd?
Zie de sectie Wereldwijd beschikbare gegevensverplaatsing voor meer informatie. Kortom, wanneer een on-premises gegevensarchief betrokken is, wordt de kopieerbewerking uitgevoerd door de Gegevensbeheer Gateway in uw on-premises omgeving. En wanneer de gegevensverplaatsing zich tussen twee cloudarchieven bevindt, wordt de kopieerbewerking uitgevoerd in de regio die zich het dichtst bij de sinklocatie in dezelfde geografie bevindt.
HDInsight-activiteit - Veelgestelde vragen
Welke regio's worden ondersteund door HDInsight?
Zie de sectie Geografische beschikbaarheid in het volgende artikel: of HDInsight-prijsdetails.
Welke regio wordt gebruikt door een HDInsight-cluster op aanvraag?
Het HDInsight-cluster op aanvraag wordt gemaakt in dezelfde regio waar de opslag die u hebt opgegeven voor gebruik met het cluster bestaat.
Aanvullende opslagaccounts koppelen aan uw HDInsight-cluster
Als u uw eigen HDInsight-cluster (BYOC - Bring Your Own Cluster) gebruikt, raadpleegt u de volgende onderwerpen:
- Een HDInsight-cluster gebruiken met alternatieve Storage accounts en metastores
- Aanvullende Storage-accounts gebruiken met HDInsight Hive
Als u een cluster op aanvraag gebruikt dat is gemaakt door de Data Factory-service, geeft u extra opslagaccounts op voor de gekoppelde HDInsight-service, zodat de Data Factory-service deze namens u kan registreren. Gebruik in de JSON-definitie voor de gekoppelde on-demand service de eigenschap additionalLinkedServiceNames om alternatieve opslagaccounts op te geven, zoals wordt weergegeven in het volgende JSON-fragment:
{
"name": "MyHDInsightOnDemandLinkedService",
"properties":
{
"type": "HDInsightOnDemandLinkedService",
"typeProperties": {
"version": "3.5",
"clusterSize": 1,
"timeToLive": "00:05:00",
"osType": "Linux",
"linkedServiceName": "LinkedService-SampleData",
"additionalLinkedServiceNames": [ "otherLinkedServiceName1", "otherLinkedServiceName2" ]
}
}
}
In het bovenstaande voorbeeld vertegenwoordigen andereLinkedServiceName1 en otherLinkedServiceName2 gekoppelde services waarvan de definities referenties bevatten die het HDInsight-cluster nodig heeft voor toegang tot alternatieve opslagaccounts.
Segmenten - Veelgestelde vragen
Waarom zijn mijn invoersegmenten niet in de status Gereed?
Een veelvoorkomende fout is het niet instellen van een externe eigenschap op true voor de invoergegevensset wanneer de invoergegevens extern zijn voor de gegevensfactory (niet geproduceerd door de data factory).
In het volgende voorbeeld hoeft u alleen extern in te stellen op waar op gegevensset1.
DataFactory1 Pijplijn 1: gegevensset1 -> activiteit1 -> gegevensset2 - activiteit2 ->> gegevensset3 Pipeline 2: gegevensset3-> activiteit3 -> gegevensset4
Als u een andere gegevensfactory hebt met een pijplijn die gegevensset4 gebruikt (geproduceerd door pijplijn 2 in data factory 1), markeert u gegevensset4 als een externe gegevensset omdat de gegevensset wordt geproduceerd door een andere gegevensfactory (DataFactory1, niet DataFactory2).
DataFactory2
Pijplijn 1: gegevensset4-activity4-dataset5>>
Als de externe eigenschap juist is ingesteld, controleert u of de invoergegevens aanwezig zijn op de locatie die is opgegeven in de definitie van de invoergegevensset.
Hoe kan ik een segment uitvoeren op een ander tijdstip dan middernacht wanneer het segment dagelijks wordt geproduceerd?
Gebruik de offseteigenschap om het tijdstip op te geven waarop het segment moet worden geproduceerd. Zie de sectie Beschikbaarheid van gegevenssets voor meer informatie over deze eigenschap. Hier volgt een snel voorbeeld:
"availability":
{
"frequency": "Day",
"interval": 1,
"offset": "06:00:00"
}
Dagelijkse segmenten beginnen om 6:00 uur in plaats van de standaard middernacht.
Hoe kan ik een segment opnieuw uitvoeren?
U kunt een segment op een van de volgende manieren opnieuw uitvoeren:
Gebruik App bewaken en beheren om een activiteitenvenster of segment opnieuw uit te voeren. Zie Geselecteerde activiteitsvensters opnieuw uitvoeren voor instructies.
Klik op Uitvoeren in de opdrachtbalk op de blade DATA SLICE voor het segment in de Azure Portal.
Voer set-AzDataFactorySliceStatus-cmdlet uit met Status ingesteld op Wachten op het segment.
Set-AzDataFactorySliceStatus -Status Waiting -ResourceGroupName $ResourceGroup -DataFactoryName $df -TableName $table -StartDateTime "02/26/2015 19:00:00" -EndDateTime "02/26/2015 20:00:00"
Zie Set-AzDataFactorySliceStatus voor meer informatie over de cmdlet.
Hoe lang duurde het om een segment te verwerken?
Gebruik Activiteitsvensterverkenner in Monitor-app & beheren om te weten hoe lang het duurde om een gegevenssegment te verwerken. Zie Activiteitenvensterverkenner voor meer informatie.
U kunt ook het volgende doen in de Azure Portal:
- Klik op de tegel Gegevenssets op de blade DATA FACTORY voor uw data factory.
- Klik op de specifieke gegevensset op de blade Gegevenssets .
- Selecteer het segment waarin u geïnteresseerd bent in de lijst Recente segmenten op de blade TABEL .
- Klik op de activiteitsuitvoering in de lijst Activiteituitvoeringen op de blade DATA SLICE .
- Klik op de tegel Eigenschappen op de blade DETAILS VAN ACTIVITEITSUITVOERING .
- U ziet het veld DUUR met een waarde. Deze waarde is de tijd die nodig is om het segment te verwerken.
Een actief segment stoppen?
Als u wilt voorkomen dat de pijplijn wordt uitgevoerd, kunt u de cmdlet Suspend-AzDataFactoryPipeline gebruiken. Als u de pijplijn op dit moment onderbreekt, worden de segmentuitvoeringen die worden uitgevoerd, niet gestopt. Zodra de uitvoeringen zijn voltooid, wordt er geen extra segment opgehaald.
Als u alle uitvoeringen echt onmiddellijk wilt stoppen, kunt u de pijplijn alleen verwijderen en opnieuw maken. Als u ervoor kiest om de pijplijn te verwijderen, hoeft u geen tabellen en gekoppelde services te verwijderen die door de pijplijn worden gebruikt.