Azure Data Factory — często zadawane pytania

Uwaga

Ten artykuł dotyczy wersji 1 usługi Data Factory. Jeśli używasz bieżącej wersji usługi Data Factory, zobacz często zadawane pytanie — Data Factory.

Uwaga

W tym artykule użyto modułu Azure Az programu PowerShell, który jest zalecanym modułem programu PowerShell do interakcji z platformą Azure. Aby rozpocząć pracę z modułem Azure PowerShell, zobacz Instalowanie programu Azure PowerShell. Aby dowiedzieć się, jak przeprowadzić migrację do modułu Az PowerShell, zobacz Migracja programu Azure PowerShell z modułu AzureRM do modułu Az.

Pytania ogólne

Co to jest usługa Azure Data Factory?

Data Factory to oparta na chmurze usługa integracji danych, która automatyzuje przenoszenie i przekształcanie danych. Podobnie jak fabryka, która uruchamia sprzęt do pobierania surowców i przekształcania ich w gotowe towary, usługa Data Factory organizuje istniejące usługi, które zbierają nieprzetworzone dane i przekształcają je w gotowe do użycia informacje.

Usługa Data Factory umożliwia tworzenie przepływów pracy opartych na danych w celu przenoszenia danych między lokalnymi i w chmurze magazynami danych, a także przetwarzania/przekształcania danych przy użyciu usług obliczeniowych, takich jak Azure HDInsight i Azure Data Lake Analytics. Po utworzeniu potoku wykonującego potrzebną akcję można zaplanować okresowe uruchamianie (co godzinę, codziennie, co tydzień itp.).

Aby uzyskać więcej informacji, zobacz Omówienie & kluczowych pojęć.

Gdzie można znaleźć szczegóły cennika dla Azure Data Factory?

Zobacz stronę Szczegóły cennika usługi Data Factory, aby uzyskać szczegółowe informacje o cenach Azure Data Factory.

Jak mogę rozpocząć pracę z Azure Data Factory?

Jaka jest dostępność regionu usługi Data Factory?

Usługa Data Factory jest dostępna w regionach Zachodnie stany USA i Europa Północna. Usługi obliczeniowe i magazynowe używane przez fabryki danych mogą znajdować się w innych regionach. Zobacz Obsługiwane regiony.

Jakie są limity liczby fabryk danych/potoków/działań/zestawów danych?

Jakie jest środowisko tworzenia/dewelopera w usłudze Azure Data Factory?

Fabryki danych można tworzyć/tworzyć przy użyciu jednego z następujących narzędzi/zestawów SDK:

Czy mogę zmienić nazwę fabryki danych?

Nie. Podobnie jak w przypadku innych zasobów platformy Azure nie można zmienić nazwy fabryki danych Platformy Azure.

Czy mogę przenieść fabrykę danych z jednej subskrypcji platformy Azure do innej?

Tak. Użyj przycisku Przenieś w bloku fabryki danych, jak pokazano na poniższym diagramie:

Move data factory

Jakie są środowiska obliczeniowe obsługiwane przez usługę Data Factory?

Jak Azure Data Factory porównać z usługami SQL Server Integration Services (SSIS)?

Zobacz prezentację Azure Data Factory vs. SSIS z jednego z naszych specjalistów MVP (Większość cenionych specjalistów): Reza Rad. Niektóre z ostatnich zmian w usłudze Data Factory mogą nie być wymienione w pokazie slajdów. Stale dodajemy więcej możliwości do Azure Data Factory. Stale dodajemy więcej możliwości do Azure Data Factory. Te aktualizacje zostaną uwzględnione w porównaniu z technologiami integracji danych firmy Microsoft jeszcze w tym roku.

Działania — często zadawane pytania

Jakie są różne typy działań, których można używać w potoku usługi Data Factory?

Kiedy jest uruchamiane działanie?

Ustawienie konfiguracji dostępności w tabeli danych wyjściowych określa, kiedy działanie jest uruchamiane. Jeśli określono wejściowe zestawy danych, działanie sprawdza, czy wszystkie zależności danych wejściowych są spełnione (tj. Stan gotowości ) przed rozpoczęciem działania.

Działanie kopiowania — często zadawane pytania

Czy lepiej mieć potok z wieloma działaniami lub oddzielnym potokiem dla każdego działania?

Pipelines mają wiązać powiązane działania. Jeśli zestawy danych, które je łączą, nie są używane przez inne działania poza potokiem, możesz zachować działania w jednym potoku. W ten sposób nie trzeba łączyć aktywnych okresów potoku, aby były one ze sobą zgodne. Ponadto integralność danych w tabelach wewnętrznych potoku jest lepiej zachowywana podczas aktualizowania potoku. Aktualizacja potoku zasadniczo zatrzymuje wszystkie działania w potoku, usuwa je i tworzy je ponownie. Z perspektywy tworzenia przepływ danych w powiązanych działaniach w jednym pliku JSON dla potoku może być również łatwiejszy.

Jakie są obsługiwane magazyny danych?

Działanie kopiowania w usłudze Data Factory kopiuje dane z magazynu danych źródła do magazynu danych ujścia. Usługa Data Factory obsługuje następujące magazyny danych. Dane z dowolnego źródła można zapisać do dowolnego ujścia. Kliknij magazyn danych, aby dowiedzieć się, jak kopiować dane do i z tego magazynu.

Kategoria Magazyn danych Obsługiwany jako źródło Obsługiwany jako ujście
Azure Azure Blob Storage
  Azure Cosmos DB (interfejs API SQL)
  Usługa Azure Data Lake Storage 1. generacji
  Azure SQL Database
  Azure Synapse Analytics
  indeks Azure Cognitive Search
  Azure Table storage
Bazy danych Amazon Redshift
  DB2*
  Mysql*
  Oracle*
  Postgresql*
  SAP Business Warehouse*
  SAP HANA*
  SQL Server*
  Sybase*
  Teradata*
NoSQL Cassandra*
  Mongodb*
Plik Amazon S3
  System plików*
  FTP
  SYSTEM PLIKÓW HDFS*
  SFTP
Inne Ogólne HTTP
  Ogólne OData
  Ogólny ODBC*
  Salesforce
  Tabela sieci Web (tabela z kodu HTML)

Uwaga

Magazyny danych oznaczone znakiem * mogą być konfigurowane lokalnie lub w usłudze Azure IaaS i wymagają zainstalowania bramy zarządzania danymi na maszynie lokalnej lub w usłudze Azure IaaS.

Jakie są obsługiwane formaty plików?

Azure Data Factory obsługuje następujące typy formatów plików:

Gdzie jest wykonywana operacja kopiowania?

Aby uzyskać szczegółowe informacje, zobacz sekcję Globalnie dostępne przenoszenie danych . Krótko mówiąc, gdy jest zaangażowany lokalny magazyn danych, operacja kopiowania jest wykonywana przez bramę Zarządzanie danymi w środowisku lokalnym. Natomiast gdy przenoszenie danych odbywa się między dwoma magazynami w chmurze, operacja kopiowania jest wykonywana w regionie znajdującym się najbliżej lokalizacji ujścia w tej samej lokalizacji geograficznej.

Działanie usługi HDInsight — często zadawane pytania

Jakie regiony są obsługiwane przez usługę HDInsight?

Zobacz sekcję Dostępność geograficzna w następującym artykule: lub Szczegóły cennika usługi HDInsight.

Jaki region jest używany przez klaster usługi HDInsight na żądanie?

Klaster usługi HDInsight na żądanie jest tworzony w tym samym regionie, w którym istnieje magazyn określony do użycia z klastrem.

Jak skojarzyć dodatkowe konta magazynu z klastrem usługi HDInsight?

Jeśli używasz własnego klastra usługi HDInsight (BYOC — Bring Your Own Cluster), zapoznaj się z następującymi tematami:

Jeśli używasz klastra na żądanie utworzonego przez usługę Data Factory, określ dodatkowe konta magazynu dla połączonej usługi HDInsight, aby usługa Data Factory mogła je zarejestrować w Twoim imieniu. W definicji JSON połączonej usługi na żądanie użyj właściwości additionalLinkedServiceNames , aby określić alternatywne konta magazynu, jak pokazano w poniższym fragmencie kodu JSON:

{
    "name": "MyHDInsightOnDemandLinkedService",
    "properties":
    {
        "type": "HDInsightOnDemandLinkedService",
        "typeProperties": {
            "version": "3.5",
            "clusterSize": 1,
            "timeToLive": "00:05:00",
            "osType": "Linux",
            "linkedServiceName": "LinkedService-SampleData",
            "additionalLinkedServiceNames": [ "otherLinkedServiceName1", "otherLinkedServiceName2" ]
        }
    }
}

W powyższym przykładzie inneLinkedServiceName1 i inneLinkedServiceName2 reprezentują połączone usługi, których definicje zawierają poświadczenia wymagane przez klaster usługi HDInsight w celu uzyskania dostępu do alternatywnych kont magazynu.

Wycinki — często zadawane pytania

Dlaczego moje wycinki wejściowe nie są w stanie Gotowe?

Typowy błąd polega na tym, że właściwość zewnętrzna nie jest ustawiana na wartość true w wejściowym zestawie danych, gdy dane wejściowe są zewnętrzne dla fabryki danych (nie są generowane przez fabrykę danych).

W poniższym przykładzie wystarczy ustawić wartość zewnętrzną na wartość true w zestawie danych1.

DataFactory1 Potok 1: zestaw danych1 —> działanie1 —> zestaw danych2 —> działanie2 —> zestaw danych3 — potok 2: zestaw danych3 —> działanie3 —> zestaw danych4

Jeśli masz inną fabrykę danych z potokiem, który przyjmuje zestaw danych4 (utworzony przez potok 2 w fabryce danych 1), oznacz zestaw danych4 jako zewnętrzny zestaw danych, ponieważ zestaw danych jest generowany przez inną fabrykę danych (DataFactory1, a nie DataFactory2).

DataFactory2
Potok 1: dataset4-activity4-dataset5>>

Jeśli właściwość zewnętrzna jest poprawnie ustawiona, sprawdź, czy dane wejściowe istnieją w lokalizacji określonej w definicji wejściowego zestawu danych.

Jak uruchomić wycinek o innej godzinie niż północ, gdy wycinek jest generowany codziennie?

Użyj właściwości przesunięcia , aby określić czas, w którym ma zostać utworzony wycinek. Aby uzyskać szczegółowe informacje o tej właściwości, zobacz sekcję Dostępność zestawu danych . Oto szybki przykład:

"availability":
{
    "frequency": "Day",
    "interval": 1,
    "offset": "06:00:00"
}

Codzienne wycinki zaczynają się o 6: 00 zamiast domyślnej północy.

Jak mogę ponownie uruchomić wycinek?

Możesz ponownie uruchomić wycinek w jeden z następujących sposobów:

  • Użyj funkcji Monitorowanie aplikacji i zarządzanie nią, aby ponownie uruchomić okno lub wycinek działania. Aby uzyskać instrukcje, zobacz Ponowne uruchamianie wybranych okien działań .

  • Kliknij przycisk Uruchom na pasku poleceń w bloku WYCINKA DANYCH dla wycinka w Azure Portal.

  • Uruchom polecenie cmdlet Set-AzDataFactorySliceStatus z ustawioną wartością Stan na oczekiwanie na wycinek.

    Set-AzDataFactorySliceStatus -Status Waiting -ResourceGroupName $ResourceGroup -DataFactoryName $df -TableName $table -StartDateTime "02/26/2015 19:00:00" -EndDateTime "02/26/2015 20:00:00"
    

    Aby uzyskać szczegółowe informacje na temat polecenia cmdlet, zobacz Set-AzDataFactorySliceStatus .

Jak długo trwało przetwarzanie wycinka?

Użyj Eksploratora okien działań w monitorze & zarządzania aplikacją, aby dowiedzieć się, jak długo trwało przetwarzanie wycinka danych. Aby uzyskać szczegółowe informacje, zobacz Eksplorator okien działań .

W Azure Portal można również wykonać następujące czynności:

  1. Kliknij kafelek Zestawy danych w bloku FABRYKA DANYCH dla fabryki danych.
  2. Kliknij konkretny zestaw danych w bloku Zestawy danych .
  3. Wybierz wycinek, który cię interesuje, z listy Ostatnie wycinki w bloku TABELA .
  4. Kliknij działanie uruchom z listy Uruchomienia działań w bloku WYCINKÓW DANYCH .
  5. Kliknij kafelek Właściwości w bloku SZCZEGÓŁY URUCHOMIENIA DZIAŁANIA .
  6. Powinno zostać wyświetlone pole CZAS TRWANIA z wartością. Ta wartość to czas potrzebny na przetworzenie wycinka.

Jak zatrzymać uruchomiony wycinek?

Jeśli chcesz zatrzymać wykonywanie potoku, możesz użyć polecenia cmdlet Suspend-AzDataFactoryPipeline . Obecnie wstrzymanie potoku nie zatrzymuje wykonywania wycinków, które są w toku. Po zakończeniu wykonywania w toku nie zostanie pobrany żaden dodatkowy wycinek.

Jeśli naprawdę chcesz natychmiast zatrzymać wszystkie wykonania, jedynym sposobem byłoby usunięcie potoku i ponowne utworzenie go. Jeśli zdecydujesz się usunąć potok, nie musisz usuwać tabel i połączonych usług używanych przez potok.