Narzędzie do kopiowania danych w usługach Azure Data Factory i Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Narzędzie do kopiowania danych ułatwia i optymalizuje proces pozyskiwania danych w usłudze Data Lake, co zwykle jest pierwszym krokiem w scenariuszu kompleksowej integracji danych. Oszczędza to czas, szczególnie w przypadku korzystania z usługi do pozyskiwania danych ze źródła danych po raz pierwszy. Oto niektóre korzyści wynikające z używania tego narzędzia:

  • W przypadku korzystania z narzędzia do kopiowania danych nie trzeba rozumieć definicji usług dla połączonych usług, zestawów danych, potoków, działań i wyzwalaczy.
  • Przepływ narzędzia do kopiowania danych jest intuicyjny do ładowania danych do magazynu typu data lake. Narzędzie automatycznie tworzy wszystkie zasoby niezbędne do skopiowania danych z wybranego magazynu danych źródłowych do wybranego magazynu danych docelowego/ujścia.
  • Narzędzie do kopiowania danych pomaga zweryfikować dane pozyskiwane w momencie tworzenia, co pomaga uniknąć potencjalnych błędów na samym początku.
  • Jeśli musisz zaimplementować złożoną logikę biznesową w celu załadowania danych do magazynu typu data lake, nadal możesz edytować zasoby utworzone przez narzędzie do kopiowania danych przy użyciu tworzenia poszczególnych działań w interfejsie użytkownika.

Poniższa tabela zawiera wskazówki dotyczące używania narzędzia do kopiowania danych w porównaniu z tworzeniem poszczególnych działań w interfejsie użytkownika:

Narzędzie do kopiowania danych Tworzenie poszczególnych działań (działanie Kopiuj)
Chcesz łatwo utworzyć zadanie ładowania danych bez poznawania jednostek (połączone usługi, zestawy danych, potoki itp.) Chcesz zaimplementować złożoną i elastyczną logikę ładowania danych do magazynu lake.
Chcesz szybko załadować dużą liczbę artefaktów danych do magazynu typu data lake. Chcesz połączyć działanie Kopiuj z kolejnymi działaniami dotyczącymi czyszczenia lub przetwarzania danych.

Aby uruchomić narzędzie do kopiowania danych, kliknij kafelek Pozyskiwanie na stronie głównej interfejsu użytkownika usługi Data Factory lub Synapse Studio.

Po uruchomieniu narzędzia do kopiowania danych zobaczysz dwa typy zadań: jedno jest wbudowane zadanie kopiowania, a drugie to zadanie kopiowania oparte na metadanych. Wbudowane zadanie kopiowania prowadzi do utworzenia potoku w ciągu pięciu minut w celu replikowania danych bez poznawania jednostek. Zadanie kopiowania oparte na metadanych ułatwia proces tworzenia sparametryzowanych potoków i tabeli kontroli zewnętrznej w celu zarządzania kopiowaniem dużych ilości obiektów (na przykład tysięcy tabel) na dużą skalę. Więcej szczegółów można znaleźć w danych kopiowania opartych na metadanych.

Intuicyjny przepływ ładowania danych do magazynu data lake

To narzędzie umożliwia łatwe przenoszenie danych z wielu różnych źródeł do miejsc docelowych w ciągu kilku minut dzięki intuicyjnemu przepływowi:

  1. Skonfiguruj ustawienia dla źródła.

  2. Skonfiguruj ustawienia dla miejsca docelowego.

  3. Skonfiguruj zaawansowane ustawienia dla operacji kopiowania, takie jak mapowanie kolumn, ustawienia wydajności i ustawienia odporności na uszkodzenia.

  4. Określ harmonogram zadania ładowania danych.

  5. Przejrzyj podsumowanie jednostek do utworzenia.

  6. Edytuj potok, aby zaktualizować ustawienia działania kopiowania zgodnie z potrzebami.

    Narzędzie jest zaprojektowane z myślą o danych big data od samego początku, z obsługą różnych typów danych i obiektów. Służy do przenoszenia setek folderów, plików lub tabel. Narzędzie obsługuje również automatyczne podgląd danych, przechwytywanie schematu i automatyczne mapowanie oraz filtrowanie danych.

Copy Data tool

Automatyczna wersja zapoznawcza danych

Możesz wyświetlić podgląd części danych z wybranego źródłowego magazynu danych, co umożliwia zweryfikowanie kopiowanych danych. Ponadto jeśli dane źródłowe są w pliku tekstowym, narzędzie do kopiowania danych analizuje plik tekstowy w celu automatycznego wykrywania ograniczników wierszy i kolumn oraz schematu.

File settings

Po wykryciu wybierz pozycję Dane w wersji zapoznawczej:

Detected file settings and preview

Przechwytywanie schematu i automatyczne mapowanie

Schemat źródła danych może nie być taki sam jak schemat miejsca docelowego danych w wielu przypadkach. W tym scenariuszu należy mapować kolumny ze schematu źródłowego na kolumny ze schematu docelowego.

Narzędzie do kopiowania danych monitoruje i uczy się zachowania podczas mapowania kolumn między magazynami źródłowymi i docelowymi. Po wybraniu jednej lub kilku kolumn ze źródłowego magazynu danych i zamapowania ich na schemat docelowy narzędzie Kopiuj dane zacznie analizować wzorzec par kolumn wybranych z obu stron. Następnie stosuje ten sam wzorzec do pozostałych kolumn. W związku z tym zobaczysz, że wszystkie kolumny zostały zamapowane na miejsce docelowe w taki sposób, aby wystarczyło kilka kliknięć. Jeśli nie masz zadowolenia z wyboru mapowania kolumn dostarczonego przez narzędzie do kopiowania danych, możesz go zignorować i kontynuować ręczne mapowanie kolumn. W międzyczasie narzędzie do kopiowania danych stale uczy się i aktualizuje wzorzec, a ostatecznie osiąga odpowiedni wzorzec mapowania kolumn, które chcesz osiągnąć.

Uwaga

Podczas kopiowania danych z programu SQL Server lub usługi Azure SQL Database do usługi Azure Synapse Analytics, jeśli tabela nie istnieje w magazynie docelowym, narzędzie do kopiowania danych obsługuje automatyczne tworzenie tabeli przy użyciu schematu źródłowego.

Filtrowanie danych

Możesz filtrować dane źródłowe, aby wybrać tylko dane, które należy skopiować do magazynu danych ujścia. Filtrowanie zmniejsza ilość danych do skopiowania do magazynu danych ujścia, co zwiększa przepływność operacji kopiowania. Narzędzie do kopiowania danych zapewnia elastyczny sposób filtrowania danych w relacyjnej bazie danych przy użyciu języka zapytań SQL lub plików w folderze obiektów blob platformy Azure.

Filtrowanie danych w bazie danych

Poniższy zrzut ekranu przedstawia zapytanie SQL w celu filtrowania danych.

Filter data in a database

Filtrowanie danych w folderze obiektów blob platformy Azure

Możesz użyć zmiennych w ścieżce folderu, aby skopiować dane z folderu. Obsługiwane zmienne to: {year}, {month}, {day}, {hour}i {minute}. Na przykład: inputfolder/{year}/{month}/{day}.

Załóżmy, że masz foldery wejściowe w następującym formacie:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Kliknij przycisk Przeglądaj dla pozycji Plik lub folder, przejdź do jednego z tych folderów (na przykład 2016-03-01-02>>>), a następnie kliknij przycisk Wybierz. W polu tekstowym powinien zostać wyświetlony komunikat 2016/03/01/02.

Następnie zastąp ciąg 2016 {year}, 03 ciągiem {month}, 01ciągiem {day} i 02ciągiem {hour}, a następnie naciśnij klawisz Tab. Po wybraniu opcji Ładowanie przyrostowe: nazwy folderów/plików partycjonowanych przez czas w sekcji Zachowanie ładowania plików i wybraniu okna Harmonogram lub Wirowanie na stronie Właściwości powinny zostać wyświetlone listy rozwijane, aby wybrać format tych czterech zmiennych:

Filter file or folder

Narzędzie do kopiowania danych generuje parametry z wyrażeniami, funkcjami i zmiennymi systemowymi, których można użyć do reprezentowania {year}, {month}, {day}, {hour}i {minute} podczas tworzenia potoku.

Opcje planowania

Operację kopiowania można uruchomić raz lub zgodnie z harmonogramem (co godzinę, codziennie itd.). Te opcje mogą być używane dla łączników w różnych środowiskach, w tym w środowisku lokalnym, w chmurze i na pulpicie lokalnym.

Jednorazowa operacja kopiowania umożliwia przenoszenie danych ze źródła do miejsca docelowego tylko raz. Dotyczy danych o dowolnym rozmiarze i dowolnym obsługiwanym formacie. Zaplanowana kopia umożliwia kopiowanie danych do określonego cyklu. Możesz użyć zaawansowanych ustawień (takich jak ponawianie, przekroczenie limitu czasu i alerty), aby skonfigurować zaplanowaną kopię.

Scheduling options

Wypróbuj następujące samouczki, które używają narzędzia do kopiowania danych: