Ładowanie danych przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

W tym artykule opisano sposób użycia interfejsu użytkownika dodawania danych w celu utworzenia zarządzanej tabeli na podstawie danych w usłudze Azure Data Lake Storage Gen2 przy użyciu lokalizacji zewnętrznej wykazu aparatu Unity. Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze.

Aby zapoznać się z innymi metodami ładowania danych przy użyciu lokalizacji zewnętrznych, zobacz Tworzenie tabeli z plików przechowywanych w dzierżawie chmury.

Zanim rozpoczniesz

Przed rozpoczęciem musisz mieć następujące elementy:

Typy plików

Następujące typy plików są obsługiwane:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Krok 1. Potwierdzenie dostępu do lokalizacji zewnętrznej

Aby potwierdzić dostęp do lokalizacji zewnętrznej, wykonaj następujące czynności:

  1. Na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Wykaz.
  2. W Eksploratorze wykazu kliknij pozycję Zewnętrzne lokalizacje danych>zewnętrznych.

Krok 2. Tworzenie tabeli zarządzanej

Aby utworzyć tabelę zarządzaną, wykonaj następujące czynności:

  1. Na pasku bocznym obszaru roboczego kliknij pozycję + Nowe>dodaj dane.

  2. W interfejsie użytkownika dodawania danych kliknij pozycję Azure Data Lake Storage.

  3. Wybierz lokalizację zewnętrzną z listy rozwijanej.

  4. Wybierz foldery i pliki, które chcesz załadować do usługi Azure Databricks, a następnie kliknij pozycję Tabela w wersji zapoznawczej.

  5. Wybierz wykaz i schemat z list rozwijanych.

  6. (Opcjonalnie) Edytuj nazwę tabeli.

  7. (Opcjonalnie) Aby ustawić zaawansowane opcje formatowania według typu pliku, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz typ pliku.

    Aby uzyskać listę opcji formatowania, zobacz następującą sekcję.

  8. (Opcjonalnie) Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.

    Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).

  9. (Opcjonalnie) Aby edytować typy kolumn, kliknij ikonę z typem .

  10. Kliknij pozycję Utwórz tabelę.

Opcje formatu typu pliku

Dostępne są następujące opcje formatowania w zależności od typu pliku:

Opcja formatowania opis Typy obsługiwanych plików
Column delimiter Znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany.

Wartość domyślna to przecinek.
CSV
Escape character Znak ucieczki do użycia podczas analizowania danych.

Wartość domyślna to cudzysłów.
CSV
First row contains the header Ta opcja określa, czy plik zawiera nagłówek.

Włączone domyślnie.
CSV
Automatically detect file type Automatycznie wykrywaj typ pliku. Wartość domyślna to true. XML
Automatically detect column types Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako CIĄG.

Włączone domyślnie.
*CSV

*JSON
*XML
Rows span multiple lines Czy wartość kolumny może obejmować wiele wierszy w pliku.

Wyłączone domyślnie.
*CSV

*JSON
Merge the schema across multiple files Czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku.

Włączone domyślnie.
CSV
Allow comments Czy komentarze są dozwolone w pliku.

Włączone domyślnie.
JSON
Allow single quotes Czy pojedyncze cudzysłowy są dozwolone w pliku.

Włączone domyślnie.
JSON
Infer timestamp Czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.

Włączone domyślnie.
JSON
Rescued data column Czy zapisać kolumny, które nie są zgodne ze schematem. Aby uzyskać więcej informacji, zobacz Co to jest uratowana kolumna danych?.

Włączone domyślnie.
*CSV

*JSON
*Avro
*Parkiet
Exclude attribute Czy wykluczać atrybuty w elementach. Wartość domyślna to false. XML
Attribute prefix Prefiks atrybutów do rozróżniania atrybutów i elementów. Wartość domyślna to _. XML

Typy danych kolumn

Obsługiwane są następujące typy danych kolumn. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.

Typ danych opis
BIGINT Liczba całkowita ze znakiem 8 bajtów.
BOOLEAN Wartości logiczne (true, false).
DATE i dzień, bez strefy czasowej.
DECIMAL (P,S) Liczby o maksymalnej precyzji P i stałej skali S.
DOUBLE 8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji.
STRING Wartości ciągów znaków.
TIMESTAMP Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji.

Znane problemy

  • Mogą wystąpić problemy z znakami specjalnymi w złożonych typach danych, takich jak obiekt JSON z kluczem zawierającym backtick lub dwukropek.
  • Niektóre pliki JSON mogą wymagać ręcznego wybrania formatu JSON dla typu pliku. Aby ręcznie wybrać typ pliku po wybraniu plików, kliknij pozycję Atrybuty zaawansowane, wyłącz opcję Automatycznie wykrywaj typ pliku, a następnie wybierz pozycję JSON.
  • Zagnieżdżone znaczniki czasu i liczby dziesiętne wewnątrz typów złożonych mogą napotkać problemy.