Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików

Tworzenie lub modyfikowanie tabeli przy użyciu strony przekazywania plików umożliwia przekazywanie plików CSV, TSV lub JSON, Avro, Parquet lub plików tekstowych w celu utworzenia lub zastąpienia zarządzanej tabeli usługi Delta Lake.

Zarządzane tabele delty można tworzyć w wykazie aparatu Unity lub w magazynie metadanych Hive.

Uwaga

Możesz również załadować pliki z magazynu w chmurze przy użyciu interfejsu użytkownika dodawania danych lub używania funkcji COPY INTO.

Ważne

Interfejs użytkownika umożliwia utworzenie tabeli delty przez zaimportowanie małych plików CSV, TSV, JSON, Avro, Parquet lub plików tekstowych z komputera lokalnego.

  • Strona Tworzenia lub modyfikowania tabeli przy użyciu przekazywania plików obsługuje przekazywanie maksymalnie 10 plików jednocześnie.
  • Łączny rozmiar przekazanych plików musi wynosić mniej niż 2 gigabajty.
  • Plik musi być plikiem CSV, TSV, JSON, Avro, Parquet lub plikiem tekstowym i mieć rozszerzenie ".csv", ".tsv" (lub ".tab"), ".json", ".avro", ".parquet" lub ".txt".
  • Skompresowane pliki, takie jak zip i, tar nie są obsługiwane.

Przekazywanie pliku

  1. Kliknij pozycję New IconNowy > Dodaj dane.
  2. Kliknij pozycję Utwórz lub zmodyfikuj tabelę.
  3. Kliknij przycisk przeglądarki plików lub przeciągnij i upuść pliki bezpośrednio w strefie upuszczania.

Uwaga

Zaimportowane pliki są przekazywane do bezpiecznej wewnętrznej lokalizacji na koncie, która jest zbierana codziennie.

Wyświetlanie podglądu, konfigurowanie i tworzenie tabeli

Dane można przekazać do obszaru przejściowego bez łączenia się z zasobami obliczeniowymi, ale musisz wybrać aktywny zasób obliczeniowy, aby wyświetlić podgląd i skonfigurować tabelę.

Podczas konfigurowania opcji przekazanej tabeli można wyświetlić podgląd 50 wierszy danych. Kliknij przyciski siatki lub listy pod nazwą pliku, aby przełączyć prezentację danych.

Usługa Azure Databricks przechowuje pliki danych dla tabel zarządzanych w lokalizacjach skonfigurowanych dla zawierającego schemat. Aby utworzyć tabelę w schemacie, potrzebne są odpowiednie uprawnienia.

Wybierz żądany schemat, w którym chcesz utworzyć tabelę, wykonując następujące czynności:

  1. (Tylko w przypadku obszarów roboczych z obsługą wykazu aparatu Unity) Możesz wybrać wykaz lub starsze hive_metastorewersje .
  2. Wybierz schemat.
  3. (Opcjonalnie) Edytuj nazwę tabeli.

Uwaga

Możesz użyć listy rozwijanej, aby wybrać pozycję Zastąp istniejącą tabelę lub Utwórz nową tabelę. Operacje, które próbują utworzyć nowe tabele z konfliktami nazw, wyświetlają komunikat o błędzie.

Przed utworzeniem tabeli można skonfigurować opcje lub kolumny .

Aby utworzyć tabelę, kliknij pozycję Utwórz w dolnej części strony.

Opcje formatowania

Opcje formatowania zależą od przekazanego formatu pliku. Typowe opcje formatowania są wyświetlane na pasku nagłówka, natomiast mniej często używane opcje są dostępne w oknie dialogowym Atrybuty zaawansowane.

  • W przypadku woluminów CSV dostępne są następujące opcje:
    • Pierwszy wiersz zawiera nagłówek (domyślnie włączony): ta opcja określa, czy plik CSV/TSV zawiera nagłówek.
    • Ogranicznik kolumn: znak separatora między kolumnami. Dozwolony jest tylko pojedynczy znak, a ukośnik odwrotny nie jest obsługiwany. Domyślnie jest to przecinek plików CSV.
    • Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
    • Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
    • Scal schemat między wieloma plikami: czy wywnioskować schemat między wieloma plikami i scalić schemat każdego pliku. W przypadku wyłączenia schemat z jednego pliku jest używany.
  • W przypadku formatu JSON dostępne są następujące opcje:
    • Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
    • Wiersze obejmują wiele wierszy (domyślnie włączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
    • Zezwalaj na komentarze (domyślnie włączone): czy komentarze są dozwolone w pliku.
    • Zezwalaj na pojedyncze cudzysłowy (domyślnie włączone): czy pojedyncze cudzysłowy są dozwolone w pliku.
    • Wnioskowanie znacznika czasu (domyślnie włączone): czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.
  • W przypadku formatu JSON dostępne są następujące opcje:
    • Automatycznie wykrywaj typy kolumn (domyślnie włączone): Automatycznie wykrywaj typy kolumn z zawartości pliku. Typy można edytować w tabeli w wersji zapoznawczej. Jeśli ta wartość ma wartość false, wszystkie typy kolumn są wnioskowane jako STRING.
    • Wiersze obejmują wiele wierszy (domyślnie wyłączone): czy wartość kolumny może obejmować wiele wierszy w pliku.
    • Zezwalaj na komentarze, czy komentarze są dozwolone w pliku.
    • Zezwalaj na pojedyncze cudzysłowy: czy pojedyncze cudzysłowy są dozwolone w pliku.
    • Wnioskowanie znacznika czasu: czy spróbować wywnioskować ciągi znacznika czasu jako TimestampType.

Podgląd danych jest automatycznie aktualizowany podczas edytowania opcji formatu.

Uwaga

Podczas przekazywania wielu plików obowiązują następujące reguły:

  • Ustawienia nagłówka dotyczą wszystkich plików. Upewnij się, że nagłówki są stale nieobecne lub obecne we wszystkich przekazanych plikach, aby uniknąć utraty danych.
  • Przekazane pliki łączą się, dołączając wszystkie dane jako wiersze w tabeli docelowej. Dołączanie lub scalanie rekordów podczas przekazywania plików nie jest obsługiwane.

Nazwy i typy kolumn

Możesz edytować nazwy i typy kolumn.

  • Aby edytować typy, kliknij ikonę z typem .

    Uwaga

    Nie można edytować typów zagnieżdżonych dla STRUCT lub ARRAY.

  • Aby edytować nazwę kolumny, kliknij pole wejściowe w górnej części kolumny.

    Nazwy kolumn nie obsługują przecinków, ukośników odwrotnych ani znaków Unicode (takich jak emoji).

Typy danych kolumn są domyślnie wnioskowane dla plików CSV i JSON. Wszystkie kolumny można interpretować jako STRING typ, wyłączając opcję Atrybuty>zaawansowane Automatycznie wykrywaj typy kolumn.

Uwaga

  • Wnioskowanie schematu wykonuje najlepsze wykrywanie typów kolumn. Zmiana typów kolumn może prowadzić do rzutowania niektórych wartości, NULL jeśli nie można poprawnie rzutować wartości na docelowy typ danych. Rzutowanie BIGINT do DATE kolumn lub TIMESTAMP nie jest obsługiwane. Usługa Databricks zaleca najpierw utworzenie tabeli, a następnie przekształcenie tych kolumn przy użyciu funkcji SQL.
  • Aby obsługiwać nazwy kolumn tabeli ze znakami specjalnymi, strona Tworzenia lub modyfikowania tabeli przy użyciu strony przekazywania plików korzysta z mapowania kolumn.
  • Aby dodać komentarze do kolumn, utwórz tabelę i przejdź do Eksploratora wykazu, w którym można dodawać komentarze.

Obsługiwane typy danych

Strona Tworzenie lub modyfikowanie tabeli przy użyciu przekazywania plików obsługuje następujące typy danych. Aby uzyskać więcej informacji na temat poszczególnych typów danych, zobacz Typy danych SQL.

Typ danych opis
BIGINT Liczba całkowita ze znakiem 8 bajtów.
BOOLEAN Wartości logiczne (true, false).
DATE Wartości składające się z wartości pól rok, miesiąc i dzień bez strefy czasowej.
DOUBLE 8-bajtowe liczby zmiennoprzecinkowe o podwójnej precyzji.
STRING Wartości ciągów znaków.
TIMESTAMP Wartości składające się z wartości pól rok, miesiąc, dzień, godzina, minuta i sekunda z lokalną strefą czasową sesji.
STRUCT Wartości ze strukturą opisaną przez sekwencję pól.
ARRAY Wartości składające się z sekwencji elementów z typem
elementType.
DECIMAL(P,S) Liczby o maksymalnej precyzji P i stałej skali S.

Znane problemy

Rzutowanie BIGINT do typów bez rzutowania, takich jak DATE, takich jak daty w formacie "yyyy", może powodować błędy.