Načtení dat pomocí externího umístění katalogu Unity

Důležité

Tato funkce je ve verzi Public Preview.

Tento článek popisuje, jak pomocí uživatelského rozhraní pro přidání dat vytvořit spravovanou tabulku z dat v Azure Data Lake Storage Gen2 pomocí externího umístění katalogu Unity. Externí umístění je objekt, který kombinuje cestu cloudového úložiště s přihlašovacími údaji úložiště, které autorizuje přístup k cestě cloudového úložiště.

Další přístupy k načítání dat pomocí externích umístění najdete v tématu Vytvoření tabulky ze souborů uložených v cloudovém tenantovi.

Než začnete

Než začnete, musíte mít následující:

Typy souborů

Následující typy souborů jsou podporovány:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

Krok 1: Potvrzení přístupu k externímu umístění

Pokud chcete potvrdit přístup k externímu umístění, postupujte takto:

  1. Na bočním panelu pracovního prostoru Azure Databricks klikněte na Katalog.
  2. V Průzkumníku katalogu klikněte na externí umístění externích dat>.

Krok 2: Vytvoření spravované tabulky

Pokud chcete vytvořit spravovanou tabulku, postupujte takto:

  1. Na bočním panelu pracovního prostoru klikněte na + Nový>přidat data.

  2. V uživatelském rozhraní pro přidání dat klikněte na Azure Data Lake Storage.

  3. V rozevíracím seznamu vyberte externí umístění.

  4. Vyberte složky a soubory, které chcete načíst do Azure Databricks, a potom klikněte na tabulku Preview.

  5. V rozevíracích seznamech vyberte katalog a schéma.

  6. (Volitelné) Upravte název tabulky.

  7. (Volitelné) Chcete-li nastavit rozšířené možnosti formátu podle typu souboru, klepněte na tlačítko Upřesnit atributy, vypněte možnost Automaticky rozpoznat typ souboru a pak vyberte typ souboru.

    Seznam možností formátu najdete v následující části.

  8. (Volitelné) Pokud chcete upravit název sloupce, klikněte na vstupní pole v horní části sloupce.

    Názvy sloupců nepodporují čárky, zpětné lomítka nebo znaky Unicode (například emoji).

  9. (Volitelné) Pokud chcete upravit typy sloupců, klikněte na ikonu s typem.

  10. Klikněte na Vytvořit tabulku.

Možnosti formátu typu souboru

V závislosti na typu souboru jsou k dispozici následující možnosti formátu:

Možnost Formát Popis Podporované typy souborů
Column delimiter Znak oddělovače mezi sloupci. Je povolen pouze jeden znak a zpětné lomítko není podporováno.

Výchozí hodnota je čárka.
CSV
Escape character Řídicí znak, který se má použít při analýze dat.

Výchozí hodnota je uvozovka.
CSV
First row contains the header Tato možnost určuje, jestli soubor obsahuje záhlaví.

Ve výchozím nastavení povolena.
CSV
Automatically detect file type Automaticky rozpozná typ souboru. Výchozí hodnota je true. XML
Automatically detect column types Automaticky rozpozná typy sloupců z obsahu souboru. Typy můžete upravovat v tabulce náhledu. Pokud je nastavena na false, všechny typy sloupců jsou odvozeny jako STRING.

Ve výchozím nastavení povolena.
*CSV

*JSON
*XML
Rows span multiple lines Určuje, jestli hodnota sloupce může obsahovat více řádků v souboru.

Ve výchozím nastavení vypnuto.
*CSV

*JSON
Merge the schema across multiple files Určuje, jestli chcete schéma odvodit napříč více soubory a sloučit schéma jednotlivých souborů.

Ve výchozím nastavení povolena.
CSV
Allow comments Určuje, jestli jsou v souboru povoleny komentáře.

Ve výchozím nastavení povolena.
JSON
Allow single quotes Zda jsou v souboru povoleny jednoduché uvozovky.

Ve výchozím nastavení povolena.
JSON
Infer timestamp Zda se pokusit odvodit řetězce časového razítka jako TimestampType.

Ve výchozím nastavení povolena.
JSON
Rescued data column Zda se mají ukládat sloupce, které neodpovídají schématu. Další informace naleznete v tématu Co je záchranná datová sloupec?.

Ve výchozím nastavení povolena.
*CSV

*JSON
*Avro
*Parketové
Exclude attribute Zda vyloučit atributy v prvcích. Výchozí hodnota je false. XML
Attribute prefix Předpona atributů k rozlišení atributů a prvků. Výchozí hodnota je _. XML

Datové typy sloupců

Podporují se následující datové typy sloupců. Další informace o jednotlivých datových typech naleznete v tématu Datové typy SQL.

Datový typ Popis
BIGINT 8 bajtová celočíselná čísla.
BOOLEAN Logické hodnoty (true, false)
DATE a den, bez časového pásma.
DECIMAL (P,S) Čísla s maximální přesností P a pevným měřítkem S.
DOUBLE Čísla s plovoucí desetinnou čárkou s dvojitou přesností 8 bajtů
STRING Hodnoty řetězce znaků.
TIMESTAMP Hodnoty obsahující hodnoty pro rok, měsíc, den, hodinu, minutu a sekundu s místním časovým pásmem relace.

Známé problémy

  • Může docházet k problémům se speciálními znaky ve složitých datových typech, jako je například objekt JSON s klíčem obsahujícím zadní nebo dvojtečku.
  • Některé soubory JSON můžou vyžadovat, abyste jako typ souboru ručně vybrali JSON. Pokud chcete po výběru souborů ručně vybrat typ souboru, klikněte na Upřesnit atributy, vypněte možnost Automaticky rozpoznat typ souboru a pak vyberte JSON.
  • U vnořených časových razítek a desetinných míst uvnitř složitých typů může docházet k problémům.