Načtení dat pomocí funkce COPY INTO s instančním objektem

Článek
03/01/2024

Tento článek popisuje, jak pomocí COPY INTO příkazu načíst data z kontejneru Azure Data Lake Storage Gen2 (ADLS Gen2) ve vašem účtu Azure do tabulky v Databricks SQL.

Kroky v tomto článku předpokládají, že správce nakonfiguroval SLUŽBU SQL Warehouse tak, aby používal instanční objekt Azure Databricks, abyste měli přístup ke zdrojovým souborům v ADLS Gen2. Pokud správce nakonfiguroval externí umístění katalogu Unity s přihlašovacími údaji úložiště, přečtěte si místo toho načtení dat pomocí funkce COPY INTO se svazky katalogu Unity nebo externími umístěními . Pokud vám správce dal dočasné přihlašovací údaje (token SAS objektu blob), postupujte podle pokynů v tématu Načtení dat pomocí funkce COPY INTO s dočasnými přihlašovacími údaji .

Databricks doporučuje použít příkaz COPY INTO pro přírůstkové a hromadné načítání dat pomocí Databricks SQL.

Poznámka

COPY INTO funguje dobře pro zdroje dat, které obsahují tisíce souborů. Databricks doporučuje použít automatický zavaděč pro načítání milionů souborů, což není v Databricks SQL podporované.

Než začnete

Před načtením dat do Azure Databricks se ujistěte, že máte následující:

Přístup k datům v ADLS Gen2 Váš správce musí nejprve dokončit kroky v části Konfigurace přístupu k datům pro příjem dat, aby váš datový sklad SQL Warehouse mohl číst vaše zdrojové soubory.
Databricks SQL Warehouse.
Oprávnění Může spravovat ve službě SQL Warehouse.
Cesta k datům v kontejneru ADLS Gen2
Znalost uživatelského rozhraní SQL databricks

Krok 1: Potvrzení přístupu k datům v cloudovém úložišti

Pokud chcete ověřit, že máte přístup ke správným datům v cloudovém úložišti objektů, postupujte takto:

Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse.
V editoru SQL vložte následující kód:
```
select * from csv.<path>
```
Nahraďte <path> cestou kontejneru ADLS Gen2, kterou jste dostali od správce. Například abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>.
Klepněte na položku Spustit.

Krok 2: Vytvoření tabulky

Tento krok popisuje, jak vytvořit tabulku v pracovním prostoru Azure Databricks pro uložení příchozích dat.

V editoru SQL vložte následující kód:

CREATE TABLE <catalog_name>.<schema_name>.<table_name> (
  tpep_pickup_datetime  TIMESTAMP,
  tpep_dropoff_datetime TIMESTAMP,
  trip_distance DOUBLE,
  fare_amount DOUBLE,
  pickup_zip INT,
  dropoff_zip INT
);

Klepněte na položku Spustit.

Krok 3: Načtení dat z cloudového úložiště do tabulky

Tento krok popisuje, jak načíst data z kontejneru ADLS Gen2 do tabulky v pracovním prostoru Azure Databricks.

Na bočním panelu klikněte na Vytvořit > dotaz.
Na řádku nabídek editoru SQL vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.
V editoru SQL vložte následující kód. V tomto kódu nahraďte:
- <container> s názvem kontejneru ADLS Gen2 v rámci vašeho účtu úložiště.
- <storage-account> s názvem vašeho účtu úložiště ADLS Gen2.
- <folder> s názvem složky, která obsahuje vaše data.
- <blob-sas-token>s hodnotou tokenu SAS objektu blob, který jste obdrželi od správce.
```
COPY INTO <catalog-name>.<schema-name>.<table-name>
FROM 'abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>'
FILEFORMAT = CSV
FORMAT_OPTIONS (
  'header' = 'true',
  'inferSchema' = 'true'
);

SELECT * FROM <catalog-name>.<schema-name>.<table-name>;
```
Poznámka

FORMAT_OPTIONS se liší podle FILEFORMAT. V tomto případě tato možnost dává Službě Azure Databricks pokyn, header aby se s prvním řádkem souboru CSV zacházeli jako s hlavičkou a možnostmi inferSchema dává Azure Databricks pokyn, aby automaticky určil datový typ každého pole v souboru CSV.
Klepněte na položku Spustit.

Poznámka

Pokud kliknete znovu na Spustit , do tabulky se nenačtou žádná nová data. Důvodem je to, že COPY INTO příkaz zpracovává pouze to, co považuje za nová data.

Vyčištění

Přidružené prostředky v pracovním prostoru můžete vyčistit, pokud je už nechcete zachovat.

Odstranění tabulek

Na bočním panelu klikněte na Vytvořit > dotaz.
Vyberte SQL Warehouse a ujistěte se, že je SQL Warehouse spuštěný.

Vložte následující kód:

DROP TABLE <catalog-name>.<schema-name>.<table-name>;

Klepněte na položku Spustit.
Najeďte myší na kartu pro tento dotaz a potom klikněte na ikonu X .

Odstranění dotazů v editoru SQL

Na bočním panelu klikněte na EDITOR SQL.
Na řádku nabídek editoru SQL najeďte myší na kartu pro každý dotaz, který jste vytvořili pro tento kurz, a potom klikněte na ikonu X .

Další prostředky

Referenční článek COPY INTO

Sdílet prostřednictvím