Úvod do importu, čtení a úprav dat

Tento článek popisuje, jak importovat data do Azure Databricks pomocí uživatelského rozhraní, číst importovaná data pomocí rozhraní Spark a místních rozhraní API a upravovat importovaná data pomocí příkazů systému souborů datacihly (DBFS) .

Import dat

Pokud máte v místním počítači malé datové soubory, které chcete analyzovat pomocí Azure Databricks, můžete je naimportovat do DBFS pomocí uživatelského rozhraní.

Poznámka

Tato funkce může být zakázána uživateli s oprávněním správce. Pokud chcete toto nastavení povolit nebo zakázat, přečtěte si téma Správa nahrávání dat.

Existují dva způsoby, jak nahrát data do DBFS s uživatelským rozhraním:

Soubory importované do DBFS pomocí těchto metod jsou uloženy v úložištisouborů.

V produkčních prostředích doporučujeme explicitně nahrávat soubory do DBFS pomocí rozhraní příkazového řádku DBFS, DBFS API, nástrojů systému souborů datacihly (dbutils. FS).

Pro přístup k datům můžete použít také širokou škálu zdrojů dat .

Čtení dat na uzlech clusteru pomocí rozhraní Spark API

Data importovaná do DBFS se načtou do Apache Sparkch datových snímků pomocí rozhraní Spark API. Pokud například importujete soubor CSV, můžete data číst pomocí některého z těchto příkladů.

Tip

Pro snazší přístup doporučujeme vytvořit tabulku. Další informace najdete v tématu databáze a tabulky .

Python

sparkDF = spark.read.csv('/FileStore/tables/state_income-9f7c5.csv', header="true", inferSchema="true")

R

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

Scala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

Čtení dat na uzlech clusteru pomocí místních rozhraní API

Data importovaná do DBFS si můžete přečíst také v části programy běžící v uzlu ovladače Spark pomocí rozhraní API místních souborů. Například:

Python

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

R

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

Upravit nahraná data

Importovaná data nelze upravovat přímo v rámci Azure Databricks, ale můžete přepsat datový soubor pomocí rozhraní API Sparku, rozhraní příkazového řádku DBFS, rozhraní DBFS APIa nástrojů systému souborů datacihly (dbutils. FS).

Pokud chcete odstranit data z DBFS, použijte stejná rozhraní API a nástroje. Například můžete použít příkaz nástroje datacihly dbutils.fs.rm :

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv", true)

Upozornění

Odstraněná data nelze obnovit.