Общие сведения об импорте, чтении и изменении данных

В этой статье описывается, как импортировать данные в Azure Databricks с помощью пользовательского интерфейса, считывать импортированные данные с помощью Spark и локальных API, а также изменять импортированные данные с помощью команд файловой системы модуля обработки данных (DBFS) .

Импорт данных

Если на локальном компьютере имеются небольшие файлы данных, которые необходимо проанализировать с помощью Azure Databricks, их можно импортировать в DBFS с помощью пользовательского интерфейса.

Примечание

Эта функция может быть отключена пользователями администратора. Сведения о включении и отключении этого параметра см. в разделе Управление отправкой данных.

Существует два способа передачи данных в DBFS с помощью пользовательского интерфейса:

Файлы, импортированные в DBFS с помощью этих методов, хранятся в хранилище файлов.

В рабочих средах рекомендуется явным образом отправлять файлы в DBFS с помощью интерфейса командной строки DBFS, DBFS API, службы кирпичей файловой системы (дбутилс. FS).

Для доступа к данным также можно использовать широкий спектр источников данных .

Чтение данных в узлах кластера с помощью API-интерфейсов Spark

Данные, импортированные в DBFS, считываются в Apache Spark кадров данных с помощью API Spark. Например, при импорте CSV-файла можно считать данные с помощью одного из этих примеров.

Совет

Для упрощения доступа рекомендуется создать таблицу. Дополнительные сведения см. в разделе базы данных и таблицы .

Python

sparkDF = spark.read.csv("/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema="true")

R

sparkDF <- read.df(source = "csv", path = "/FileStore/tables/state_income-9f7c5.csv", header="true", inferSchema = "true")

Scala

val sparkDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("/FileStore/tables/state_income-9f7c5.csv")

Чтение данных в узлах кластера с помощью локальных API-интерфейсов

Вы также можете считывать данные, импортированные в DBFS, в программах, выполняющихся на узле драйвера Spark, с помощью локальных файловых API. Пример:

Python

pandas_df = pd.read_csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header='infer')

R

df = read.csv("/dbfs/FileStore/tables/state_income-9f7c5.csv", header = TRUE)

Преобразование отправленных данных

Импортированные данные нельзя редактировать непосредственно в Azure Databricks, но можно перезаписать файл данных с помощью API-интерфейсов Spark, интерфейса командной строки DBFS, DBFS APIи программы файловой системы данных модуля данных (дбутилс. FS).

Чтобы удалить данные из DBFS, используйте те же интерфейсы API и средства. Например, можно использовать служебные программы дбутилс. FS. RM:

dbutils.fs.rm("dbfs:/FileStore/tables/state_income-9f7c5.csv")

Предупреждение

Удаленные данные не могут быть восстановлены.