Введение

Дельта Lake — это проект с открытым исходным кодом , который позволяет создавать лакехаусе архитектуру на основе озера данных. Дельта Lake предоставляет транзакции ACID, масштабируемые операции обработки метаданных и объединяет обработку потоковых данных и пакетной обработки на основе существующих озера данных.

В частности, Дельта Lake предлагает:

  • Транзакции ACID в Spark: сериализуемые уровни изоляции гарантируют, что читатели не видят непоследовательные данные.
  • Масштабируемая обработка метаданных. использует распределенную вычислительную мощность Spark для обработки всех метаданных петабайтного уровня таблиц с миллиардами файлов.
  • Потоковая передача и расунификация пакетной службы. Таблица в Delta Lake — это таблица пакетной службы, а также источник и приемник потоковой передачи. Прием потоковых данных, историческая обратная передача. все эти интерактивные запросы просто работают.
  • Принудительное применение схемы: автоматически обрабатывает варианты схемы, чтобы предотвратить вставку недопустимых записей во время приема.
  • Путешествие по времени. Управление версиями данных позволяет выполнять откаты, полные исторические журналы аудита и воспроизводимые эксперименты машинного обучения.
  • Операции Upsert и deletes: поддерживает операции слияния, обновления и удаления, чтобы обеспечить сложные варианты использования, такие как операции записи изменений, медленно изменяющегося измерения (SCD), потоковая передача операции Upsert и т. д.

Оптимизация разностных ядер делает разностные операции более производительными, поддерживая разнообразные рабочие нагрузки, начиная с крупномасштабной обработки ETL, до нерегламентированных интерактивных запросов. Дополнительные сведения о разностной подсистеме см. в разделе разностный механизм.

Краткое руководство

В кратком руководстве по Дельта Lake представлены общие сведения о работе с разностной версией Lake. В кратком руководстве показано, как создать конвейер, считывающий данные JSON в разностную таблицу, изменить таблицу, прочитать таблицу, отобразить журнал таблицы и оптимизировать таблицу.

Дополнительные Azure Databricks записных книжках, демонстрирующих эти функции, см.

Чтобы испытать разностную версию Lake, см. статью Регистрация в Azure Databricks.

Ресурсы

  • Ответы на часто задаваемые вопросы см. в разделе часто задаваемые вопросы.
  • Справочные сведения о командах Дельта Lake SQL см. в разделе инструкции для разностныхопераций.
  • Дополнительные ресурсы, в том числе записи блога, обсуждения и примеры, см. в статье разностные ресурсы.