Что такое Azure Databricks?

Azure Databricks — это единая, открытая платформа аналитики для создания, развертывания, совместного использования и обслуживания корпоративных данных, аналитики и решений искусственного интеллекта в масштабе. Платформа аналитики данных Databricks интегрируется с облачным хранилищем и безопасностью в облачной учетной записи, а также управляет и развертывает облачную инфраструктуру от вашего имени.

Как работает платформа аналитики данных?

Azure Databricks использует генерированный ИИ с помощью озера данных для понимания уникальной семантики данных. Затем она автоматически оптимизирует производительность и управляет инфраструктурой в соответствии с потребностями бизнеса.

Обработка естественного языка учит язык вашего бизнеса, поэтому вы можете искать и обнаруживать данные, задавая вопрос в собственных словах. Помощь по естественному языку помогает писать код, устранять ошибки и находить ответы в документации.

Наконец, ваши приложения и данные и ИИ могут полагаться на надежное управление и безопасность. Вы можете интегрировать ТАКИЕ API, как OpenAI, без ущерба для конфиденциальности данных и управления IP-адресами.

Для чего используется Azure Databricks?

Azure Databricks предоставляет средства, которые помогают подключать источники данных к одной платформе для обработки, хранения, совместного использования, анализа, моделирования и монетизации наборов данных с помощью решений бизнес-аналитики для создания искусственного интеллекта.

Рабочая область Azure Databricks предоставляет единый интерфейс и средства для большинства задач данных, в том числе:

  • Планирование обработки данных и управление ими, в частности ETL
  • Создание панелей мониторинга и визуализаций
  • Управление безопасностью, управлением, высоким уровнем доступности и аварийным восстановлением
  • Обнаружение данных, заметка и исследование
  • Моделирование, отслеживание и обслуживание моделей машинного обучения
  • Решения для создания искусственного интеллекта

Управляемая интеграция с открытый код

Databricks имеет сильную приверженность открытый код сообщества. Databricks управляет обновлениями интеграции открытый код в выпусках Databricks Runtime. Следующие технологии являются открытый код проектами, первоначально созданными сотрудниками Databricks:

Средства и программный доступ

Azure Databricks поддерживает ряд собственных средств, которые интегрируют и расширяют эти технологии, чтобы добавить оптимизированную производительность и простоту использования, например следующие:

Помимо пользовательского интерфейса рабочей области, вы можете взаимодействовать с Azure Databricks программными средствами:

  • REST API
  • CLI
  • Terraform

Как Azure Databricks работает с Azure?

Архитектура платформы Azure Databricks состоит из двух основных частей:

  • Инфраструктура, используемая Azure Databricks для развертывания, настройки и управления платформой и службами.
  • Инфраструктура, принадлежащей клиенту, управляемая в совместной работе Azure Databricks и вашей компании.

В отличие от многих корпоративных компаний, Azure Databricks не заставляет вас переносить данные в собственные системы хранения для использования платформы. Вместо этого вы настраиваете рабочую область Azure Databricks, настраивая безопасные интеграции между платформой Azure Databricks и облачной учетной записью, а затем Azure Databricks развертывает вычислительные кластеры с помощью облачных ресурсов в учетной записи для обработки и хранения данных в хранилище объектов и других интегрированных службах, которые вы контролируете.

Каталог Unity расширяет эту связь, позволяя управлять разрешениями для доступа к данным с помощью знакомого синтаксиса SQL из Azure Databricks.

Рабочие области Azure Databricks соответствуют требованиям к безопасности и сети некоторых крупнейших и наиболее защищенных компаний в мире. Azure Databricks упрощает работу новых пользователей на платформе. Он удаляет множество проблем и проблем, связанных с облачной инфраструктурой, без ограничения настроек и контроля опытных данных, операций и команд безопасности.

Каковы распространенные варианты использования Azure Databricks?

Варианты использования в Azure Databricks отличаются так же, как данные, обработанные на платформе, и многие сотрудники, которые работают с данными в качестве основной части своей работы. В следующих случаях использования описано, как пользователи в вашей организации могут использовать Azure Databricks для выполнения задач, необходимых для обработки, хранения и анализа данных, которые используют критически важные бизнес-функции и решения.

Создание корпоративного озера данных

Data lakehouse объединяет сильные стороны корпоративных хранилищ данных и озер данных для ускорения, упрощения и объединения корпоративных решений данных. Инженеры данных, специалисты по обработке и анализу данных, аналитики и производственные системы могут использовать озера данных в качестве одного источника истины, что позволяет своевременно получать доступ к согласованным данным и уменьшать сложности строительства, обслуживания и синхронизации многих распределенных систем данных. См. раздел "Что такое озера данных?".

ETL и проектирование данных

Независимо от того, создаете ли вы панели мониторинга или работаете с приложениями искусственного интеллекта, проектирование данных обеспечивает основу для компаний, ориентированных на данные, обеспечивая доступность, очистку и хранение данных в моделях данных, которые позволяют эффективно обнаруживать и использовать их. Azure Databricks объединяет возможности Apache Spark с Delta Lake и пользовательскими средствами для обеспечения неуваживаемого ETL (извлечения, преобразования, загрузки). Вы можете использовать SQL, Python и Scala для создания логики ETL, а затем оркестрировать запланированное развертывание заданий с помощью нескольких щелчков мыши.

Разностные динамические таблицы упрощают ETL еще больше, интеллектуально управляя зависимостями между наборами данных и автоматически развертывая и масштабируя рабочую инфраструктуру, чтобы обеспечить своевременную и точную доставку данных в соответствии с вашими спецификациями.

Azure Databricks предоставляет ряд пользовательских средств приема данных, включая автозагрузчик, эффективный и масштабируемый инструмент для добавочной и идемпотентной загрузки данных из облачного хранилища объектов и озер данных в хранилище данных.

Машинное обучение, ИИ и обработка и анализ данных

Машинное обучение Azure Databricks расширяет основные функциональные возможности платформы с помощью набора инструментов, адаптированных к потребностям специалистов по обработке и анализу данных и инженеров машинного обучения, включая MLflow и Databricks Runtime для Машинное обучение.

Крупные языковые модели и генерируемый ИИ

Databricks Runtime для Машинное обучение включает библиотеки, такие как Преобразователи лиц Hugging, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым кодом в рабочий процесс. Интеграция Databricks MLflow упрощает использование службы отслеживания MLflow с конвейерами, моделями и компонентами обработки. Кроме того, вы можете интегрировать модели Или решения OpenAI от партнеров, таких как John Snow Labs в рабочих процессах Databricks .

С помощью Azure Databricks вы можете настроить LLM для данных для конкретной задачи. Благодаря поддержке открытый код инструментов, таких как Hugging Face и DeepSpeed, вы можете эффективно взять основу LLM и начать обучение с собственными данными, чтобы иметь большую точность для вашего домена и рабочей нагрузки.

Кроме того, Azure Databricks предоставляет функции искусственного интеллекта, которые аналитики данных SQL могут использовать для доступа к моделям LLM, в том числе из OpenAI, непосредственно в своих конвейерах данных и рабочих процессах. См. функции ИИ в Azure Databricks.

Хранение данных, аналитика и бизнес-аналитика

Azure Databricks объединяет пользовательские интерфейсы с экономичными вычислительными ресурсами и бесконечно масштабируемым, доступным хранилищем, чтобы обеспечить мощную платформу для выполнения аналитических запросов. Администратор istrator настраивает масштабируемые вычислительные кластеры в качестве Хранилища SQL, позволяющие конечным пользователям выполнять запросы, не беспокоясь о каких-либо сложностях работы в облаке. Пользователи SQL могут выполнять запросы к данным в lakehouse с помощью редактора sql-запросов или записных книжек. Записные книжки поддерживают Python, R и Scala в дополнение к SQL и позволяют пользователям внедрять те же визуализации , доступные на устаревших панелях мониторинга вместе со ссылками, изображениями и комментариями, написанными в markdown.

Управление данными и безопасный обмен данными

Каталог Unity предоставляет единую модель управления данными для озера данных. Администраторы облака настраивают и интегрируют разрешения на управление доступом для каталога Unity, а затем администраторы Azure Databricks могут управлять разрешениями для команд и отдельных лиц. Привилегии управляются списками управления доступом (ACL) с помощью пользовательских интерфейсов или синтаксиса SQL, что упрощает доступ администраторов баз данных к данным без необходимости масштабировать управление доступом к данным в облаке (IAM) и сети.

Каталог Unity делает выполнение безопасной аналитики в облаке простым и предоставляет разделение ответственности, которое помогает ограничить перераспрошивание или upskilling, необходимый для администраторов и конечных пользователей платформы. См. статью Что такое Unity Catalog?

Lakehouse делает общий доступ к данным в организации так же просто, как предоставление доступа к таблице или представлению запроса. Для общего доступа за пределами защищенной среды каталог Unity предоставляет управляемую версию Delta Sharing.

DevOps, CI/CD и оркестрация задач

Жизненные циклы разработки для конвейеров ETL, моделей машинного обучения и панелей мониторинга аналитики представляют свои уникальные проблемы. Azure Databricks позволяет всем пользователям использовать один источник данных, что снижает дублирование усилий и не синхронизированные отчеты. Кроме того, предоставляя набор общих средств для управления версиями, автоматизации, планирования, развертывания кода и рабочих ресурсов, вы можете упростить затраты на мониторинг, оркестрацию и операции. Рабочие процессы планируют записные книжки Azure Databricks, запросы SQL и другой произвольный код. Папки Git позволяют синхронизировать проекты Azure Databricks с рядом популярных поставщиков git. Полный обзор инструментов см. в Средства разработчика и руководствах.

Аналитика в режиме реального времени и потоковой передачи

Azure Databricks использует структурированную потоковую передачу Apache Spark для работы с потоковыми данными и добавочными изменениями данных. Структурированная потоковая передача тесно интегрируется с Delta Lake, и эти технологии предоставляют основы как для разностных динамических таблиц, так и для автозагрузчика. См. статью "Потоковая передача" в Azure Databricks.