Co to jest Azure Databricks?What is Azure Databricks?

Usługa Azure Databricks to platforma analizy oparta na usłudze Apache Spark zoptymalizowana pod kątem platformy usług w chmurze Microsoft Azure.Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Usługa Databricks, zaprojektowana wspólnie z twórcami usługi Apache Spark, jest zintegrowana z platformą Azure w celu zapewnienia konfigurowania jednym kliknięciem, usprawnionych przepływów pracy oraz interakcyjnego obszaru roboczego, który umożliwia współpracę między analitykami danych, inżynierami danych i analitykami biznesowymi.Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

Co to jest Azure Databricks?What is Azure Databricks?

Platforma analityczna bazująca na projekcie Apache SparkApache Spark-based analytics platform

Usługa Azure Databricks zapewnia pełny zestaw możliwości i technologii klastra Apache Spark typu open source.Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. Platforma Spark w usłudze Azure Databricks obejmuje następujące składniki:Spark in Azure Databricks includes the following components:

Platforma Apache Spark w usłudze Azure DatabricksApache Spark in Azure Databricks

  • Spark SQL i elementy DataFrame: Spark SQL to moduł platformy Spark do pracy z danymi strukturalnymi.Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. Element DataFrame jest rozproszoną kolekcją danych zorganizowanych w nazwanych kolumnach.A DataFrame is a distributed collection of data organized into named columns. Jest równoważny tabeli w relacyjnej bazie danych lub ramce danych w języku R/Python.It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • Przesyłanie strumieniowe: przetwarzanie i analiza danych w czasie rzeczywistym dla aplikacji analitycznych i interakcyjnych.Streaming: Real-time data processing and analysis for analytical and interactive applications. Integruje się z rozwiązaniami HDFS, Flume i Kafka.Integrates with HDFS, Flume, and Kafka.

  • MLib: biblioteka uczenia maszynowego (Machine Learning) składająca się ze wspólnych narzędzi i algorytmów uczenia się, w tym klasyfikacji, regresji, klastrowania, filtrowania z wykorzystaniem współpracy, zmniejszania wymiarowości, a także źródłowych typów pierwotnych optymalizacji.MLib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: wykresy i obliczenia dotyczące wykresów do szerokiego zakresu zastosowań, od analizy poznawczej po eksplorację danych.GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • Interfejs API Spark Core: zapewnia obsługę języków R, SQL, Python, Scala i Java.Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Platforma Apache Spark w usłudze Azure DatabricksApache Spark in Azure Databricks

Usługa Azure Databricks bazuje na możliwościach platformy Spark, zapewniając platformę chmurową, która nie wymaga zarządzania i obejmuje następujące elementy:Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • W pełni zarządzane klastry SparkFully managed Spark clusters
  • Interakcyjny obszar roboczy do eksploracji i wizualizacjiAn interactive workspace for exploration and visualization
  • Platforma do obsługi ulubionych aplikacji opartych na platformie SparkA platform for powering your favorite Spark-based applications

W pełni zarządzane klastry Apache Spark w chmurzeFully managed Apache Spark clusters in the cloud

Usługa Azure Databricks zapewnia bezpieczne i niezawodne środowisko produkcyjne w chmurze, zarządzane i obsługiwane przez ekspertów ds. platformy Spark.Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. Możesz:You can:

  • Tworzyć klastry w ciągu sekund.Create clusters in seconds.
  • Dynamicznie automatycznie skalować klastry w górę i w dół, w tym klastry bezserwerowe, i udostępniać je między zespołami.Dynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • Korzystać z klastrów programowo przy użyciu interfejsów API REST.Use clusters programmatically by using the REST APIs.
  • Korzystać z bezpiecznych funkcji integracji danych opartych na platformie Spark, które umożliwiają ujednolicanie danych bez centralizacji.Use secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • Uzyskiwać natychmiastowy dostęp do najnowszych funkcji platformy Apache Spark dodawanych w każdej wersji.Get instant access to the latest Apache Spark features with each release.

Środowisko uruchomieniowe usługi DatabricksDatabricks Runtime

Środowisko uruchomieniowe usługi Databricks bazuje na platformie Apache Spark i zostało natywnie zaprojektowane pod kątem chmury platformy Azure.The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

Dzięki opcji bezserwerowej usługa Azure Databricks całkowicie eliminuje złożoność infrastruktury i wymaganie posiadania wiedzy eksperckiej w celu instalowania i konfigurowania infrastruktury danych.With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. Opcja bezserwerowa ułatwia analitykom danych realizację szybkich cyklów pracy w zespole.The Serverless option helps data scientists iterate quickly as a team.

Inżynierom danych, których interesuje wydajność zadań produkcyjnych, usługa Azure Databricks zapewnia aparat platformy Spark, który jest szybszy i wydajniejszy dzięki różnym optymalizacjom warstwy wejścia/wyjścia i warstwy przetwarzania (wejście/wyjście usługi Databricks).For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

Obszar roboczy współpracyWorkspace for collaboration

Dzięki zoptymalizowanemu pod kątem współpracy i zintegrowanemu środowisku usługa Azure Databricks upraszcza proces eksplorowania danych, tworzenia prototypów i uruchamiania aplikacji opartych na danych na platformie Spark.Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • Ustalanie sposobu używania danych dzięki łatwej eksploracji danych.Determine how to use data with easy data exploration.
  • Dokumentowanie postępu w notesach w językach R, Python, Scala lub SQL.Document your progress in notebooks in R, Python, Scala, or SQL.
  • Wizualizowanie danych za pomocą kilku kliknięć i korzystanie ze znanych narzędzi, takich jak Matplotlib, ggplot lub d3.Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • Tworzenie dynamicznych raportów za pomocą interakcyjnych pulpitów nawigacyjnych.Use interactive dashboards to create dynamic reports.
  • Korzystanie z platformy Spark w celu obsługi jednoczesnych interakcji z danymi.Use Spark and interact with the data simultaneously.

Zabezpieczenia przedsiębiorstwaEnterprise security

Usługa Azure Databricks zapewnia zabezpieczenia klasy korporacyjnej platformy Azure, w tym integrację z usługą Azure Active Directory, kontrolę opartą na rolach oraz umowy SLA, które zapewniają ochronę danych i firmy.Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • Integracja z usługą Azure Active Directory umożliwia uruchamianie przy użyciu usługi Azure Databricks kompletnych rozwiązań bazujących na platformie Azure.Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • Dostęp oparty na rolach usługi Azure Databricks umożliwia określanie szczegółowych uprawnień do notesów, klastrów, zadań i danych.Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • Umowy SLA klasy korporacyjnej.Enterprise-grade SLAs.

Integracja z usługami AzureIntegration with Azure services

Usługa Azure Databricks jest ściśle zintegrowana z bazami danych i magazynami platformy Azure: SQL Data Warehouse, Cosmos DB, Data Lake Store i Blob Storage.Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Integracja z usługą Power BIIntegration with Power BI

Dzięki rozbudowanej integracji z usługą Power BI usługa Azure Databricks umożliwia szybkie i łatwe odnajdywanie i udostępnianie istotnych wyników analiz.Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. Można też używać innych narzędzi do analizy biznesowej, takich jak oprogramowanie Tableau — za pośrednictwem punktów końcowych klastra JDBC/ODBC.You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

Następne krokiNext steps