Co to jest usługa Azure Databricks?

Artykuł
03/07/2024

Usługa Azure Databricks to ujednolicona, otwarta platforma analityczna do tworzenia, wdrażania, udostępniania i obsługi danych klasy korporacyjnej, analiz i rozwiązań sztucznej inteligencji na dużą skalę. Platforma analizy danych usługi Databricks integruje się z magazynem w chmurze i zabezpieczeniami na koncie chmury oraz zarządza i wdraża infrastrukturę chmury w Twoim imieniu.

Jak działa platforma analizy danych?

Usługa Azure Databricks używa generowania sztucznej inteligencji z usługą Data Lakehouse w celu zrozumienia unikatowych semantyki danych. Następnie automatycznie optymalizuje wydajność i zarządza infrastrukturą zgodnie z potrzebami biznesowymi.

Przetwarzanie języka naturalnego uczy się języka firmy, dzięki czemu możesz wyszukiwać i odnajdywać dane, zadając pytanie własnymi słowami. Pomoc w języku naturalnym ułatwia pisanie kodu, rozwiązywanie problemów z błędami i znajdowanie odpowiedzi w dokumentacji.

Na koniec twoje dane i aplikacje sztucznej inteligencji mogą polegać na silnym ładie i bezpieczeństwie. Możesz zintegrować interfejsy API, takie jak OpenAI, bez naruszania prywatności danych i kontroli adresów IP.

Do czego służy usługa Azure Databricks?

Usługa Azure Databricks udostępnia narzędzia, które ułatwiają łączenie źródeł danych z jedną platformą w celu przetwarzania, przechowywania, udostępniania, analizowania, modelowania i zarabiania zestawów danych za pomocą rozwiązań z analizy biznesowej do generowania sztucznej inteligencji.

Obszar roboczy usługi Azure Databricks udostępnia ujednolicony interfejs i narzędzia dla większości zadań danych, w tym:

Planowanie i zarządzanie przetwarzaniem danych, w szczególności ETL
Generowanie pulpitów nawigacyjnych i wizualizacji
Zarządzanie zabezpieczeniami, ładem, wysoką dostępnością i odzyskiwaniem po awarii
Odnajdywanie, adnotacja i eksploracja danych
Modelowanie, śledzenie i obsługa modeli uczenia maszynowego
Generowanie rozwiązań sztucznej inteligencji

Zarządzana integracja z rozwiązaniem open source

Usługa Databricks ma silne zaangażowanie w społeczność open source. Usługa Databricks zarządza aktualizacjami integracji typu open source w wersjach środowiska Databricks Runtime. Następujące technologie to projekty typu open source utworzone pierwotnie przez pracowników usługi Databricks:

Narzędzia i dostęp programowy

Usługa Azure Databricks utrzymuje szereg zastrzeżonych narzędzi, które integrują i rozszerzają te technologie, aby dodać zoptymalizowaną wydajność i łatwość użycia, na przykład następujące:

Oprócz interfejsu użytkownika obszaru roboczego można programowo korzystać z usługi Azure Databricks przy użyciu następujących narzędzi:

Interfejs API REST
Interfejs wiersza polecenia
Terraform

Jak usługa Azure Databricks współpracuje z platformą Azure?

Architektura platformy Azure Databricks składa się z dwóch podstawowych części:

Infrastruktura używana przez usługę Azure Databricks do wdrażania, konfigurowania i zarządzania platformą i usługami oraz zarządzania nią.
Infrastruktura należąca do klienta zarządzana we współpracy przez usługę Azure Databricks i Twoją firmę.

W przeciwieństwie do wielu firm danych przedsiębiorstwa usługa Azure Databricks nie wymusza migrowania danych do zastrzeżonych systemów magazynowania w celu korzystania z platformy. Zamiast tego skonfigurujesz obszar roboczy usługi Azure Databricks, konfigurując bezpieczne integracje między platformą Azure Databricks i kontem w chmurze, a następnie usługa Azure Databricks wdraża klastry obliczeniowe przy użyciu zasobów w chmurze na koncie w celu przetwarzania i przechowywania danych w magazynie obiektów oraz innych zintegrowanych usług, które kontrolujesz.

Wykaz aparatu Unity dodatkowo rozszerza tę relację, umożliwiając zarządzanie uprawnieniami dostępu do danych przy użyciu znanej składni JĘZYKA SQL z poziomu usługi Azure Databricks.

Obszary robocze usługi Azure Databricks spełniają wymagania dotyczące zabezpieczeń i sieci niektórych największych i najbardziej znanych firm na świecie. Usługa Azure Databricks ułatwia nowym użytkownikom rozpoczęcie pracy na platformie. Eliminuje wiele obciążeń i problemów związanych z pracą z infrastrukturą chmury bez ograniczania dostosowań i kontroli doświadczonych danych, operacji i zespołów ds. zabezpieczeń.

Jakie są typowe przypadki użycia usługi Azure Databricks?

Przypadki użycia w usłudze Azure Databricks są tak zróżnicowane, jak dane przetwarzane na platformie i wiele osób pracowników, którzy pracują z danymi jako podstawową częścią swojej pracy. W poniższych przypadkach użycia opisano, jak użytkownicy w całej organizacji mogą korzystać z usługi Azure Databricks do wykonywania zadań niezbędnych do przetwarzania, przechowywania i analizowania danych, które napędzają krytyczne funkcje biznesowe i decyzje.

Tworzenie magazynu data lakehouse przedsiębiorstwa

Usługa Data Lakehouse łączy mocne strony magazynów danych i magazynów danych przedsiębiorstwa w celu przyspieszenia, uproszczenia i ujednolicenia rozwiązań do danych przedsiębiorstwa. Inżynierowie danych, analitycy danych i systemy produkcyjne mogą używać usługi Data Lakehouse jako jednego źródła prawdy, co pozwala na terminowy dostęp do spójnych danych i zmniejsza złożoność tworzenia, utrzymywania i synchronizowania wielu rozproszonych systemów danych. Zobacz Co to jest usługa Data Lakehouse?.

ETL i inżynieria danych

Niezależnie od tego, czy generujesz pulpity nawigacyjne, czy obsługujesz aplikacje sztucznej inteligencji, inżynieria danych zapewnia szkielet dla firm skoncentrowanych na danych, upewniając się, że dane są dostępne, czyste i przechowywane w modelach danych, które umożliwiają efektywne odnajdywanie i używanie. Usługa Azure Databricks łączy możliwości platformy Apache Spark z usługą Delta Lake i niestandardowymi narzędziami, aby zapewnić niezrównane środowisko ETL (wyodrębnianie, przekształcanie, ładowanie). Za pomocą języków SQL, Python i Scala można tworzyć logikę ETL, a następnie organizować zaplanowane wdrażanie zadań za pomocą zaledwie kilku kliknięć.

Funkcje Delta Live Tables jeszcze bardziej upraszczają proces ETL dzięki inteligentnemu zarządzaniu zależnościami między zestawami danych i automatycznego wdrażania i skalowania infrastruktury produkcyjnej w celu zapewnienia terminowego i dokładnego dostarczania danych zgodnie ze specyfikacjami.

Usługa Azure Databricks udostępnia szereg niestandardowych narzędzi do pozyskiwania danych, w tym automatycznego modułu ładującego, wydajnego i skalowalnego narzędzia do przyrostowego i idempotentnego ładowania danych z magazynu obiektów w chmurze i magazynów danych do magazynu typu data lakehouse.

Uczenie maszynowe, sztuczna inteligencja i nauka o danych

Uczenie maszynowe usługi Azure Databricks rozszerza podstawowe funkcje platformy przy użyciu zestawu narzędzi dostosowanych do potrzeb analityków danych i inżynierów uczenia maszynowego, w tym MLflow i Databricks Runtime for Machine Edukacja.

Duże modele językowe i generowanie sztucznej inteligencji

Środowisko Databricks Runtime for Machine Edukacja zawiera biblioteki, takie jak Hugging Face Transformers, które umożliwiają integrację istniejących wstępnie wytrenowanych modeli lub innych bibliotek typu open source z przepływem pracy. Integracja usługi Databricks MLflow ułatwia korzystanie z usługi śledzenia MLflow z potokami przekształcania, modelami i składnikami przetwarzania. Ponadto możesz zintegrować modele OpenAI lub rozwiązania od partnerów, takich jak John Snow Labs , w przepływach pracy usługi Databricks.

Za pomocą usługi Azure Databricks możesz dostosować moduł LLM na danych dla określonego zadania. Dzięki obsłudze narzędzi typu open source, takich jak Hugging Face i DeepSpeed, możesz wydajnie podjąć podstawy LLM i zacząć trenować z własnymi danymi, aby mieć większą dokładność dla domeny i obciążenia.

Ponadto usługa Azure Databricks udostępnia funkcje sztucznej inteligencji, których analitycy danych SQL mogą używać do uzyskiwania dostępu do modeli LLM, w tym z platformy OpenAI, bezpośrednio w swoich potokach danych i przepływach pracy. Zobacz Funkcje sztucznej inteligencji w usłudze Azure Databricks.

Magazynowanie, analiza i analiza danych

Usługa Azure Databricks łączy przyjazne dla użytkownika interfejsy użytkownika z kosztownymi zasobami obliczeniowymi i nieskończenie skalowalnym, przystępnym cenowo magazynem, aby zapewnić zaawansowaną platformę do uruchamiania zapytań analitycznych. Administracja istratory konfigurują skalowalne klastry obliczeniowe jako Magazyny SQL, które umożliwiają użytkownikom końcowym wykonywanie zapytań bez obaw o złożoność pracy w chmurze. Użytkownicy sql mogą uruchamiać zapytania względem danych w usłudze Lakehouse przy użyciu edytora zapytań SQL lub w notesach. Notesy obsługują języki Python, R i Scala oprócz języka SQL i umożliwiają użytkownikom osadzanie tych samych wizualizacji dostępnych na pulpitach nawigacyjnych wraz z linkami, obrazami i komentarzami napisanymi w języku Markdown.

Wykaz aparatu Unity udostępnia ujednolicony model zapewniania ładu danych dla usługi Data Lakehouse. Administratorzy chmury konfigurują i integrują coarse uprawnienia kontroli dostępu dla katalogu aparatu Unity, a następnie administratorzy usługi Azure Databricks mogą zarządzać uprawnieniami dla zespołów i użytkowników indywidualnych. Uprawnienia są zarządzane za pomocą list kontroli dostępu (ACL) za pomocą przyjaznych dla użytkownika interfejsów użytkownika lub składni SQL, co ułatwia administratorom bazy danych zabezpieczanie dostępu do danych bez konieczności skalowania zarządzania dostępem do tożsamości natywnych dla chmury (IAM) i sieci.

Katalog aparatu Unity upraszcza uruchamianie bezpiecznych analiz w chmurze i zapewnia podział odpowiedzialności, który pomaga ograniczyć ponowne wdrażanie lub upskilling niezbędne zarówno dla administratorów, jak i użytkowników końcowych platformy. Zobacz Co to jest wykaz aparatu Unity?.

Usługa Lakehouse udostępnia dane w organizacji tak proste, jak udzielanie dostępu do zapytań do tabeli lub widoku. W przypadku udostępniania poza bezpiecznym środowiskiem wykaz aparatu Unity oferuje zarządzaną wersję funkcji udostępniania różnicowego.

DevOps, ciągła integracja/ciągłe wdrażanie i aranżacja zadań

Cykle programowania dla potoków ETL, modeli uczenia maszynowego i pulpitów nawigacyjnych analizy stanowią własne unikatowe wyzwania. Usługa Azure Databricks umożliwia wszystkim użytkownikom korzystanie z jednego źródła danych, co zmniejsza zduplikowane nakłady pracy i raportowanie poza synchronizacją. Ponadto udostępniając zestaw typowych narzędzi do przechowywania wersji, automatyzowania, planowania, wdrażania kodu i zasobów produkcyjnych, można uprościć obciążenie związane z monitorowaniem, orkiestracją i operacjami. Przepływy pracy zaplanują notesy usługi Azure Databricks, zapytania SQL i inny dowolny kod. Repozytoria umożliwiają synchronizowanie projektów usługi Azure Databricks z wieloma popularnymi dostawcami usługi Git. Aby zapoznać się z pełnym omówieniem narzędzi, zobacz Narzędzia programistyczne i wskazówki.

Analiza w czasie rzeczywistym i przesyłanie strumieniowe

Usługa Azure Databricks korzysta ze przesyłania strumieniowego ze strukturą platformy Apache Spark do pracy z danymi przesyłanymi strumieniowo i zmianami danych przyrostowych. Przesyłanie strumieniowe ze strukturą jest ściśle zintegrowane z usługą Delta Lake, a te technologie zapewniają podstawy zarówno dla tabel delta Live Tables, jak i automatycznego modułu ładującego. Zobacz Przesyłanie strumieniowe w usłudze Azure Databricks.