Udostępnianie modeli za pomocą usługi Azure Databricks

Artykuł
04/11/2024

W tym artykule opisano usługę Azure Databricks Model Serving, w tym jej zalety i ograniczenia.

Co to jest obsługa modelu?

Obsługa modeli usługi Databricks udostępnia ujednolicony interfejs do wdrażania modeli sztucznej inteligencji, zarządzania nimi i wykonywania zapytań. Każdy model, który służy, jest dostępny jako interfejs API REST, który można zintegrować z aplikacją internetową lub kliencką.

Obsługa modeli zapewnia usługę o wysokiej dostępności i małym opóźnieniu na potrzeby wdrażania modeli. Usługa automatycznie skaluje w górę lub w dół, aby sprostać zmianom zapotrzebowania, oszczędzając koszty infrastruktury podczas optymalizowania wydajności opóźnień. Ta funkcja korzysta z bezserwerowych obliczeń. Aby uzyskać więcej informacji, zobacz stronę Cennik obsługi modelu.

Obsługa modelu obsługuje obsługę:

Modele niestandardowe. Są to modele języka Python spakowane w formacie MLflow. Można je zarejestrować w wykazie aparatu Unity lub w rejestrze modeli obszaru roboczego. Przykłady obejmują modele przekształcania twarzy scikit-learn, XGBoost, PyTorch i Hugging Face transformer.
Najnowocześniejsze otwarte modele udostępniane przez interfejsy API modelu foundation. Te modele są nadzorowanymi architekturami modeli podstawowych, które obsługują zoptymalizowane wnioskowanie. Modele podstawowe, takie jak Llama-2-70B-chat, BGE-Large i Mistral-7B są dostępne do natychmiastowego użycia z cenami płatności za token, a obciążenia wymagające gwarancji wydajności i dostosowane warianty modelu można wdrożyć z aprowizowaną przepływnością.
Modele zewnętrzne. Są to modele hostowane poza platformą Databricks. Punkty końcowe obsługujące modele zewnętrzne mogą być centralnie zarządzane, a klienci mogą ustanowić limity szybkości i kontrolę dostępu dla nich. Przykłady obejmują modele podstawowe, takie jak GPT-4 OpenAI, Claude Anthropic i inne.

Uwaga

Możesz wchodzić w interakcje z obsługiwanymi dużymi modelami językowymi przy użyciu narzędzia AI Playground. Plac zabaw dla sztucznej inteligencji to środowisko przypominające czat, w którym można testować, monitować i porównywać maszyny LLM. Ta funkcja jest dostępna w obszarze roboczym usługi Azure Databricks.

Obsługa modelu oferuje ujednolicony interfejs API REST i interfejs API wdrażania MLflow dla operacji CRUD i wykonywania zapytań dotyczących zadań. Ponadto zapewnia jeden interfejs użytkownika do zarządzania wszystkimi modelami i odpowiednimi punktami końcowymi obsługującymi. Możesz również uzyskiwać dostęp do modeli bezpośrednio z bazy danych SQL przy użyciu funkcji sztucznej inteligencji w celu łatwej integracji z przepływami pracy analizy.

Aby zapoznać się z samouczkiem wprowadzającym dotyczącym obsługi modeli niestandardowych w usłudze Azure Databricks, zobacz Samouczek: wdrażanie i wykonywanie zapytań dotyczących modelu niestandardowego.

Aby zapoznać się z samouczkiem wprowadzającym dotyczącym wykonywania zapytań względem modelu podstawowego w usłudze Databricks, zobacz Wprowadzenie do wykonywania zapytań dotyczących maszyn LLM w usłudze Databricks.

Dlaczego warto używać funkcji obsługi modelu?

Wdrażanie i wykonywanie zapytań o dowolne modele: obsługa modelu udostępnia ujednolicony interfejs, który umożliwia zarządzanie wszystkimi modelami w jednej lokalizacji i wykonywanie zapytań względem nich za pomocą jednego interfejsu API, niezależnie od tego, czy są hostowane w usłudze Databricks, czy zewnętrznie. Takie podejście upraszcza proces eksperymentowania, dostosowywania i wdrażania modeli w środowisku produkcyjnym w różnych chmurach i dostawcach.
Bezpieczne dostosowywanie modeli przy użyciu danych prywatnych: wbudowana na platformie analizy danych funkcja Model Serving upraszcza integrację funkcji i osadzania w modelach za pomocą natywnej integracji z magazynem funkcji usługi Databricks i wyszukiwaniem wektorów usługi Databricks. Aby uzyskać jeszcze większą dokładność i kontekstowe zrozumienie, modele można dostosować do zastrzeżonych danych i bez wysiłku wdrażać w obsłudze modeli.
Zarządzanie i monitorowanie modeli: interfejs użytkownika obsługujący umożliwia centralne zarządzanie wszystkimi punktami końcowymi modelu w jednym miejscu, w tym tymi, które są hostowane zewnętrznie. Możesz zarządzać uprawnieniami, śledzić i ustawiać limity użycia oraz monitorować jakość wszystkich typów modeli. Dzięki temu można zdemokratyzować dostęp do usługi SaaS i otworzyć maszyny LLM w organizacji, zapewniając jednocześnie odpowiednie zabezpieczenia.
Obniżenie kosztów dzięki zoptymalizowanemu wnioskowaniu i szybkiemu skalowaniu: usługa Databricks zaimplementowała szereg optymalizacji, aby zapewnić najlepszą przepływność i opóźnienie dla dużych modeli. Punkty końcowe są automatycznie skalowane w górę lub w dół w celu spełnienia zmian zapotrzebowania, co pozwala zaoszczędzić koszty infrastruktury podczas optymalizowania wydajności opóźnień.
Zapewnienie niezawodności i zabezpieczeń do obsługi modeli: obsługa modeli została zaprojektowana pod kątem wysokiej dostępności, użycia produkcyjnego o małych opóźnieniach i może obsługiwać ponad 25 tys. zapytań na sekundę z opóźnieniem mniejszym niż 50 ms. Obciążenia obsługujące są chronione przez wiele warstw zabezpieczeń, zapewniając bezpieczne i niezawodne środowisko nawet dla najbardziej wrażliwych zadań.

Wymagania

Zarejestrowany model w wykazie aparatu Unity lub rejestrze modeli obszaru roboczego.
Uprawnienia do zarejestrowanych modeli zgodnie z opisem w temacie Obsługa list ACL punktów końcowych.
MLflow 1.29 lub nowszy

Włączanie obsługi modelu dla obszaru roboczego

Do włączenia obsługi modelu w obszarze roboczym nie są wymagane żadne dodatkowe kroki.

Ograniczenia i dostępność regionów

Obsługa modeli usługi Databricks nakłada domyślne limity w celu zapewnienia niezawodnej wydajności. Zobacz Limity i regiony obsługi modeli. Jeśli masz opinię na temat tych limitów lub punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Databricks.

Ochrona danych w usłudze modelowania

Usługa Databricks poważnie traktuje zabezpieczenia danych. Usługa Databricks rozumie znaczenie analizowanych danych przy użyciu usługi Databricks Model Serving i implementuje następujące mechanizmy kontroli zabezpieczeń w celu ochrony danych.

Każde żądanie klienta do obsługi modelu jest logicznie izolowane, uwierzytelniane i autoryzowane.
Obsługa modelu usługi Databricks szyfruje wszystkie dane magazynowane (AES-256) i podczas przesyłania (TLS 1.2+).

W przypadku wszystkich płatnych kont usługa Databricks Model Serving nie używa danych wejściowych użytkownika przesłanych do usługi lub danych wyjściowych z usługi w celu trenowania modeli ani ulepszania żadnych usług usługi Databricks.

W przypadku interfejsów API modelu usługi Databricks Foundation w ramach świadczenia usługi usługa Databricks może tymczasowo przetwarzać i przechowywać dane wejściowe i wyjściowe w celu zapobiegania, wykrywania i ograniczania nadużyć lub szkodliwych zastosowań. Dane wejściowe i wyjściowe są odizolowane od innych klientów, przechowywane w tym samym regionie co obszar roboczy przez maksymalnie trzydzieści (30) dni i dostępne tylko do wykrywania i reagowania na problemy związane z bezpieczeństwem lub nadużyciami.