Pojęcia dotyczące danych w usłudze Azure Machine Edukacja

Artykuł
04/13/2024

Za pomocą usługi Azure Machine Edukacja można importować dane z komputera lokalnego lub istniejącego zasobu magazynu opartego na chmurze. W tym artykule opisano kluczowe pojęcia dotyczące danych usługi Azure Machine Edukacja.

Magazyn danych

Magazyn danych usługi Azure Machine Edukacja służy jako odwołanie do istniejącego konta usługi Azure Storage. Magazyn danych usługi Azure Machine Edukacja oferuje następujące korzyści:

Typowy, łatwy w użyciu interfejs API, który współdziała z różnymi typami magazynu (Blob/Files/ADLS).
Łatwiejsze odnajdywanie przydatnych magazynów danych w operacjach zespołowych.
W przypadku dostępu opartego na poświadczeniach (jednostki usługi/sygnatury dostępu współdzielonego/klucza) usługa Azure Machine Edukacja magazyn danych zabezpiecza informacje o połączeniu. W ten sposób nie trzeba umieszczać tych informacji w skryptach.

Podczas tworzenia magazynu danych przy użyciu istniejącego konta usługi Azure Storage można wybrać między dwiema różnymi metodami uwierzytelniania:

Oparte na poświadczeniach — uwierzytelnianie dostępu do danych przy użyciu jednostki usługi, tokenu sygnatury dostępu współdzielonego (SAS) lub klucza konta. Użytkownicy z dostępem do obszaru roboczego Czytelnik mogą uzyskiwać dostęp do poświadczeń.
Oparte na tożsamości — użyj tożsamości firmy Microsoft lub tożsamości zarządzanej do uwierzytelniania dostępu do danych.

W poniższej tabeli przedstawiono podsumowanie usług magazynu w chmurze platformy Azure, które może utworzyć magazyn danych usługi Azure Machine Edukacja. Ponadto tabela zawiera podsumowanie typów uwierzytelniania, które mogą uzyskiwać dostęp do tych usług:

Obsługiwana usługa magazynu	Uwierzytelnianie na podstawie poświadczeń	Uwierzytelnianie na podstawie tożsamości
Azure Blob Container	✓	✓
Udział plików platformy Azure	✓
Azure Data Lake Gen1	✓	✓
Azure Data Lake Gen2	✓	✓

Aby uzyskać więcej informacji na temat magazynów danych, zobacz Tworzenie magazynów danych.

Domyślne magazyny danych

Każdy obszar roboczy usługi Azure Machine Edukacja ma domyślne konto magazynu (konto usługi Azure Storage), które zawiera następujące magazyny danych:

Napiwek

Aby znaleźć identyfikator obszaru roboczego, przejdź do obszaru roboczego w witrynie Azure Portal. Rozwiń Ustawienia, a następnie wybierz pozycję Właściwości. Zostanie wyświetlony identyfikator obszaru roboczego.

Nazwa magazynu danych	Typ magazynu danych	Nazwa magazynu danych	opis
`workspaceblobstore`	Kontener obiektów blob	`azureml-blobstore-{workspace-id}`	Przechowuje przekazywanie danych, migawki kodu zadania i pamięć podręczną danych potoku.
`workspaceworkingdirectory`	Udział plików	`code-{GUID}`	Przechowuje dane dla notesów, wystąpień obliczeniowych i przepływu monitów.
`workspacefilestore`	Udział plików	`azureml-filestore-{workspace-id}`	Alternatywny kontener do przekazywania danych.
`workspaceartifactstore`	Kontener obiektów blob	`azureml`	Magazyn dla zasobów, takich jak metryki, modele i składniki.

Typy danych

Identyfikator URI (lokalizacja magazynu) może odwoływać się do pliku, folderu lub tabeli danych. Definicja danych wejściowych i wyjściowych zadania uczenia maszynowego wymaga jednego z następujących trzech typów danych:

Typ	Interfejs API w wersji 2	Interfejs API w wersji 1	Scenariusze kanoniczne	Różnica między interfejsem API w wersji 2/1
Plik Odwołanie do pojedynczego pliku	`uri_file`	`FileDataset`	Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format.	Typ nowy dla interfejsów API w wersji 2. W interfejsach API w wersji 1 pliki są zawsze mapowane na folder w docelowym systemie plików obliczeniowych; to mapowanie wymaga `os.path.join`elementu . W interfejsach API w wersji 2 pojedynczy plik jest mapowany. W ten sposób można odwoływać się do tej lokalizacji w kodzie.
Folder Odwołanie do pojedynczego folderu	`uri_folder`	`FileDataset`	Musisz odczytać/zapisać folder plików parquet/CSV do biblioteki Pandas/Spark. Uczenie głębokie przy użyciu obrazów, tekstu, audio, plików wideo znajdujących się w folderze.	W interfejsach API w wersji 1 był skojarzony aparat, `FileDataset` który mógł pobrać przykładowy plik z folderu. W interfejsach API w wersji 2 folder jest prostym mapowaniem docelowego systemu plików obliczeniowych.
Tabela Odwołanie do tabeli danych	`mltable`	`TabularDataset`	Masz złożony schemat, który podlega częstym zmianom lub potrzebujesz podzbioru dużych danych tabelarycznych. AutoML z tabelami.	W interfejsach API w wersji 1 usługa Azure Machine Edukacja zapleczu przechowywała strategię materializacji danych. W rezultacie działało tylko wtedy, `TabularDataset` gdy masz obszar roboczy usługi Azure Machine Edukacja. `mltable`przechowuje strategię materializacji danych w magazynie. Ta lokalizacja magazynu oznacza, że można użyć jej rozłączenia z usługą AzureML — na przykład lokalnie i lokalnie. W interfejsach API w wersji 2 łatwiej będzie przejść z zadań lokalnych do zdalnych. Aby uzyskać więcej informacji, zobacz Praca z tabelami w usłudze Azure Machine Edukacja.

Identyfikator URI

Identyfikator URI (Uniform Resource Identifier) reprezentuje lokalizację magazynu na komputerze lokalnym, usłudze Azure Storage lub publicznie dostępnej lokalizacji http(s). W poniższych przykładach pokazano identyfikatory URI dla różnych opcji magazynu:

Lokalizacja usługi Storage	Przykłady identyfikatorów URI
Azure Machine Edukacja Datastore	`azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet`
Komputer lokalny	`./home/username/data/my_data`
Publiczny serwer HTTP	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Blob storage	`wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/`
Azure Data Lake (gen2)	`abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv`
Azure Data Lake (gen1)	`adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>`

Zadanie usługi Azure Machine Edukacja mapuje identyfikatory URI na docelowy system plików obliczeniowych. To mapowanie oznacza, że w poleceniu, które używa lub generuje identyfikator URI, ten identyfikator URI działa jak plik lub folder. Identyfikator URI używa uwierzytelniania opartego na tożsamościach w celu nawiązania połączenia z usługami magazynu przy użyciu identyfikatora Entra firmy Microsoft (domyślnego) lub tożsamości zarządzanej. Identyfikatory URI magazynu danych usługi Azure Machine Edukacja mogą stosować uwierzytelnianie oparte na tożsamościach lub oparte na poświadczeniach (na przykład jednostka usługi, token SAS, klucz konta) bez ujawniania wpisów tajnych.

Identyfikator URI może służyć jako dane wejściowe lub wyjściowe zadania usługi Azure Machine Edukacja i może mapować go na docelowy system plików obliczeniowych z jedną z czterech różnych opcji trybu:

Instalacja tylko do odczytu (ro_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje wyłącznie dane wyjściowe tylko do odczytu.
Instalacja odczytu i zapisu (rw_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje zarówno odczyt danych wyjściowych, jak i zapisy danych.
Download (download): Identyfikator URI reprezentuje lokalizację magazynu zawierającą dane pobrane do docelowego systemu plików obliczeniowego.
Przekazywanie (upload): wszystkie dane zapisane w lokalizacji docelowej obliczeniowej są przekazywane do lokalizacji magazynu reprezentowanej przez identyfikator URI.

Ponadto można przekazać identyfikator URI jako ciąg wejściowy zadania z trybem bezpośrednim . Ta tabela zawiera podsumowanie kombinacji trybów dostępnych dla danych wejściowych i wyjściowych:

Zadanie Dane wejściowe lub wyjściowe	`upload`	`download`	`ro_mount`	`rw_mount`	`direct`
Dane wejściowe		✓	✓		✓
Dane wyjściowe	✓			✓

Aby uzyskać więcej informacji, zobacz Uzyskiwanie dostępu do danych w zadaniu .

Możliwość środowiska uruchomieniowego danych

Usługa Azure Machine Edukacja używa własnego środowiska uruchomieniowego danych do jednego z trzech celów:

w przypadku instalacji/przekazywania/pobierania
mapowanie identyfikatorów URI magazynu na docelowy system plików obliczeniowych
aby zmaterializować dane tabelaryczne w bibliotece pandas/spark przy użyciu tabel usługi Azure Machine Edukacja (mltable)

Środowisko uruchomieniowe usługi Azure Machine Edukacja danych zostało zaprojektowane z myślą o wysokiej szybkości i wysokiej wydajności zadań uczenia maszynowego. Oferuje następujące kluczowe korzyści:

Architektura języka Rust . Język Rust jest znany z dużej szybkości i wysokiej wydajności pamięci.
Lekka waga; Środowisko uruchomieniowe danych usługi Azure Machine Edukacja nie ma zależności od innych technologii — na przykład JVM — więc środowisko uruchomieniowe szybko instaluje się na docelowych obiektach obliczeniowych.
Ładowanie danych wieloprocesowych (równoległych).
Pobieranie danych wstępnie działa jako zadanie w tle na procesorach CPU, aby zwiększyć wykorzystanie procesorów GPU w operacjach uczenia głębokiego.
Bezproblemowe uwierzytelnianie w magazynie w chmurze.

Zasób danych

Zasób danych usługi Azure Machine Edukacja przypomina zakładki przeglądarki internetowej (ulubione). Zamiast pamiętać długie ścieżki magazynu (URI), które wskazują najczęściej używane dane, można utworzyć zasób danych, a następnie uzyskać dostęp do tego zasobu za pomocą przyjaznej nazwy.

Tworzenie zasobu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Ponieważ dane pozostają w istniejącej lokalizacji, nie ponosisz dodatkowych kosztów magazynowania i nie ryzykujesz integralności źródła danych. Zasoby danych można tworzyć na podstawie usługi Azure Machine Edukacja magazynów danych, usługi Azure Storage, publicznych adresów URL lub plików lokalnych.

Aby uzyskać więcej informacji na temat zasobów danych, zobacz Tworzenie zasobów danych.