Pojęcia dotyczące danych w usłudze Azure Machine Edukacja

Za pomocą usługi Azure Machine Edukacja można importować dane z komputera lokalnego lub istniejącego zasobu magazynu opartego na chmurze. W tym artykule opisano kluczowe pojęcia dotyczące danych usługi Azure Machine Edukacja.

Magazyn danych

Magazyn danych usługi Azure Machine Edukacja służy jako odwołanie do istniejącego konta usługi Azure Storage. Magazyn danych usługi Azure Machine Edukacja oferuje następujące korzyści:

  • Typowy, łatwy w użyciu interfejs API, który współdziała z różnymi typami magazynu (Blob/Files/ADLS).
  • Łatwiejsze odnajdywanie przydatnych magazynów danych w operacjach zespołowych.
  • W przypadku dostępu opartego na poświadczeniach (jednostki usługi/sygnatury dostępu współdzielonego/klucza) usługa Azure Machine Edukacja magazyn danych zabezpiecza informacje o połączeniu. W ten sposób nie trzeba umieszczać tych informacji w skryptach.

Podczas tworzenia magazynu danych przy użyciu istniejącego konta usługi Azure Storage można wybrać między dwiema różnymi metodami uwierzytelniania:

  • Oparte na poświadczeniach — uwierzytelnianie dostępu do danych przy użyciu jednostki usługi, tokenu sygnatury dostępu współdzielonego (SAS) lub klucza konta. Użytkownicy z dostępem do obszaru roboczego Czytelnik mogą uzyskiwać dostęp do poświadczeń.
  • Oparte na tożsamości — użyj tożsamości firmy Microsoft lub tożsamości zarządzanej do uwierzytelniania dostępu do danych.

W poniższej tabeli przedstawiono podsumowanie usług magazynu w chmurze platformy Azure, które może utworzyć magazyn danych usługi Azure Machine Edukacja. Ponadto tabela zawiera podsumowanie typów uwierzytelniania, które mogą uzyskiwać dostęp do tych usług:

Obsługiwana usługa magazynu Uwierzytelnianie na podstawie poświadczeń Uwierzytelnianie na podstawie tożsamości
Azure Blob Container
Udział plików platformy Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

Aby uzyskać więcej informacji na temat magazynów danych, zobacz Tworzenie magazynów danych.

Domyślne magazyny danych

Każdy obszar roboczy usługi Azure Machine Edukacja ma domyślne konto magazynu (konto usługi Azure Storage), które zawiera następujące magazyny danych:

Napiwek

Aby znaleźć identyfikator obszaru roboczego, przejdź do obszaru roboczego w witrynie Azure Portal. Rozwiń Ustawienia, a następnie wybierz pozycję Właściwości. Zostanie wyświetlony identyfikator obszaru roboczego.

Nazwa magazynu danych Typ magazynu danych Nazwa magazynu danych opis
workspaceblobstore Kontener obiektów blob azureml-blobstore-{workspace-id} Przechowuje przekazywanie danych, migawki kodu zadania i pamięć podręczną danych potoku.
workspaceworkingdirectory Udział plików code-{GUID} Przechowuje dane dla notesów, wystąpień obliczeniowych i przepływu monitów.
workspacefilestore Udział plików azureml-filestore-{workspace-id} Alternatywny kontener do przekazywania danych.
workspaceartifactstore Kontener obiektów blob azureml Magazyn dla zasobów, takich jak metryki, modele i składniki.

Typy danych

Identyfikator URI (lokalizacja magazynu) może odwoływać się do pliku, folderu lub tabeli danych. Definicja danych wejściowych i wyjściowych zadania uczenia maszynowego wymaga jednego z następujących trzech typów danych:

Typ Interfejs API w wersji 2 Interfejs API w wersji 1 Scenariusze kanoniczne Różnica między interfejsem API w wersji 2/1
Plik
Odwołanie do pojedynczego pliku
uri_file FileDataset Odczyt/zapis pojedynczego pliku — plik może mieć dowolny format. Typ nowy dla interfejsów API w wersji 2. W interfejsach API w wersji 1 pliki są zawsze mapowane na folder w docelowym systemie plików obliczeniowych; to mapowanie wymaga os.path.joinelementu . W interfejsach API w wersji 2 pojedynczy plik jest mapowany. W ten sposób można odwoływać się do tej lokalizacji w kodzie.
Folder
Odwołanie do pojedynczego folderu
uri_folder FileDataset Musisz odczytać/zapisać folder plików parquet/CSV do biblioteki Pandas/Spark.

Uczenie głębokie przy użyciu obrazów, tekstu, audio, plików wideo znajdujących się w folderze.
W interfejsach API w wersji 1 był skojarzony aparat, FileDataset który mógł pobrać przykładowy plik z folderu. W interfejsach API w wersji 2 folder jest prostym mapowaniem docelowego systemu plików obliczeniowych.
Tabela
Odwołanie do tabeli danych
mltable TabularDataset Masz złożony schemat, który podlega częstym zmianom lub potrzebujesz podzbioru dużych danych tabelarycznych.

AutoML z tabelami.
W interfejsach API w wersji 1 usługa Azure Machine Edukacja zapleczu przechowywała strategię materializacji danych. W rezultacie działało tylko wtedy, TabularDataset gdy masz obszar roboczy usługi Azure Machine Edukacja. mltableprzechowuje strategię materializacji danych w magazynie. Ta lokalizacja magazynu oznacza, że można użyć jej rozłączenia z usługą AzureML — na przykład lokalnie i lokalnie. W interfejsach API w wersji 2 łatwiej będzie przejść z zadań lokalnych do zdalnych. Aby uzyskać więcej informacji, zobacz Praca z tabelami w usłudze Azure Machine Edukacja.

Identyfikator URI

Identyfikator URI (Uniform Resource Identifier) reprezentuje lokalizację magazynu na komputerze lokalnym, usłudze Azure Storage lub publicznie dostępnej lokalizacji http(s). W poniższych przykładach pokazano identyfikatory URI dla różnych opcji magazynu:

Lokalizacja usługi Storage Przykłady identyfikatorów URI
Azure Machine Edukacja Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Komputer lokalny ./home/username/data/my_data
Publiczny serwer HTTP https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Zadanie usługi Azure Machine Edukacja mapuje identyfikatory URI na docelowy system plików obliczeniowych. To mapowanie oznacza, że w poleceniu, które używa lub generuje identyfikator URI, ten identyfikator URI działa jak plik lub folder. Identyfikator URI używa uwierzytelniania opartego na tożsamościach w celu nawiązania połączenia z usługami magazynu przy użyciu identyfikatora Entra firmy Microsoft (domyślnego) lub tożsamości zarządzanej. Identyfikatory URI magazynu danych usługi Azure Machine Edukacja mogą stosować uwierzytelnianie oparte na tożsamościach lub oparte na poświadczeniach (na przykład jednostka usługi, token SAS, klucz konta) bez ujawniania wpisów tajnych.

Identyfikator URI może służyć jako dane wejściowe lub wyjściowe zadania usługi Azure Machine Edukacja i może mapować go na docelowy system plików obliczeniowych z jedną z czterech różnych opcji trybu:

  • Instalacja tylko do odczytu (ro_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje wyłącznie dane wyjściowe tylko do odczytu.
  • Instalacja odczytu i zapisu (rw_mount): identyfikator URI reprezentuje lokalizację magazynu, która jest instalowana w docelowym systemie plików obliczeniowych. Instalowana lokalizacja danych obsługuje zarówno odczyt danych wyjściowych, jak i zapisy danych.
  • Download (download): Identyfikator URI reprezentuje lokalizację magazynu zawierającą dane pobrane do docelowego systemu plików obliczeniowego.
  • Przekazywanie (upload): wszystkie dane zapisane w lokalizacji docelowej obliczeniowej są przekazywane do lokalizacji magazynu reprezentowanej przez identyfikator URI.

Ponadto można przekazać identyfikator URI jako ciąg wejściowy zadania z trybem bezpośrednim . Ta tabela zawiera podsumowanie kombinacji trybów dostępnych dla danych wejściowych i wyjściowych:

Zadanie
Dane wejściowe lub wyjściowe
upload download ro_mount rw_mount direct
Dane wejściowe
Dane wyjściowe

Aby uzyskać więcej informacji, zobacz Uzyskiwanie dostępu do danych w zadaniu .

Możliwość środowiska uruchomieniowego danych

Usługa Azure Machine Edukacja używa własnego środowiska uruchomieniowego danych do jednego z trzech celów:

  • w przypadku instalacji/przekazywania/pobierania
  • mapowanie identyfikatorów URI magazynu na docelowy system plików obliczeniowych
  • aby zmaterializować dane tabelaryczne w bibliotece pandas/spark przy użyciu tabel usługi Azure Machine Edukacja (mltable)

Środowisko uruchomieniowe usługi Azure Machine Edukacja danych zostało zaprojektowane z myślą o wysokiej szybkości i wysokiej wydajności zadań uczenia maszynowego. Oferuje następujące kluczowe korzyści:

  • Architektura języka Rust . Język Rust jest znany z dużej szybkości i wysokiej wydajności pamięci.
  • Lekka waga; Środowisko uruchomieniowe danych usługi Azure Machine Edukacja nie ma zależności od innych technologii — na przykład JVM — więc środowisko uruchomieniowe szybko instaluje się na docelowych obiektach obliczeniowych.
  • Ładowanie danych wieloprocesowych (równoległych).
  • Pobieranie danych wstępnie działa jako zadanie w tle na procesorach CPU, aby zwiększyć wykorzystanie procesorów GPU w operacjach uczenia głębokiego.
  • Bezproblemowe uwierzytelnianie w magazynie w chmurze.

Zasób danych

Zasób danych usługi Azure Machine Edukacja przypomina zakładki przeglądarki internetowej (ulubione). Zamiast pamiętać długie ścieżki magazynu (URI), które wskazują najczęściej używane dane, można utworzyć zasób danych, a następnie uzyskać dostęp do tego zasobu za pomocą przyjaznej nazwy.

Tworzenie zasobu danych tworzy również odwołanie do lokalizacji źródła danych wraz z kopią metadanych. Ponieważ dane pozostają w istniejącej lokalizacji, nie ponosisz dodatkowych kosztów magazynowania i nie ryzykujesz integralności źródła danych. Zasoby danych można tworzyć na podstawie usługi Azure Machine Edukacja magazynów danych, usługi Azure Storage, publicznych adresów URL lub plików lokalnych.

Aby uzyskać więcej informacji na temat zasobów danych, zobacz Tworzenie zasobów danych.

Następne kroki