Verbinding maken met gegevens met Azure Machine Learning Studio

In dit artikel leert u hoe u toegang krijgt tot uw gegevens met de Azure Machine Learning-studio. Verbinding maken naar uw gegevens in opslagservices in Azure met Azure Machine Learning-gegevensarchieven en verpakt deze gegevens vervolgens voor taken in uw ML-werkstromen met Azure Machine Learning-gegevenssets.

In de volgende tabel worden de voordelen van gegevensarchieven en gegevenssets gedefinieerd en samengevat.

Object Beschrijving Vergoedingen
Gegevensarchieven Maak veilig verbinding met uw opslagservice in Azure door uw verbindingsgegevens op te slaan, zoals uw abonnements-id en tokenautorisatie in uw Key Vault die is gekoppeld aan de werkruimte Omdat uw gegevens veilig worden opgeslagen, kunt u

  • Plaats geen verificatiereferenties of oorspronkelijke gegevensbronnen die risico lopen.
  • U hoeft ze niet meer in uw scripts vast te leggen.
  • Gegevenssets Als u een gegevensset maakt, maakt u ook een verwijzing naar de locatie van de gegevensbron, samen met een kopie van de bijbehorende metagegevens. Met gegevenssets kunt u,

  • Toegang tot gegevens tijdens modeltraining.
  • Gegevens delen en samenwerken met andere gebruikers.
  • Gebruik opensource-bibliotheken, zoals pandas, voor gegevensverkenning.
  • Omdat gegevenssets lazily worden geëvalueerd en de gegevens op de bestaande locatie blijven staan, kunt u

  • Bewaar één kopie van gegevens in uw opslag.
  • Er worden geen extra opslagkosten in rekening gebracht
  • Riskeer niet onbedoeld het wijzigen van uw oorspronkelijke gegevensbronnen.
  • Verbeter de prestaties van ml-werkstromen.
  • Als u wilt weten waar gegevensarchieven en gegevenssets passen in de algemene werkstroom voor gegevenstoegang van Azure Machine Learning, raadpleegt u het artikel Gegevens veilig openen .

    Zie de volgende artikelen voor het gebruik van de Azure Machine Learning Python SDK voor het eerst voor een code:

    Vereisten

    • Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint. Probeer de gratis of betaalde versie van Azure Machine Learning.

    • Toegang tot Azure Machine Learning-studio.

    • Een Azure Machine Learning-werkruimte. Werkruimtebronnen maken.

      • Wanneer u een werkruimte maakt, worden een Azure Blob-container en een Azure-bestandsshare automatisch geregistreerd als gegevensarchieven voor de werkruimte. Ze hebben een naam workspaceblobstore en workspacefilestorerespectievelijk. Als blob-opslag voldoende is voor uw behoeften, wordt deze workspaceblobstore ingesteld als het standaardgegevensarchief en is deze al geconfigureerd voor gebruik. Anders hebt u een opslagaccount in Azure nodig met een ondersteund opslagtype.

    Gegevensarchieven maken

    U kunt gegevensarchieven maken op basis van deze Azure-opslagoplossingen. Voor niet-ondersteunde opslagoplossingen en om kosten voor uitgaande gegevens tijdens ML-experimenten op te slaan, moet u uw gegevens verplaatsen naar een ondersteunde Azure-opslagoplossing. Meer informatie over gegevensarchieven.

    U kunt gegevensarchieven maken met op referenties gebaseerde toegang of op identiteit gebaseerde toegang.

    Maak in een paar stappen een nieuw gegevensarchief met de Azure Machine Learning-studio.

    Belangrijk

    Als uw gegevensopslagaccount zich in een virtueel netwerk bevindt, zijn aanvullende configuratiestappen vereist om ervoor te zorgen dat de studio toegang heeft tot uw gegevens. Zie Netwerkisolatie en privacy om ervoor te zorgen dat de juiste configuratiestappen worden toegepast.

    1. Meld u aan bij Azure Machine Learning Studio.
    2. Selecteer Gegevens in het linkerdeelvenster onder Assets.
    3. Selecteer bovenaan Gegevensarchieven.
    4. Selecteer + Maken.
    5. Vul het formulier in om een nieuw gegevensarchief te maken en te registreren. Het formulier wordt op intelligente wijze bijgewerkt op basis van uw selecties voor azure-opslagtype en verificatietype. Zie de sectie opslagtoegang en machtigingen om te begrijpen waar u de verificatiereferenties vindt die u nodig hebt om dit formulier in te vullen.

    In het volgende voorbeeld ziet u hoe het formulier eruitziet wanneer u een Azure Blob-gegevensarchief maakt:

    Form for a new datastore

    Gegevensassets maken

    Nadat u een gegevensarchief hebt gemaakt, maakt u een gegevensset om met uw gegevens te communiceren. Gegevenssets verpakken uw gegevens in een vertraagd geëvalueerd verbruiksobject voor machine learning-taken, zoals training. Meer informatie over gegevenssets.

    Er zijn twee typen gegevenssets, FileDataset en TabularDataset. FileDatasets maken verwijzingen naar één of meerdere bestanden of openbare URL's. TabularDatasets vertegenwoordigen uw gegevens in tabelvorm. U kunt TabularDatasets maken op basis van .csv-, .tsv-, PARQUET-, JSONL-bestanden en van SQL-queryresultaten.

    In de volgende stappen wordt beschreven hoe u een gegevensset maakt in Azure Machine Learning-studio.

    Notitie

    Gegevenssets die zijn gemaakt via Azure Machine Learning-studio worden automatisch geregistreerd bij de werkruimte.

    1. Ga naar Azure Machine Learning-studio

    2. Selecteer Gegevens onder Assets in het linkernavigatievenster. Selecteer Maken op het tabblad Gegevensassets This screenshot highlights Create in the Data assets tab.

    3. Geef uw gegevensasset een naam en een optionele beschrijving. Selecteer vervolgens onder Type een van de typen gegevenssets, bestand of tabellair. This screenshot shows set the name, description, and type of the data asset.

    4. U hebt een aantal opties voor uw gegevensbron. Als uw gegevens al zijn opgeslagen in Azure, kiest u 'Uit Azure-opslag'. Als u gegevens wilt uploaden vanaf uw lokale station, kiest u 'Uit lokale bestanden'. Als uw gegevens worden opgeslagen op een openbare weblocatie, kiest u 'Uit webbestanden'. U kunt ook een gegevensasset maken vanuit een SQL-database of vanuit Azure Open Datasets.

    5. Selecteer voor de stap voor het selecteren van bestanden de locatie waar u uw gegevens wilt opslaan in Azure en welke gegevensbestanden u wilt gebruiken.

      1. Schakel validatie overslaan in als uw gegevens zich in een virtueel netwerk bevinden. Meer informatie over isolatie en privacy van virtuele netwerken.
    6. Volg de stappen om de instellingen en het schema voor het parseren van gegevens voor uw gegevensasset in te stellen. De instellingen worden vooraf ingevuld op basis van het bestandstype en u kunt uw instellingen verder configureren voordat u de gegevensasset maakt.

    7. Zodra u bij de stap Controleren bent, klikt u op Maken op de laatste pagina

    Voorbeeld van gegevens en profiel

    Nadat u uw gegevensset hebt gemaakt, controleert u of u de preview en het profiel in de studio kunt bekijken met de volgende stappen:

    1. Meld u aan bij de Azure Machine Learning-studio
    2. Selecteer Gegevens onder Assets in het linkernavigatievenster. Screenshot highlights Create in the Data assets tab.
    3. Selecteer de naam van de gegevensset die u wilt weergeven.
    4. Selecteer het tabblad Verkennen .
    5. Selecteer het tabblad Voorbeeld . Screenshot shows a preview of a dataset.
    6. Selecteer het tabblad Profiel . Screenshot shows dataset column metadata in the Profile tab.

    U kunt een groot aantal overzichtsstatistieken in uw gegevensset ophalen om te controleren of uw gegevensset gereed is voor ML. Voor niet-numerieke kolommen bevatten ze alleen basisstatistieken zoals min, max en foutaantal. Voor numerieke kolommen kunt u ook hun statistische momenten en geschatte kwantielen bekijken.

    Het gegevensprofiel van de Azure Machine Learning-gegevensset omvat met name:

    Notitie

    Lege vermeldingen worden weergegeven voor functies met irrelevante typen.

    Statistic Beschrijving
    Functie De naam van de kolom die wordt samengevat.
    Profile Inlinevisualisatie op basis van het type afgeleid. Tekenreeksen, booleaanse waarden en datums hebben bijvoorbeeld waardeaantallen, terwijl decimalen (numeriek) histogrammen bij benadering hebben. Hierdoor kunt u snel inzicht krijgen in de distributie van de gegevens.
    Typedistributie Aantal inline-waarden van typen in een kolom. Null-waarden zijn hun eigen type, dus deze visualisatie is handig voor het detecteren van afwijkende of ontbrekende waarden.
    Type Afgeleid type van de kolom. Mogelijke waarden zijn: tekenreeksen, booleaanse waarden, datums en decimalen.
    Min Minimumwaarde van de kolom. Lege vermeldingen worden weergegeven voor functies waarvan het type geen inherente volgorde heeft (zoals Booleaanse waarden).
    Max Maximumwaarde van de kolom.
    Tellen Totaal aantal ontbrekende en niet-ontbrekende vermeldingen in de kolom.
    Niet-ontbrekend aantal Aantal vermeldingen in de kolom die niet ontbreken. Lege tekenreeksen en fouten worden behandeld als waarden, zodat ze niet bijdragen aan het 'aantal ontbrekende waarden'.
    Kwantielen Geschatte waarden bij elk kwantiel om een beeld te geven van de verdeling van de gegevens.
    Gemiddelde Rekenkundig gemiddelde of gemiddelde van de kolom.
    Standaarddeviatie Meting van de hoeveelheid spreiding of variatie van de gegevens van deze kolom.
    Verschil Meting van de mate waarin de gegevens van deze kolom zich uit de gemiddelde waarde uitspreiden.
    Asymmetrie Meting van hoe verschillend de gegevens van deze kolom zijn uit een normale verdeling.
    Kurtosis Meting van hoe sterk de gegevens van deze kolom worden vergeleken met een normale verdeling.

    Toegang en machtigingen voor opslag

    Om ervoor te zorgen dat u veilig verbinding maakt met uw Azure Storage-service, moet u voor Azure Machine Learning toegang hebben tot de bijbehorende gegevensopslag. Deze toegang is afhankelijk van de verificatiereferenties die worden gebruikt om het gegevensarchief te registreren.

    Virtueel netwerk

    Als uw gegevensopslagaccount zich in een virtueel netwerk bevindt, zijn extra configuratiestappen vereist om ervoor te zorgen dat Azure Machine Learning toegang heeft tot uw gegevens. Zie Gebruik Azure Machine Learning-studio in een virtueel netwerk om ervoor te zorgen dat de juiste configuratiestappen worden toegepast wanneer u uw gegevensarchief maakt en registreert.

    Toegangsvalidatie

    Waarschuwing

    Toegang tussen tenants tot opslagaccounts wordt niet ondersteund. Als toegang tussen tenants nodig is voor uw scenario, neemt u contact op met de alias van het Azure Machine Learning Data Support-team op amldatasupport@microsoft.com voor hulp bij een aangepaste codeoplossing.

    Als onderdeel van het eerste proces voor het maken en registreren van gegevensarchieven valideert Azure Machine Learning automatisch of de onderliggende opslagservice bestaat en heeft de door de gebruiker geleverde principal (gebruikersnaam, service-principal of SAS-token) toegang tot de opgegeven opslag.

    Nadat het gegevensarchief is gemaakt, wordt deze validatie alleen uitgevoerd voor methoden waarvoor toegang tot de onderliggende opslagcontainer is vereist, niet telkens wanneer gegevensopslagobjecten worden opgehaald. Validatie vindt bijvoorbeeld plaats als u bestanden uit uw gegevensarchief wilt downloaden; maar als u alleen uw standaardgegevensarchief wilt wijzigen, gebeurt de validatie niet.

    Als u uw toegang tot de onderliggende opslagservice wilt verifiëren, kunt u uw accountsleutel, SAS-tokens (Shared Access Signatures) of service-principal opgeven op basis van het gegevensarchieftype dat u wilt maken. De matrix van het opslagtype bevat de ondersteunde verificatietypen die overeenkomen met elk gegevensarchieftype.

    U vindt informatie over de accountsleutel, het SAS-token en de service-principal in uw Azure-portal.

    • Als u van plan bent een accountsleutel of SAS-token te gebruiken voor verificatie, selecteert u Opslagaccounts in het linkerdeelvenster en kiest u het opslagaccount dat u wilt registreren.

      • De pagina Overzicht bevat informatie zoals de accountnaam, de container en de naam van de bestandsshare.
        1. Ga voor accountsleutels naar Toegangssleutels in het deelvenster Instellingen.
        2. Ga voor SAS-tokens naar Handtekeningen voor gedeelde toegang in het deelvenster Instellingen.
    • Als u van plan bent om een service-principal te gebruiken voor verificatie, gaat u naar uw App-registraties en selecteert u welke app u wilt gebruiken.

      • De bijbehorende overzichtspagina bevat vereiste informatie, zoals tenant-id en client-id.

    Belangrijk

    • Als u uw toegangssleutels voor een Azure Storage-account (accountsleutel of SAS-token) wilt wijzigen, moet u de nieuwe referenties synchroniseren met uw werkruimte en de gegevensarchieven die eraan zijn gekoppeld. Meer informatie over het synchroniseren van uw bijgewerkte referenties.

    • Als u de registratie van een gegevensarchief met dezelfde naam ongedaan maakt en opnieuw registreert en dit mislukt, is voorlopig verwijderen mogelijk niet ingeschakeld voor de Azure Key Vault voor uw werkruimte. Voorlopig verwijderen is standaard ingeschakeld voor het sleutelkluisexemplaren dat door uw werkruimte is gemaakt, maar is mogelijk niet ingeschakeld als u een bestaande sleutelkluis hebt gebruikt of een werkruimte hebt gemaakt vóór oktober 2020. Zie Voorlopig verwijderen inschakelen voor een bestaande sleutelkluis voor meer informatie over het inschakelen van voorlopig verwijderen.

    Bevoegdheden

    Voor Azure Blob-container en Azure Data Lake Gen 2-opslag moet u ervoor zorgen dat uw verificatiereferenties toegang hebben tot Storage Blob Data Reader . Meer informatie over Storage Blob Data Reader. Een SAS-token voor een account is standaard ingesteld op geen machtigingen.

    • Voor leestoegang tot gegevens moeten uw verificatiereferenties een minimum aan lijst- en leesmachtigingen hebben voor containers en objecten.

    • Voor schrijftoegang tot gegevens zijn ook schrijf- en toevoegmachtigingen vereist.

    Trainen met gegevenssets

    Gebruik uw gegevenssets in uw machine learning-experimenten voor het trainen van ML-modellen. Meer informatie over het trainen met gegevenssets.

    Volgende stappen