Verbinding maken met gegevens met Azure Machine Learning Studio
In dit artikel leert u hoe u toegang krijgt tot uw gegevens met de Azure Machine Learning-studio. Verbinding maken naar uw gegevens in opslagservices in Azure met Azure Machine Learning-gegevensarchieven en verpakt deze gegevens vervolgens voor taken in uw ML-werkstromen met Azure Machine Learning-gegevenssets.
In de volgende tabel worden de voordelen van gegevensarchieven en gegevenssets gedefinieerd en samengevat.
Object | Beschrijving | Vergoedingen |
---|---|---|
Gegevensarchieven | Maak veilig verbinding met uw opslagservice in Azure door uw verbindingsgegevens op te slaan, zoals uw abonnements-id en tokenautorisatie in uw Key Vault die is gekoppeld aan de werkruimte | Omdat uw gegevens veilig worden opgeslagen, kunt u |
Gegevenssets | Als u een gegevensset maakt, maakt u ook een verwijzing naar de locatie van de gegevensbron, samen met een kopie van de bijbehorende metagegevens. Met gegevenssets kunt u, |
Omdat gegevenssets lazily worden geëvalueerd en de gegevens op de bestaande locatie blijven staan, kunt u |
Als u wilt weten waar gegevensarchieven en gegevenssets passen in de algemene werkstroom voor gegevenstoegang van Azure Machine Learning, raadpleegt u het artikel Gegevens veilig openen .
Zie de volgende artikelen voor het gebruik van de Azure Machine Learning Python SDK voor het eerst voor een code:
- Verbinding maken naar Azure-opslagservices met gegevensarchieven.
- Azure Machine Learning-gegevenssets maken.
Vereisten
Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint. Probeer de gratis of betaalde versie van Azure Machine Learning.
Toegang tot Azure Machine Learning-studio.
Een Azure Machine Learning-werkruimte. Werkruimtebronnen maken.
- Wanneer u een werkruimte maakt, worden een Azure Blob-container en een Azure-bestandsshare automatisch geregistreerd als gegevensarchieven voor de werkruimte. Ze hebben een naam
workspaceblobstore
enworkspacefilestore
respectievelijk. Als blob-opslag voldoende is voor uw behoeften, wordt dezeworkspaceblobstore
ingesteld als het standaardgegevensarchief en is deze al geconfigureerd voor gebruik. Anders hebt u een opslagaccount in Azure nodig met een ondersteund opslagtype.
- Wanneer u een werkruimte maakt, worden een Azure Blob-container en een Azure-bestandsshare automatisch geregistreerd als gegevensarchieven voor de werkruimte. Ze hebben een naam
Gegevensarchieven maken
U kunt gegevensarchieven maken op basis van deze Azure-opslagoplossingen. Voor niet-ondersteunde opslagoplossingen en om kosten voor uitgaande gegevens tijdens ML-experimenten op te slaan, moet u uw gegevens verplaatsen naar een ondersteunde Azure-opslagoplossing. Meer informatie over gegevensarchieven.
U kunt gegevensarchieven maken met op referenties gebaseerde toegang of op identiteit gebaseerde toegang.
Maak in een paar stappen een nieuw gegevensarchief met de Azure Machine Learning-studio.
Belangrijk
Als uw gegevensopslagaccount zich in een virtueel netwerk bevindt, zijn aanvullende configuratiestappen vereist om ervoor te zorgen dat de studio toegang heeft tot uw gegevens. Zie Netwerkisolatie en privacy om ervoor te zorgen dat de juiste configuratiestappen worden toegepast.
- Meld u aan bij Azure Machine Learning Studio.
- Selecteer Gegevens in het linkerdeelvenster onder Assets.
- Selecteer bovenaan Gegevensarchieven.
- Selecteer + Maken.
- Vul het formulier in om een nieuw gegevensarchief te maken en te registreren. Het formulier wordt op intelligente wijze bijgewerkt op basis van uw selecties voor azure-opslagtype en verificatietype. Zie de sectie opslagtoegang en machtigingen om te begrijpen waar u de verificatiereferenties vindt die u nodig hebt om dit formulier in te vullen.
In het volgende voorbeeld ziet u hoe het formulier eruitziet wanneer u een Azure Blob-gegevensarchief maakt:
Gegevensassets maken
Nadat u een gegevensarchief hebt gemaakt, maakt u een gegevensset om met uw gegevens te communiceren. Gegevenssets verpakken uw gegevens in een vertraagd geëvalueerd verbruiksobject voor machine learning-taken, zoals training. Meer informatie over gegevenssets.
Er zijn twee typen gegevenssets, FileDataset en TabularDataset. FileDatasets maken verwijzingen naar één of meerdere bestanden of openbare URL's. TabularDatasets vertegenwoordigen uw gegevens in tabelvorm. U kunt TabularDatasets maken op basis van .csv-, .tsv-, PARQUET-, JSONL-bestanden en van SQL-queryresultaten.
In de volgende stappen wordt beschreven hoe u een gegevensset maakt in Azure Machine Learning-studio.
Notitie
Gegevenssets die zijn gemaakt via Azure Machine Learning-studio worden automatisch geregistreerd bij de werkruimte.
Ga naar Azure Machine Learning-studio
Selecteer Gegevens onder Assets in het linkernavigatievenster. Selecteer Maken op het tabblad Gegevensassets
Geef uw gegevensasset een naam en een optionele beschrijving. Selecteer vervolgens onder Type een van de typen gegevenssets, bestand of tabellair.
U hebt een aantal opties voor uw gegevensbron. Als uw gegevens al zijn opgeslagen in Azure, kiest u 'Uit Azure-opslag'. Als u gegevens wilt uploaden vanaf uw lokale station, kiest u 'Uit lokale bestanden'. Als uw gegevens worden opgeslagen op een openbare weblocatie, kiest u 'Uit webbestanden'. U kunt ook een gegevensasset maken vanuit een SQL-database of vanuit Azure Open Datasets.
Selecteer voor de stap voor het selecteren van bestanden de locatie waar u uw gegevens wilt opslaan in Azure en welke gegevensbestanden u wilt gebruiken.
- Schakel validatie overslaan in als uw gegevens zich in een virtueel netwerk bevinden. Meer informatie over isolatie en privacy van virtuele netwerken.
Volg de stappen om de instellingen en het schema voor het parseren van gegevens voor uw gegevensasset in te stellen. De instellingen worden vooraf ingevuld op basis van het bestandstype en u kunt uw instellingen verder configureren voordat u de gegevensasset maakt.
Zodra u bij de stap Controleren bent, klikt u op Maken op de laatste pagina
Voorbeeld van gegevens en profiel
Nadat u uw gegevensset hebt gemaakt, controleert u of u de preview en het profiel in de studio kunt bekijken met de volgende stappen:
- Meld u aan bij de Azure Machine Learning-studio
- Selecteer Gegevens onder Assets in het linkernavigatievenster.
- Selecteer de naam van de gegevensset die u wilt weergeven.
- Selecteer het tabblad Verkennen .
- Selecteer het tabblad Voorbeeld .
- Selecteer het tabblad Profiel .
U kunt een groot aantal overzichtsstatistieken in uw gegevensset ophalen om te controleren of uw gegevensset gereed is voor ML. Voor niet-numerieke kolommen bevatten ze alleen basisstatistieken zoals min, max en foutaantal. Voor numerieke kolommen kunt u ook hun statistische momenten en geschatte kwantielen bekijken.
Het gegevensprofiel van de Azure Machine Learning-gegevensset omvat met name:
Notitie
Lege vermeldingen worden weergegeven voor functies met irrelevante typen.
Statistic | Beschrijving |
---|---|
Functie | De naam van de kolom die wordt samengevat. |
Profile | Inlinevisualisatie op basis van het type afgeleid. Tekenreeksen, booleaanse waarden en datums hebben bijvoorbeeld waardeaantallen, terwijl decimalen (numeriek) histogrammen bij benadering hebben. Hierdoor kunt u snel inzicht krijgen in de distributie van de gegevens. |
Typedistributie | Aantal inline-waarden van typen in een kolom. Null-waarden zijn hun eigen type, dus deze visualisatie is handig voor het detecteren van afwijkende of ontbrekende waarden. |
Type | Afgeleid type van de kolom. Mogelijke waarden zijn: tekenreeksen, booleaanse waarden, datums en decimalen. |
Min | Minimumwaarde van de kolom. Lege vermeldingen worden weergegeven voor functies waarvan het type geen inherente volgorde heeft (zoals Booleaanse waarden). |
Max | Maximumwaarde van de kolom. |
Tellen | Totaal aantal ontbrekende en niet-ontbrekende vermeldingen in de kolom. |
Niet-ontbrekend aantal | Aantal vermeldingen in de kolom die niet ontbreken. Lege tekenreeksen en fouten worden behandeld als waarden, zodat ze niet bijdragen aan het 'aantal ontbrekende waarden'. |
Kwantielen | Geschatte waarden bij elk kwantiel om een beeld te geven van de verdeling van de gegevens. |
Gemiddelde | Rekenkundig gemiddelde of gemiddelde van de kolom. |
Standaarddeviatie | Meting van de hoeveelheid spreiding of variatie van de gegevens van deze kolom. |
Verschil | Meting van de mate waarin de gegevens van deze kolom zich uit de gemiddelde waarde uitspreiden. |
Asymmetrie | Meting van hoe verschillend de gegevens van deze kolom zijn uit een normale verdeling. |
Kurtosis | Meting van hoe sterk de gegevens van deze kolom worden vergeleken met een normale verdeling. |
Toegang en machtigingen voor opslag
Om ervoor te zorgen dat u veilig verbinding maakt met uw Azure Storage-service, moet u voor Azure Machine Learning toegang hebben tot de bijbehorende gegevensopslag. Deze toegang is afhankelijk van de verificatiereferenties die worden gebruikt om het gegevensarchief te registreren.
Virtueel netwerk
Als uw gegevensopslagaccount zich in een virtueel netwerk bevindt, zijn extra configuratiestappen vereist om ervoor te zorgen dat Azure Machine Learning toegang heeft tot uw gegevens. Zie Gebruik Azure Machine Learning-studio in een virtueel netwerk om ervoor te zorgen dat de juiste configuratiestappen worden toegepast wanneer u uw gegevensarchief maakt en registreert.
Toegangsvalidatie
Waarschuwing
Toegang tussen tenants tot opslagaccounts wordt niet ondersteund. Als toegang tussen tenants nodig is voor uw scenario, neemt u contact op met de alias van het Azure Machine Learning Data Support-team op amldatasupport@microsoft.com voor hulp bij een aangepaste codeoplossing.
Als onderdeel van het eerste proces voor het maken en registreren van gegevensarchieven valideert Azure Machine Learning automatisch of de onderliggende opslagservice bestaat en heeft de door de gebruiker geleverde principal (gebruikersnaam, service-principal of SAS-token) toegang tot de opgegeven opslag.
Nadat het gegevensarchief is gemaakt, wordt deze validatie alleen uitgevoerd voor methoden waarvoor toegang tot de onderliggende opslagcontainer is vereist, niet telkens wanneer gegevensopslagobjecten worden opgehaald. Validatie vindt bijvoorbeeld plaats als u bestanden uit uw gegevensarchief wilt downloaden; maar als u alleen uw standaardgegevensarchief wilt wijzigen, gebeurt de validatie niet.
Als u uw toegang tot de onderliggende opslagservice wilt verifiëren, kunt u uw accountsleutel, SAS-tokens (Shared Access Signatures) of service-principal opgeven op basis van het gegevensarchieftype dat u wilt maken. De matrix van het opslagtype bevat de ondersteunde verificatietypen die overeenkomen met elk gegevensarchieftype.
U vindt informatie over de accountsleutel, het SAS-token en de service-principal in uw Azure-portal.
Als u van plan bent een accountsleutel of SAS-token te gebruiken voor verificatie, selecteert u Opslagaccounts in het linkerdeelvenster en kiest u het opslagaccount dat u wilt registreren.
- De pagina Overzicht bevat informatie zoals de accountnaam, de container en de naam van de bestandsshare.
- Ga voor accountsleutels naar Toegangssleutels in het deelvenster Instellingen.
- Ga voor SAS-tokens naar Handtekeningen voor gedeelde toegang in het deelvenster Instellingen.
- De pagina Overzicht bevat informatie zoals de accountnaam, de container en de naam van de bestandsshare.
Als u van plan bent om een service-principal te gebruiken voor verificatie, gaat u naar uw App-registraties en selecteert u welke app u wilt gebruiken.
- De bijbehorende overzichtspagina bevat vereiste informatie, zoals tenant-id en client-id.
Belangrijk
- Als u uw toegangssleutels voor een Azure Storage-account (accountsleutel of SAS-token) wilt wijzigen, moet u de nieuwe referenties synchroniseren met uw werkruimte en de gegevensarchieven die eraan zijn gekoppeld. Meer informatie over het synchroniseren van uw bijgewerkte referenties.
- Als u de registratie van een gegevensarchief met dezelfde naam ongedaan maakt en opnieuw registreert en dit mislukt, is voorlopig verwijderen mogelijk niet ingeschakeld voor de Azure Key Vault voor uw werkruimte. Voorlopig verwijderen is standaard ingeschakeld voor het sleutelkluisexemplaren dat door uw werkruimte is gemaakt, maar is mogelijk niet ingeschakeld als u een bestaande sleutelkluis hebt gebruikt of een werkruimte hebt gemaakt vóór oktober 2020. Zie Voorlopig verwijderen inschakelen voor een bestaande sleutelkluis voor meer informatie over het inschakelen van voorlopig verwijderen.
Bevoegdheden
Voor Azure Blob-container en Azure Data Lake Gen 2-opslag moet u ervoor zorgen dat uw verificatiereferenties toegang hebben tot Storage Blob Data Reader . Meer informatie over Storage Blob Data Reader. Een SAS-token voor een account is standaard ingesteld op geen machtigingen.
Voor leestoegang tot gegevens moeten uw verificatiereferenties een minimum aan lijst- en leesmachtigingen hebben voor containers en objecten.
Voor schrijftoegang tot gegevens zijn ook schrijf- en toevoegmachtigingen vereist.
Trainen met gegevenssets
Gebruik uw gegevenssets in uw machine learning-experimenten voor het trainen van ML-modellen. Meer informatie over het trainen met gegevenssets.