Scenario's en plannen identificeren voor geavanceerde analytische gegevensverwerking
Welke resources zijn vereist voor het maken van een omgeving die geavanceerde analysebewerkingen op een gegevensset kan uitvoeren? In dit artikel wordt een reeks vragen gesteld die u kunnen helpen bij het identificeren van taken en resources die relevant zijn voor uw scenario.
Zie Wat is het Team Data Science Process (TDSP)voor meer informatie over de volgorde van de stappen op hoog niveau voor predictive analytics. Elke stap vereist specifieke resources voor de taken die relevant zijn voor uw specifieke scenario.
Beantwoord belangrijke vragen op de volgende gebieden om uw scenario te identificeren:
- gegevenslogistiek
- gegevenskenmerken
- kwaliteit van gegevensset
- voorkeurshulpprogramma's en -talen
Logistieke vragen: gegevenslocaties en verplaatsing
De logistieke vragen hebben betrekking op de volgende items:
- locatie van gegevensbron
- doelbestemming in Azure
- vereisten voor het verplaatsen van de gegevens, waaronder het schema, de hoeveelheid en de betrokken resources
Mogelijk moet u de gegevens meerdere keren verplaatsen tijdens het analyseproces. Een veelvoorkomende situatie is het verplaatsen van lokale gegevens naar een vorm van opslag in Azure en vervolgens naar Machine Learning Studio.
Wat is uw gegevensbron?
Zijn uw gegevens lokaal of in de cloud? Mogelijke locaties zijn:
- een openbaar beschikbaar HTTP-adres
- een lokale of netwerkbestandslocatie
- een SQL Server-database
- een Azure Storage container
Wat is de Azure-bestemming?
Waar moeten uw gegevens zijn voor verwerking of modellering?
- Azure Blob Storage
- SQL Azure-databases
- SQL Server op Azure VM
- HDInsight-tabellen (Hadoop in Azure) of Hive-tabellen
- Azure Machine Learning
- Aan te brengen virtuele harde schijven van Azure
Hoe gaat u de gegevens verplaatsen?
Zie voor procedures en resources voor het opnemen of laden van gegevens in verschillende opslag- en verwerkingsomgevingen:
- Gegevens voor analysedoeleinden in opslagomgevingen laden
- Uw trainingsgegevens importeren in Azure Machine Learning Studio (klassiek) vanuit verschillende gegevensbronnen
Moeten de gegevens volgens een vast schema worden verplaatst of moeten ze tijdens de migratie worden gewijzigd?
Overweeg het Azure Data Factory (ADF) te gebruiken wanneer gegevens voortdurend moeten worden gemigreerd. ADF kan handig zijn voor:
- een hybride scenario waarin zowel on-premises resources als cloudbronnen worden gebruikt
- een scenario waarin de gegevens worden getransacteerd, gewijzigd of gewijzigd door bedrijfslogica in de loop van de migratie
Zie Move data from a SQL Server database to SQL Azure with Azure Data Factory (Gegevens verplaatsen van een SQL Server-database SQL Azure met Azure Data Factory) voor meer informatie.
Hoeveel van de gegevens moeten worden verplaatst naar Azure?
Grote gegevenssets kunnen de opslagcapaciteit van bepaalde omgevingen overschrijden. Zie voor een voorbeeld de bespreking van groottelimieten voor Machine Learning Studio (klassiek) in de volgende sectie. In dergelijke gevallen kunt u een voorbeeld van de gegevens gebruiken tijdens de analyse. Zie Sample data in the Team Data Science Process (Voorbeeldgegevens in Team Data Science Process) voor meer informatie over het down-samplen van een gegevensset in verschillende Azure-omgevingen.
Vragen over gegevenskenmerken: type, indeling en grootte
Deze vragen zijn essentieel voor het plannen van uw opslag- en verwerkingsomgevingen. Ze helpen u bij het kiezen van het juiste scenario voor uw gegevenstype en bij het begrijpen van eventuele beperkingen.
Wat zijn de gegevenstypen?
- Numerieke
- Categorische gegevens
- Tekenreeksen
- Binair
Hoe worden uw gegevens opgemaakt?
- Door komma's gescheiden (CSV) of platte TSV-bestanden (door tabs gescheiden bestanden)
- Gecomprimeerd of gedecomprimeerd
- Azure-blobs
- Hadoop Hive-tabellen
- SQL Server tabellen
Hoe groot zijn uw gegevens?
- Klein: minder dan 2 GB
- Gemiddeld: groter dan 2 GB en kleiner dan 10 GB
- Groot: groter dan 10 GB
Neem bijvoorbeeld Azure Machine Learning Studio-omgeving (klassiek) :
- Zie de sectie Ondersteunde gegevensindelingen en gegevenstypen voor een lijst met de gegevensindelingen en -typen die door Azure Machine Learning Studio worden ondersteund.
- Zie Limieten, quota's en beperkingen voor Azure-abonnementen en -services voor meer informatie over de beperkingen van andere Azure-services die worden gebruikt in het analyseproces.
Vragen over gegevenskwaliteit: verkenning en voorverwerking
Wat weet u over uw gegevens?
De basiskenmerken van uw gegevens begrijpen:
- Welke patronen of trends het vertoont
- Welke uitbijten deze heeft
- Hoeveel waarden ontbreken
Deze stap is belangrijk om u te helpen:
- Bepalen hoeveel voorverwerking nodig is
- Hypothesen formuleren die de meest geschikte functies of type analyse voorstellen
- Plannen formuleren voor extra gegevensverzameling
Handige technieken voor gegevensinspectie zijn berekening van beschrijvende statistieken en visualisatieplots. Zie Gegevens verkennen in het Team Data Science Process voor meer informatie over het verkennen van een gegevensset in verschillende Azure-omgevingen.
Moeten de gegevens voorverwerkt of worden opschoond?
Mogelijk moet u uw gegevens voorverwerken en ops schonen voordat u de gegevensset effectief kunt gebruiken voor machine learning. Onbewerkte gegevens zijn vaak ruis en onbetrouwbaar. Mogelijk ontbreken er waarden. Het gebruik van dergelijke gegevens voor modellering kan misleidende resultaten opleveren. Zie Taken voor het voorbereiden van gegevens voor verbeterde machine learning voor een beschrijving.
Vragen over hulpprogramma's en talen
Er zijn veel opties voor talen, ontwikkelomgevingen en hulpprogramma's. Let op uw behoeften en voorkeuren.
Welke talen wilt u liever gebruiken voor analyse?
- R
- Python
- SQL
Welke hulpprogramma's moet u gebruiken voor gegevensanalyse?
- Microsoft Azure PowerShell: een scripttaal die wordt gebruikt voor het beheren van uw Azure-resources in een scripttaal
- Azure Machine Learning Studio
- Revolution Analytics
- RStudio
- Python Tools for Visual Studio
- Anaconda
- Jupyter-notebooks
- Microsoft Power BI
Uw scenario voor geavanceerde analyse identificeren
Nadat u de vragen in de vorige sectie hebt beantwoord, bent u klaar om te bepalen welk scenario het beste bij uw situatie past. De voorbeeldscenario's worden beschreven in Scenario's voor geavanceerde analyses in Azure Machine Learning.