Identifiera scenarier och planera för avancerad analys av databehandling
Vilka resurser krävs för att du ska kunna skapa en miljö som kan utföra avancerad analysbearbetning på en datamängd? Den här artikeln föreslår en serie frågor att ställa som kan hjälpa dig att identifiera uppgifter och resurser som är relevanta för ditt scenario.
Mer information om ordningen på de avancerade stegen för förutsägelseanalys finns i Vad är TDSP (Team Data Science Process). Varje steg kräver specifika resurser för de aktiviteter som är relevanta för just ditt scenario.
Besvara viktiga frågor inom följande områden för att identifiera ditt scenario:
- datalogistik
- dataegenskaper
- datamängdskvalitet
- önskade verktyg och språk
Logistiska frågor: dataplatser och förflyttning
De logistiska frågorna omfattar följande:
- datakällans plats
- mål i Azure
- krav för att flytta data, inklusive schema, mängd och resurser som ingår
Du kan behöva flytta data flera gånger under analysprocessen. Ett vanligt scenario är att flytta lokala data till någon form av lagring i Azure och sedan till Machine Learning Studio.
Vad är din datakälla?
Är dina data lokala eller i molnet? Möjliga platser är:
- en offentligt tillgänglig HTTP-adress
- en lokal fil eller en nätverksplats
- en SQL Server-databas
- en Azure Storage container
Vad är Azure-målet?
Var måste dina data vara för bearbetning eller modellering?
- Azure Blob Storage
- SQL Azure-databaser
- SQL Server på virtuell Azure-dator
- HDInsight (Hadoop på Azure) eller Hive-tabeller
- Azure Machine Learning
- Monteras virtuella Azure-hårddiskar
Hur ska du flytta data?
Procedurer och resurser för att mata in eller läsa in data i en mängd olika lagrings- och bearbetningsmiljöer finns i:
- Läs in data i lagringsmiljöer för analys
- Importera dina träningsdata till Machine Learning Studio (klassisk) från olika datakällor
Behöver data flyttas enligt ett regelbundet schema eller ändras under migreringen?
Överväg att Azure Data Factory (ADF) när data behöver migreras kontinuerligt. ADF kan vara användbart för:
- ett hybridscenario som omfattar både lokala och molnbaserade resurser
- ett scenario där data transacted, modified, or changed by business logic in the course of being migrated
Mer information finns i Flytta data från en SQL Server databas till SQL Azure med Azure Data Factory.
Hur mycket av data ska flyttas till Azure?
Stora datamängder kan överskrida lagringskapaciteten för vissa miljöer. Ett exempel finns i diskussionen om storleksgränser för Machine Learning Studio (klassisk) i nästa avsnitt. I sådana fall kan du använda ett exempel på data under analysen. Mer information om hur du nedsamplar en datauppsättning i olika Azure-miljöer finns i Exempeldata i Team Data Science Process.
Frågor om dataegenskaper: typ, format och storlek
De här frågorna är viktiga när du planerar dina lagrings- och bearbetningsmiljöer. De hjälper dig att välja rätt scenario för din datatyp och förstå eventuella begränsningar.
Vilka är datatyperna?
- Numeriska
- Kategoriska
- Strängar
- Binär
Hur formateras dina data?
- Kommaavgränsade (CSV) eller tabbavgränsade (TSV) flata filer
- Komprimerade eller okomprimerade
- Azure-blobbar
- Hadoop Hive-tabeller
- SQL Server tabeller
Hur stora är dina data?
- Liten: Mindre än 2 GB
- Medel: Större än 2 GB och mindre än 10 GB
- Stor: Större än 10 GB
Ta den Machine Learning Studio-miljön (klassisk) till exempel:
- En lista över de dataformat och typer som stöds av Machine Learning Studio (klassisk) finns i avsnittet Dataformat och datatyper som stöds.
- Information om begränsningarna för andra Azure-tjänster som används i analysprocessen finns i Gränser, kvoter och begränsningar för Azure-prenumerationer och -tjänster.
Frågor om datakvalitet: utforskning och förbearbetning
Vad vet du om dina data?
Förstå de grundläggande egenskaperna för dina data:
- Vilka mönster eller trender den uppvisar
- Vilka extremvärden det har
- Hur många värden som saknas
Det här steget är viktigt för att hjälpa dig:
- Fastställa hur mycket förbearbetning som krävs
- Formulera hypoteser som föreslår de lämpligaste funktionerna eller analystypen
- Formulera planer för ytterligare datainsamling
Användbara tekniker för datagranskning är bland annat beräkning av beskrivande statistik och visualiseringsdiagram. Mer information om hur du utforskar en datamängd i olika Azure-miljöer finns i Utforska data i Team Data Science Process.
Kräver data förbearbetning eller rensning?
Du kan behöva förbearbeta och rensa dina data innan du kan använda datauppsättningen effektivt för maskininlärning. Rådata är ofta brus och otillförlitliga. Det kan saknas värden. Användning av sådana data för modellering kan ge missvisande resultat. En beskrivning finns i Uppgifter för att förbereda data för förbättrad maskininlärning.
Frågor om verktyg och språk
Det finns många alternativ för språk, utvecklingsmiljöer och verktyg. Tänk på dina behov och inställningar.
Vilka språk föredrar du att använda för analys?
- R
- Python
- SQL
Vilka verktyg ska du använda för dataanalys?
- Microsoft Azure PowerShell – ett skriptspråk som används för att administrera dina Azure-resurser på ett skriptspråk
- Azure Machine Learning Studio
- Revolution Analytics
- Rstudio
- Python Tools för Visual Studio
- Anaconda
- Jupyter Notebook
- Microsoft Power BI
Identifiera ditt scenario för avancerad analys
När du har besvarat frågorna i föregående avsnitt är du redo att avgöra vilket scenario som passar bäst för ditt fall. Exempelscenarierna beskrivs i Scenarier för avancerad analys i Azure Machine Learning.