Datainsamlings- och förståelsefasen i livscykeln för Team Datavetenskap Process

Artikel
02/28/2024

Den här artikeln beskriver de mål, uppgifter och slutprodukter som är associerade med fasen för datainsamling och förståelse i TDSP (Team Datavetenskap Process). Den här processen ger en rekommenderad livscykel som ditt team kan använda för att strukturera dina datavetenskapsprojekt. Livscykeln beskriver de viktigaste stegen som ditt team utför, ofta iterativt:

Affärsförstelse
Datainsamling och förståelse
Modellering
Distribution
Kundgodkännande

Här är en visuell representation av TDSP-livscykeln:

Mål

Målet med datainsamlings- och förståelsefasen är att:

Skapa en ren datauppsättning av hög kvalitet som tydligt relaterar till målvariablerna. Leta upp datamängden i lämplig analysmiljö så att ditt team är redo för modellfasen.
Utveckla en lösningsarkitektur för datapipelinen som uppdaterar och poängsätter data regelbundet.

Så här slutför du uppgifterna

Datainsamlings- och förståelsefasen har tre huvudsakliga uppgifter:

Mata in data i målanalysmiljön.
Utforska data för att avgöra om data kan besvara frågan.
Konfigurera en datapipeline för att poängsätta nya eller regelbundet uppdaterade data.

Mata in data

Konfigurera en process för att flytta data från källplatserna till målplatserna där du kör analysåtgärder, till exempel träning och förutsägelser.

Utforska data

Innan du tränar dina modeller måste du utveckla en god förståelse för data. Verkliga datauppsättningar är ofta bullriga, saknar värden eller har en mängd andra avvikelser. Du kan använda datasammanfattning och visualisering för att granska kvaliteten på dina data och samla in information för bearbetning av data innan de är redo för modellering. Den här processen är ofta iterativ. Vägledning om hur du rensar data finns i Uppgifter för att förbereda data för förbättrad maskininlärning.

När du är nöjd med kvaliteten på de rensade data är nästa steg att bättre förstå datamönstren. Den här dataanalysen hjälper dig att välja och utveckla en lämplig förutsägelsemodell för ditt mål. Bestäm hur mycket data som motsvarar målet. Bestäm sedan om ditt team har tillräckligt med data för att gå vidare med nästa modelleringssteg. Återigen är den här processen ofta iterativ. Du kan behöva hitta nya datakällor med mer exakta eller mer relevanta data för att justera den datauppsättning som ursprungligen identifierades i föregående steg.

Konfigurera en datapipeline

Förutom att mata in och rensa data behöver du vanligtvis konfigurera en process för att poängsätta nya data eller uppdatera data regelbundet som en del av en pågående inlärningsprocess. Du kan använda en datapipeline eller ett arbetsflöde för att poängsätta data. Vi rekommenderar en pipeline som använder Azure Data Factory.

I det här steget utvecklar du en lösningsarkitektur för datapipelinen. Du skapar pipelinen parallellt med nästa steg i data science-projektet. Beroende på dina affärsbehov och begränsningarna i dina befintliga system där den här lösningen integreras kan pipelinen vara:

Batchbaserad
Direktuppspelning eller realtid
Hybrid

Integrera med MLflow

Under datatolkningsfasen kan du använda MLflows experimentspårning för att spåra och dokumentera olika strategier för förbearbetning av data och undersökande dataanalys.

Artifacts

I det här skedet levererar ditt team:

En datakvalitetsrapport som innehåller datasammanfattningar, relationerna mellan varje attribut och mål, variabelrankningen med mera.
En lösningsarkitektur, till exempel ett diagram eller en beskrivning av din datapipeline som ditt team använder för att köra förutsägelser på nya data. Det här diagrammet innehåller också pipelinen för att träna om din modell baserat på nya data. När du använder TDSP-katalogstrukturmallen lagrar du dokumentet i projektkatalogen.
Ett kontrollpunktsbeslut. Innan du påbörjar fullfunktionsutveckling och modellbygge kan du omvärdera projektet för att avgöra om det förväntade värdet är tillräckligt för att fortsätta driva det. Du kan till exempel vara redo att fortsätta, behöva samla in mer data eller avbryta projektet om du inte hittar data som svarar på frågorna.

Peer-granskad litteratur

Forskare publicerar studier om TDSP i peer-granskad litteratur. Citaten ger en möjlighet att undersöka andra program eller liknande idéer som TDSP, inklusive fasen för datainsamling och förståelse av livscykeln.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Markera Tabladillo | Senior Cloud Solution Architect

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

I de här artiklarna beskrivs de andra stegen i TDSP-livscykeln:

Datainsamlings- och förståelsefasen i livscykeln för Team Datavetenskap Process

Mål

Så här slutför du uppgifterna

Mata in data

Utforska data

Konfigurera en datapipeline

Integrera med MLflow

Artifacts

Peer-granskad litteratur

Deltagare

Feedback

Feedback

Ytterligare resurser

Datainsamlings- och förståelsefasen i livscykeln för Team Datavetenskap Process

Mål

Så här slutför du uppgifterna

Mata in data

Utforska data

Konfigurera en datapipeline

Integrera med MLflow

Artifacts

Peer-granskad litteratur

Deltagare

Relaterade resurser

Feedback

Feedback

Ytterligare resurser