Týmový Datová Věda Proces pro datové vědce
Tento článek obsahuje pokyny pro cíle, které nastavíte při implementaci komplexních řešení pro datové vědy s využitím technologií Azure. Provedete vás:
- Porozumění analytické úloze
- Použití týmového Datová Věda procesu
- Použití služby Azure Machine Učení
- Pochopení základů přenosu a úložiště dat
- Poskytování dokumentace ke zdroji dat
- Použití nástrojů pro zpracování analýz
Tyto školicí materiály souvisejí s týmovým Datová Věda procesem (TDSP) a opensourcovým softwarem a sadami nástrojů Microsoftu, které jsou užitečné pro poskytování řešení datových věd, jejich provádění a poskytování.
Cesta lekce
Pomocí položek v následující tabulce můžete vést vlastní samostudiu. Přečtěte si popis, který chcete sledovat, vyberte téma, abyste viděli reference ke studiu, a zkontrolujte své dovednosti pomocí kontroly znalostí.
Účel | Téma | Popis | Kontrola znalostí |
---|---|---|---|
Vysvětlení procesů vývoje analytických projektů | Úvod do procesu týmového Datová Věda | Začneme tím, že probýváme přehled TDSP. Tento proces vás provede jednotlivými kroky analytického projektu. V každé z těchto částí si přečtěte další informace o procesu a o tom, jak ho můžete implementovat. | Zkontrolujte a stáhněte artefakty struktury projektu TDSP do místního počítače pro váš projekt. |
Agilní vývoj | TDSP funguje dobře s mnoha různými programovacími metodologiemi. V této Učení Path používáme agilní vývoj softwaru. Přečtěte si články "Co je agilní vývoj?" a "Vytváření agilní kultury", které se týkají základů práce s Agilní verzí. Na tomto webu jsou také další odkazy, kde se můžete dozvědět více. | Vysvětlit kontinuální integraci a průběžné doručování kolegovi | |
DevOps pro datové vědy | Operace vývojářů (DevOps) zahrnují lidi, procesy a platformy, které můžete použít k práci prostřednictvím projektu a integraci vašeho řešení do standardního IT oddělení organizace. Tato integrace je nezbytná pro přijetí, bezpečnost a zabezpečení. V tomto online kurzu se seznámíte s postupy DevOps a seznámíte se s některými možnostmi sady nástrojů, které máte. | Připravte si 30minutovou prezentaci technické cílové skupině na to, jak je DevOps pro analytické projekty nezbytné. | |
Vysvětlení technologií pro ukládání a zpracování dat | Obchodní analýzy Microsoftu a AI | V této Učení Cestě se zaměřujeme na několik technologií, které můžete použít k vytvoření analytického řešení, ale Microsoft jich má mnohem víc. Abyste porozuměli možnostem, které máte, je důležité zkontrolovat platformy a funkce dostupné v Microsoft Azure, azure Stacku a místních možnostech. Projděte si tento prostředek a seznamte se s různými nástroji, které máte k dispozici pro odpovědi na analytickou otázku. | Stáhněte si a prohlédněte si prezentační materiály z tohoto workshopu. |
Nastavení a konfigurace trénování, vývoje a produkčních prostředí | Microsoft Azure | Teď vytvoříme účet v Microsoft Azure pro trénování a naučíme se vytvářet vývojová a testovací prostředí. Tyto bezplatné školicí materiály vám pomůžou začít. Dokončete studijní programy pro začátečníky a středně pokročilé. | Pokud nemáte účet Azure, vytvořte si ho. Přihlaste se k webu Azure Portal a vytvořte jednu skupinu prostředků pro trénování. |
Rozhraní příkazového řádku Azure (CLI) | Existuje několik způsobů, jak pracovat s Azure, od grafických nástrojů, jako je Visual Studio Code a Visual Studio, až po webová rozhraní, jako je Azure Portal, a z příkazového řádku, jako jsou příkazy a funkce Azure PowerShellu. V tomto článku se zabýváme rozhraním příkazového řádku, které můžete používat místně na pracovní stanici, ve Windows a dalších operačních systémech a na webu Azure Portal. | Nastavte výchozí předplatné pomocí Azure CLI. | |
Azure Storage | Potřebujete místo pro ukládání dat. V tomto článku se dozvíte o možnostech úložiště Azure, o tom, jak vytvořit účet úložiště a jak zkopírovat nebo přesunout data do cloudu. Další informace najdete v tomto úvodu. | Vytvořte účet úložiště ve vaší trénovací skupině prostředků, vytvořte kontejner pro objekt blob a nahrajte a stáhněte data. | |
Microsoft Entra ID | Microsoft Entra ID tvoří základ zabezpečení vaší aplikace. V tomto článku se dozvíte více o účtech, právech a oprávněních. Active Directory a zabezpečení jsou složitá témata, proto si tento prostředek pročtěte, abyste porozuměli základům. | Přidejte jednoho uživatele do Microsoft Entra ID. POZNÁMKA: Pokud nejste správcem předplatného, možná nemáte oprávnění k této akci. V takovém případě si projděte tento kurz a získejte další informace. | |
Virtuální počítač Azure Datová Věda pro PyTorch | Nástroje pro práci s datovými vědami můžete nainstalovat místně v několika operačních systémech. Ale Datová Věda virtuální počítač pro PyTorch obsahuje všechny nástroje, se kterými potřebujete, a spoustu ukázek projektu, se kterými můžete pracovat. V tomto článku se dozvíte více o Datová Věda virtuálním počítači pro PyTorch a o tom, jak si projít příklady. Tento prostředek vysvětluje Datová Věda virtuální počítač pro PyTorch, jak ho můžete vytvořit, a několik možností pro vývoj kódu s ním. Obsahuje také veškerý software, který potřebujete k dokončení tohoto studijního programu, takže se ujistěte, že jste dokončili studijní program pro toto téma. | Vytvořte Datová Věda virtuální počítač pro PyTorch a projděte si alespoň jedno cvičení. | |
Instalace a pochopení nástrojů a technologií pro práci s řešeními pro datové vědy | Práce s úložištěm Git | Abychom mohli postupovat podle našeho procesu DevOps s TDSP, musíme mít systém správy verzí. Počítač Učení používá Git, oblíbený opensourcový distribuovaný systém úložiště. V tomto článku se dozvíte více o tom, jak nainstalovat, nakonfigurovat a pracovat s Gitem a centrálním úložištěm GitHub. | Naklonujte tento projekt GitHubu pro strukturu projektu studijního programu. |
Visual Studio Code | Visual Studio Code je multiplatformní integrované vývojové prostředí (IDE), které můžete používat s více jazyky a nástroji Azure. Toto jediné prostředí můžete použít k vytvoření celého řešení. Pokud chcete začít, podívejte se na tato úvodní videa. | Nainstalujte Visual Studio Code a projděte si funkce editoru Visual Studio Code v interaktivním prostředí editoru. | |
Programování pomocí Pythonu | V tomto řešení používáme Python, jeden z nejoblíbenějších jazyků v oblasti datových věd. Tento článek se věnuje základům psaní analytického kódu v Pythonu a zdrojích informací. Projděte si části 1 až 9 tohoto odkazu a pak si projděte své znalosti. | Přidejte jednu entitu do tabulky Azure pomocí Pythonu. | |
Práce s Poznámkovým blokem Jupyter | Poznámkové bloky představují způsob, jak ve stejném dokumentu zavést text a kód. Strojové Učení funguje s poznámkovými bloky, takže je užitečné pochopit, jak je používat. Pročtěte si tento kurz a vyzkoušejte si ho v části prověrka znalostí. | Otevřete webovou stránku Jupyter a vyberte Vítá vás Python.ipynb. Projděte si příklady na této stránce. | |
strojové učení | Vytváření pokročilých analytických řešení zahrnuje práci s daty pomocí strojového učení, které také tvoří základ práce s AI a hloubkovým učením. V tomto kurzu se dozvíte více o strojovém učení. Komplexní kurz o datových vědách najdete v této certifikaci. | Vyhledejte prostředek v algoritmech strojového učení. (Tip: Hledání taháku "algoritmu strojového učení Azure") | |
scikit-learn | Sada nástrojů scikit-learn umožňuje provádět úlohy datových věd v Pythonu. Tuto architekturu používáme v našem řešení. Tento článek popisuje základy a vysvětluje, kde se můžete dozvědět více. | Pomocí datové sady Iris zachovají model SVM pomocí pickle. | |
Práce s Dockerem | Docker je distribuovaná platforma používaná k vytváření, dodávání a spouštění aplikací a často se používá ve strojovém učení. Tento článek popisuje základy této technologie a vysvětluje, kde se můžete dozvědět více. | Otevřete Visual Studio Code a nainstalujte rozšíření Dockeru. Vytvořte jednoduchý kontejner Node Dockeru. | |
Azure HDInsight | HDInsight je opensourcová infrastruktura Hadoop, která je dostupná jako služba v Azure. Algoritmy strojového učení můžou zahrnovat velké sady dat a můžete použít HDInsight k ukládání, přenosu a zpracování rozsáhlých dat. Tento článek popisuje práci se službou HDInsight. | Vytvořte malý cluster HDInsight. Příkazy HiveQL slouží k promítání sloupců do souboru /example/data/sample.log. Případně můžete tuto kontrolu znalostí dokončit v místním systému. | |
Vytvoření toku zpracování dat z obchodních požadavků | Určení otázky podle TDSP | S nainstalovaným a nakonfigurovaným vývojovým prostředím a pochopením technologií a procesů je čas dát všechno dohromady pomocí TDSP k provedení analýzy. Musíme začít definováním otázky, výběrem zdrojů dat a zbývajícími kroky v zprostředkovateli TDSP. Při práci s tímto procesem mějte na paměti proces DevOps. V tomto článku se dozvíte, jak vzít požadavky z vaší organizace a vytvořit mapu toku dat prostřednictvím vaší aplikace k definování řešení pomocí TDSP. | Vyhledejte prostředek na téma "5 otázek datových věd" a popište jednu otázku, kterou vaše organizace může mít v těchto oblastech. Na jaké algoritmy byste se měli zaměřit na tuto otázku? |
Použití strojového Učení k vytvoření prediktivního řešení | Machine Learning | Strojové Učení používá AI pro transformaci dat a přípravu funkcí, spravuje experimenty a sleduje běhy modelu. Používá jedno prostředí a většina funkcí může běžet místně nebo v Azure. K vytvoření experimentů můžete použít architekturu PyTorch, architekturu TensorFlow nebo jiné architektury. V tomto článku se zaměříme na úplný příklad tohoto procesu s využitím všeho, co jste se zatím naučili. | |
Použití Power BI k vizualizaci výsledků | Power BI | Power BI je nástroj pro vizualizaci dat. Je k dispozici na různých platformách, jako jsou webová zařízení, mobilní zařízení a stolní počítače. V tomto článku se dozvíte, jak pracovat s výstupem řešení, které jste vytvořili, tím, že budete přistupovat k výsledkům z Azure Storage a vytvářet vizualizace pomocí Power BI. | Dokončete tento kurz v Power BI. Pak připojte Power BI k souboru CSV objektu blob vytvořenému při spuštění experimentu. |
Monitorování řešení | Application Insights | Ke sledování koncového řešení můžete použít několik nástrojů. Application Přehledy usnadňuje integraci integrovaného monitorování do vašeho řešení. | Nastavte Přehledy aplikace pro monitorování aplikace. |
Protokoly Azure Monitoru | Další metodou monitorování aplikace je její integrace do procesu DevOps. Protokoly Azure Monitoru poskytují bohatou sadu funkcí, které vám po nasazení pomůžou monitorovat analytická řešení. | Dokončete tento kurz s využitím protokolů služby Azure Monitor. | |
Dokončení tohoto studijního programu | Gratulujeme! Dokončili jste tento studijní program. |
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Mark Tabladillo | Vedoucí architekt cloudových řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
Pokračujte na cestě k umělé inteligenci v centru výuky AI.
Související prostředky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro