Data ve službě Azure Machine Learning v1

Článek
03/05/2024

PLATÍ PRO:Rozšíření Azure CLI ml v1

Azure Machine Učení usnadňuje připojení k datům v cloudu. Poskytuje abstrakci vrstvy nad podkladovou službou úložiště, abyste mohli bezpečně přistupovat k datům a pracovat s ní, aniž byste museli psát kód specifický pro váš typ úložiště. Azure Machine Učení také poskytuje tyto možnosti dat:

Interoperabilita s datovými rámci Pandas a Spark
Správa verzí a sledování rodokmenu dat
Popisování dat
Monitorování odchylek dat

Pracovní postup dat

Pokud chcete použít data v cloudovém řešení úložiště, doporučujeme tento pracovní postup doručování dat. Pracovní postup předpokládá, že máte účet úložiště Azure a data ve službě cloudového úložiště Azure.

Vytvoření úložiště dat azure machine Učení pro ukládání informací o připojení k úložišti Azure
Z tohoto úložiště dat vytvořte datovou sadu azure Machine Učení, která bude odkazovat na konkrétní soubor nebo soubory v podkladovém úložišti.
Pokud chcete tuto datovou sadu použít v experimentu strojového učení, můžete buď
- Připojení datové sady k cílovému výpočetnímu objektu experimentu pro trénování modelu
  
  NEBO
- Využití datové sady přímo v řešeních Azure Machine Učení – například spuštění experimentu automatizovaného strojového učení (automatizovaného strojového učení), kanálů strojového učení nebo návrháře služby Azure Machine Učení.
Vytvoření monitorování datových sad pro výstupní datovou sadu modelu za účelem zjištění posunu dat
Pokud chcete zjistit posun dat, aktualizujte vstupní datovou sadu a model odpovídajícím způsobem natrénujte.

Tento snímek obrazovky ukazuje doporučený pracovní postup:

Připojení úložiště s úložišti dat

Azure Machine Učení úložiště dat bezpečně hostují informace o připojení k datovému úložišti v Azure, takže je nemusíte do skriptů zamísťovat. Další informace o připojení k účtu úložiště a přístupu k datům v podkladové službě úložiště najdete v tématu Registrace a vytvoření úložiště dat.

Tyto podporované cloudové služby úložiště Azure se můžou registrovat jako úložiště dat:

Kontejner objektů blob Azure
Sdílená složka Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Systém souborů Databricks
Azure Database for MySQL

Tip

Úložiště dat s ověřováním na základě přihlašovacích údajů můžete vytvořit pro přístup ke službám úložiště, například instanční objekt nebo token sdíleného přístupového podpisu (SAS). Uživatelé s přístupem čtenáře k pracovnímu prostoru mají přístup k těmto přihlašovacím údajům.

Pokud se jedná o problém, navštivte web Vytvoření úložiště dat, které používá přístup k datům založeným na identitě, a získejte další informace o připojeních ke službám úložiště.

Odkazování na data v úložišti pomocí datových sad

Datové sady azure machine Učení nejsou kopiemi vašich dat. Samotné vytvoření datové sady vytvoří odkaz na data ve službě úložiště spolu s kopií jeho metadat.

Vzhledem k tomu, že se datové sady lazily vyhodnocují a data zůstávají v jejich stávajícím umístění,

Neúčtují se žádné další náklady na úložiště
Neriskujte neúmyslné změny původních zdrojů dat.
Zvýšení rychlosti výkonu pracovního postupu ML

Pokud chcete pracovat s daty v úložišti, vytvořte datovou sadu pro zabalení dat do využitého objektu pro úlohy strojového učení. Zaregistrujte datovou sadu do pracovního prostoru, abyste ji mohli sdílet a opakovaně používat napříč různými experimenty bez složitostí příjmu dat.

Datové sady můžete vytvářet z místních souborů, veřejných adres URL, Azure Open Datasets nebo služeb úložiště Azure prostřednictvím úložišť dat.

Existují dva typy datových sad:

FileDataset odkazuje na jeden nebo více souborů v úložištích dat nebo veřejných adresÁCH URL. Pokud už jsou data vyčištěná a připravená na trénovací experimenty, můžete stáhnout nebo připojit soubory odkazované fileDatasets do cílového výpočetního objektu.
TabularDataset představuje data v tabulkovém formátu parsováním zadaného souboru nebo seznamu souborů. TabularDataset můžete načíst do datového rámce pandas nebo Spark pro další manipulaci a čištění. Úplný seznam formátů dat, ze kterých můžete vytvořit TabularDatasets, najdete v tabulkové třídě TabularDatasetFactory.

Tyto prostředky nabízejí další informace o možnostech datové sady:

Rodokmen datové sady verze a sledování
Monitorování datové sady , která vám pomůže s detekcí odchylek dat

Práce s daty

S datovými sadami můžete provádět úlohy strojového učení prostřednictvím bezproblémové integrace s funkcemi služby Azure Machine Učení.

Vytvoření projektu popisků dat
Trénování modelů strojového učení:
Přístup k datovým sadám pro vyhodnocování pomocí dávkového odvozování v kanálech strojového učení
Nastavení monitorování datové sady pro detekci odchylek dat

Označení dat pomocí projektů popisků dat

Označování velkých objemů dat v projektech strojového učení se může stát bolestí hlavy. Projekty, které zahrnují komponentu počítačového zpracování obrazu, jako je klasifikace obrázků nebo rozpoznávání objektů, často vyžadují tisíce obrázků a odpovídající popisky.

Azure Machine Učení poskytuje centrální umístění pro vytváření, správu a monitorování projektů popisků. Projekty označování pomáhají koordinovat data, popisky a členy týmu, abyste mohli efektivněji spravovat úkoly popisování. V současné době podporované úlohy zahrnují klasifikaci obrázků, více popisků nebo více tříd a identifikaci objektů pomocí ohraničovaných polí.

Vytvořte projekt popisující obrázek nebo projekt popisování textu a vytvořte výstup datové sady pro použití v experimentech strojového učení.

Monitorování výkonu modelu s využitím posunu dat

V kontextu strojového učení zahrnuje posun dat změnu vstupních dat modelu, která vede ke snížení výkonu modelu. Hlavním důvodem je snížení přesnosti modelu v průběhu času a monitorování odchylek dat pomáhá zjišťovat problémy s výkonem modelu.

Další informace najdete v tématu Vytvoření monitorování datové sady, ve které se dozvíte, jak detekovat a upozorňovat na odchylky dat u nových dat v datové sadě.

Další kroky

Vytvoření datové sady v studio Azure Machine Learning nebo pomocí sady Python SDK
Vyzkoušení příkladů trénování datových sad s našimi ukázkovými poznámkovými bloky

Sdílet prostřednictvím