Share via


Referentieoplossing voor installatiekopieëntoepassingen

Leer hoe u gedistribueerde afbeeldingsmodeldeductie kunt uitvoeren vanuit referentieoplossingsnotebooks met pandas UDF, PyTorch en TensorFlow in een algemene configuratie die wordt gedeeld door veel echte installatiekopietoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel afbeeldingen opslaat in een objectarchief en desgewenst continu nieuwe installatiekopieën hebt.

Werkstroom voor deductie van afbeeldingsmodellen

Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om de privacy te beschermen, en u deze DL-modellen wilt toepassen op de opgeslagen afbeeldingen.

U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-zwaar als rekenkrachtig om veel installatiekopieën te laden en DL-modellen toe te passen. Gelukkig is de deductieworkload gênant parallel en kan in theorie eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:

  1. ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma
  2. Gedistribueerde deductie uitvoeren met pandas UDF

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma

Voor installatiekopietoepassingen, waaronder trainings- en deductietaken, raadt Databricks aan dat u ETL-afbeeldingen in een Delta-tabel met de Auto Loader gebruikt. Het Automatische laadprogramma helpt bij het beheer van gegevens en verwerkt automatisch nieuwe installatiekopieën.

ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok

Notitieblok ophalen

Gedistribueerde deductie uitvoeren met pandas UDF

De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.

Gedistribueerde deductie via Pytorch en Pandas UDF-notebook

Notitieblok ophalen

Gedistribueerde deductie via Keras en Pandas UDF-notebook

Notitieblok ophalen

Beperkingen: Grootte van afbeeldingsbestanden

Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan de Delta-tabel alleen te gebruiken om de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.