Referentieoplossing voor installatiekopieëntoepassingen

Artikel
03/01/2024

Leer hoe u gedistribueerde afbeeldingsmodeldeductie kunt uitvoeren vanuit referentieoplossingsnotebooks met pandas UDF, PyTorch en TensorFlow in een algemene configuratie die wordt gedeeld door veel echte installatiekopietoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel afbeeldingen opslaat in een objectarchief en desgewenst continu nieuwe installatiekopieën hebt.

Werkstroom voor deductie van afbeeldingsmodellen

Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om de privacy te beschermen, en u deze DL-modellen wilt toepassen op de opgeslagen afbeeldingen.

U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-zwaar als rekenkrachtig om veel installatiekopieën te laden en DL-modellen toe te passen. Gelukkig is de deductieworkload gênant parallel en kan in theorie eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma
Gedistribueerde deductie uitvoeren met pandas UDF

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma

Voor installatiekopietoepassingen, waaronder trainings- en deductietaken, raadt Databricks aan dat u ETL-afbeeldingen in een Delta-tabel met de Auto Loader gebruikt. Het Automatische laadprogramma helpt bij het beheer van gegevens en verwerkt automatisch nieuwe installatiekopieën.

ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok

Notitieblok ophalen

Gedistribueerde deductie uitvoeren met pandas UDF

De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.

Gedistribueerde deductie via Pytorch en Pandas UDF-notebook

Notitieblok ophalen

Gedistribueerde deductie via Keras en Pandas UDF-notebook

Notitieblok ophalen

Beperkingen: Grootte van afbeeldingsbestanden

Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan de Delta-tabel alleen te gebruiken om de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.

Share via

Referentieoplossing voor installatiekopieëntoepassingen

Werkstroom voor deductie van afbeeldingsmodellen

ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma

ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok

Gedistribueerde deductie uitvoeren met pandas UDF

Gedistribueerde deductie via Pytorch en Pandas UDF-notebook

Gedistribueerde deductie via Keras en Pandas UDF-notebook

Beperkingen: Grootte van afbeeldingsbestanden

Aanvullende resources