Referentieoplossing voor installatiekopieëntoepassingen
Leer hoe u gedistribueerde afbeeldingsmodeldeductie kunt uitvoeren vanuit referentieoplossingsnotebooks met pandas UDF, PyTorch en TensorFlow in een algemene configuratie die wordt gedeeld door veel echte installatiekopietoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel afbeeldingen opslaat in een objectarchief en desgewenst continu nieuwe installatiekopieën hebt.
Werkstroom voor deductie van afbeeldingsmodellen
Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om de privacy te beschermen, en u deze DL-modellen wilt toepassen op de opgeslagen afbeeldingen.
U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-zwaar als rekenkrachtig om veel installatiekopieën te laden en DL-modellen toe te passen. Gelukkig is de deductieworkload gênant parallel en kan in theorie eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:
- ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma
- Gedistribueerde deductie uitvoeren met pandas UDF
ETL-installatiekopieën in een Delta-tabel met behulp van automatisch laadprogramma
Voor installatiekopietoepassingen, waaronder trainings- en deductietaken, raadt Databricks aan dat u ETL-afbeeldingen in een Delta-tabel met de Auto Loader gebruikt. Het Automatische laadprogramma helpt bij het beheer van gegevens en verwerkt automatisch nieuwe installatiekopieën.
ETL-afbeeldingsgegevensset in een Delta-tabelnotitieblok
Gedistribueerde deductie uitvoeren met pandas UDF
De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.
Gedistribueerde deductie via Pytorch en Pandas UDF-notebook
Gedistribueerde deductie via Keras en Pandas UDF-notebook
Beperkingen: Grootte van afbeeldingsbestanden
Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan de Delta-tabel alleen te gebruiken om de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.