Эталонное решение для приложений изображений
Узнайте, как сделать вывод модели распределенного образа из записных книжек эталонного решения с помощью определяемой пользователем функции Pandas, PyTorch и TensorFlow в общей конфигурации, совместно используемой многими приложениями для работы с изображениями. В этой конфигурации предполагается, что вы храните много образов в хранилище объектов и при необходимости постоянно поступают новые образы.
Рабочий процесс вывода модели изображений
Предположим, что у вас есть несколько обученных моделей глубокого обучения (DL) для классификации изображений и обнаружения объектов, например MobileNetV2 для обнаружения человеческих объектов на отправленных пользователем фотографиях для защиты конфиденциальности, и вы хотите применить эти модели DL к хранимым изображениям.
Вы можете повторно обучить модели и обновить ранее вычисленные прогнозы. Однако для загрузки большого количества образов и применения моделей DL и операций ввода-вывода и вычислений требуется как высокая нагрузка на операции ввода-вывода, так и для вычислений. К счастью, рабочая нагрузка вывода неловко параллельна и теоретически может быть легко распределена. В этом руководстве описано практическое решение, которое состоит из двух основных этапов:
- ETL-образы в разностную таблицу с помощью автозагрузчика
- Выполнение распределенного вывода с помощью определяемой пользователем функции Pandas
ETL-образы в разностную таблицу с помощью автозагрузчика
Для приложений для работы с изображениями, включая задачи обучения и вывода, Databricks рекомендует вывести изображения из извлечения, преобразования и загрузки в разностную таблицу с автозагрузчиком. Автозагрузчик помогает управлять данными и автоматически обрабатывает постоянно поступающие новые образы.
Набор данных изображения извлечения и загрузки в записную книжку разностной таблицы
Выполнение распределенного вывода с помощью определяемой пользователем функции Pandas
В следующих записных книжках используются PyTorch и TensorFlow tf. Keras для демонстрации эталонного решения.
Распределенный вывод с помощью записной книжки Pytorch и Pandas UDF
Распределенный вывод с помощью записной книжки UDF Keras и Pandas
Ограничения: размеры файлов изображений
Для больших файлов изображений (средний размер изображения больше 100 МБ) Databricks рекомендует использовать таблицу Delta только для управления метаданными (список имен файлов) и загрузки изображений из хранилища объектов, используя их пути при необходимости.