Общие сведения об использовании машинного обучения Spark в кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Важно!

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, а программное обеспечение будет продолжать поддерживаться через SQL Server накопительных обновлений до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

В этой статье объясняется, как эффективно использовать Spark для машинного обучения в Кластеры больших данных SQL Server.

Машинное обучение Spark в кластерах больших данных SQL Server

Кластеры больших данных SQL Server позволяют применять сценарии и решения машинного обучения, использующие различные технологические стеки: Службы машинного обучения SQL Server и Apache Spark ML.

Чтобы лучше понять, когда следует использовать каждый технологический стек, обратитесь к разделу Руководство по машинному обучению для кластеров больших данных SQL Server. В этом руководстве рассматривается Apache Spark ML.

Для сценариев машинного обучения на основе больших данных размещение больших данных в HDFS и использование возможностей Apache Spark ML являются более экономичным, масштабируемым и эффективным вариантом. Однако это далеко не исчерпывающий список возможностей машинного обучения Spark. Полный список возможностей см. в разделе Spark MLlib.

В следующем разделе приведен проверенный список сценариев и статей, связанных с использованием Spark в кластерах больших данных SQL Server.

Материалы по использованию машинного обучения Spark в кластерах больших данных SQL Server

Learn Содержимое Ссылка
Среда выполнения кластеров больших данных SQL Server для Apache Spark Содержит сведения о том, что входит в каждый выпуск Руководство по среде выполнения кластеров больших данных SQL Server для Apache Spark
Пул носителей Сведения о том, как хранить данные и как совместно использовать HDFS и Spark для получения доступа к данным для машинного обучения Общие сведения о пуле носителей в Кластеры больших данных SQL Server
Использование возможностей на основе записных книжек и выбранных инструментов Подключение конечной точки Spark-Livy с использованием выбранных инструментов Отправка заданий Spark в Кластеры больших данных SQL Server в Azure Data Studio
Отправка заданий Spark в кластере больших данных SQL Server в Visual Studio Code
Использование sparklyr в кластерах больших данных SQL Server
Установка дополнительных пакетов Если пакет отсутствует в списке, установите его Управление библиотекой Spark
Как устранять неполадки В случае появления ошибок Устранение неполадок с записной книжкой pyspark
Отладка и диагностика приложений Spark в Кластеры больших данных SQL Server на сервере журнала Spark
Отправка пакетных заданий машинного обучения Запуск обучения ML и пакетной оценки из командной строки Отправка заданий Spark с помощью программ командной строки
Быстрое перемещение данных между SQL Server и Spark Выбор SQL Server в качестве источника и/или места назначения для сценариев машинного обучения Spark. Использование HDFS не является обязательным Использование соединителя Apache Spark для SQL Server и SQL Azure
Практическое использование модели Spark После обучения приступите к практическому использованию модели с помощью MLeap Создание, экспорт и оценка моделей машинного обучения Spark в Кластеры больших данных SQL Server
Общие сведения о первичной обработке данных Наряду с мощными возможностями Spark по первичной обработке данных мы предоставляем ускоритель кода PROSE Первичная обработка данных с помощью ускорителя кода PROSE

Дальнейшие действия

Дополнительные сведения см. в разделе Общие сведения о Кластеры больших данных SQL Server.