Основы обработки и анализа данных для машинного обучения

Начальный уровень
Средний уровень
Инженер по искусственному интеллекту
Специалист по обработке и анализу данных
разработчик.
Учащийся
Azure

Microsoft Learn предоставляет несколько интерактивных способов знакомства с классическим машинным обучением. Эти схемы обучения помогут вам самостоятельно изучить соответствующие вопросы. Кроме того, они являются отличной базой для перехода к темам, посвященным глубокому обучению.

Рассматривая самые базовые классические модели машинного обучения и выполняя исследовательский анализ данных и настройку архитектур, вы будете руководствоваться легко усваиваемым концептуальным содержимым и работать с интерактивными записными книжками Jupyter, не выходя из браузера.

Выберите собственную схему, соответствующую вашему образованию и интересам.

✔ Вариант 1. Полный курс: основы обработки и анализа данных для машинного обучения

Это рекомендуемый вариант для большинства пользователей. Он состоит из тех же модулей, что и две других схемы обучения, с индивидуальным изложением материала, которое позволяет максимально закрепить полученные знания. Выберите этот вариант, если вы хотите узнать об основных понятиях, а также о том, как приступить к созданию моделей с помощью наиболее распространенных средств машинного обучения. Это также отличное решение, если вы планируете выйти за рамки классического машинного обучения и получить образование в области глубокого обучения и нейронных сетей, которые представлены здесь лишь поверхностно.

✔ Сейчас вы уже выбрали эту схему. Прокрутите вниз, чтобы начать.

Вариант 2. Схема обучения Общие сведения о обработке и анализе данных для машинного обучения

Если вы хотите понять, как работает машинное обучение, но у вас нет достаточного математического образования, — эта схема для вас. В ней отсутствуют требования к предыдущему образованию (нужны лишь минимальные знания принципов программирования), а обучение ведется с помощью примеров кода, метафор и визуализаций, которые в итоге приводят к моменту, когда изучаемый вопрос становится ясным. Она представляет собой практическое руководство, ориентированным в большей мере на понимание основ и в меньшей — на доступные средства и библиотеки.

Вариант 3. Схема обучения Создание моделей машинного обучения

Если вы уже имеете некоторое представление о том, что такое машинное обучение, или имеете серьезное математическое образование, вы можете сразу перейти к схеме обучения Создание моделей машинного обучения. В этих модулях представлены краткие сведения о некоторых основных понятиях машинного обучения, поэтому вы сможете быстро перейти к изучению таких средств, как scikit-learn, TensorFlow и PyTorch. Эта схема обучения также является наилучшим вариантом, если вам нужны знания, достаточные для понимания примеров машинного обучения для таких продуктов, как Azure ML или Azure Databricks.

Предварительные требования

Нет

Модули, включенные в эту схему обучения

Общие сведения о машинном обучении для лиц с минимальными знаниями в области информатики и статистики или вообще без них. Вы узнаете основные понятия, изучите данные и проанализируете жизненный цикл машинного обучения, используя Python для практики, сохранения и использования модели машинного обучения, как это было бы в реальной работе.

Контролируемое обучение — это форма машинного обучения, при которой обучение алгоритма проводится на примерах данных. Мы поэтапно рассмотрим, как с помощью контролируемого обучения можно автоматически создать модель, способную готовить прогнозы для реального мира. Также мы коснемся тестирования этих моделей и проблем, которые могут возникнуть в процессе их обучения.

Возможности моделей машинного обучения содержатся в данных, которые используются для обучения моделей. С помощью содержимого и упражнений мы изучаем данные и методы их кодирования, чтобы компьютер мог правильно интерпретировать данные, учимся устранять ошибки, а также получаем советы, которые помогут создать хорошо работающие модели.

Изучение данных является основным аспектом обработки и анализа данных. Для изучения, визуализации данных и управления ими специалистам по обработке и анализу данных требуются навыки владения такими языками, как Python.

Регрессия, возможно, является наиболее широко используемым методом машинного обучения, обычно лежащим в основе научных открытий, бизнес-планирования и аналитики фондового рынка. В этом учебном материале рассматриваются некоторые общие регрессионные анализы, как простые, так и более сложные, и дается некоторое представление о том, как оценить производительность модели.

Когда мы думаем о машинном обучении, мы зачастую делает упор на процессе обучения. Небольшая подготовка перед этим процессом может не только ускорить и улучшить процесс обучения, но и дать нам некоторую уверенность в том, насколько хорошо наши модели будут работать с данными, которые никогда не встречались нам прежде.

Регрессия — это широко распространенный тип машинного обучения для прогнозирования числовых значений.

Классификация означает распределение элементов по категориям, а также является средством автоматического принятия решений. Здесь мы рассматриваем модели классификации на базе логистической регрессии и закладываем основы для знакомства с более сложными и интересными методами классификации.

Более сложные модели часто открыты для настройки вручную с целью улучшения их эффективности. С помощью упражнений и пояснительных заметок мы рассмотрим, как изменение архитектуры более сложных моделей может привести к более эффективным результатам.

Как узнать, является ли модель качественной или некачественной при классификации данных? Способ, которым компьютеры оценивают производительность модели, иногда может быть трудно понять или же он излишне упрощает поведение модели в реальном мире. Чтобы добиться удовлетворительной работы модели, нам нужно найти интуитивно понятные способы их оценки и понять, как эти метрики могут повлиять на наше восприятие.

ROC-кривые — это мощный способ оценки и тонкой настройки обученных моделей классификации. Мы рассмотрим применение этих кривых в теории и на практике.

Классификация — это форма машинного обучения, используемая для категоризации элементов по классам.

Кластеризация — это форма машинного обучения, которая используется для группирования сходных элементов в кластеры.

Глубокое обучение — это сложная форма машинного обучения, которая эмулирует обучение человека с помощью сетей связанных нейронов.