Что такое процесс обработки и анализа данных группы?

Машинное обучение

Процесс обработки и анализа данных группы (TDSP) является гибкой, итеративной методикой обработки и анализа данных для эффективного предоставления решений прогнозной аналитики и интеллектуальных приложений. TDSP помогает улучшить совместную работу и обучение в команде, предлагая оптимальный вариант сочетания ролей. TDSP содержит рекомендации и структуры от Майкрософт и других лидеров отрасли, которые обеспечивают успешную реализацию решений по обработке и анализу данных. Все это — чтобы помочь компаниям полностью использовать преимущества их программ аналитики.

В этой статье приведен обзор методики TDSP и ее основных компонентов. Здесь мы представляем общее описание процесса, который можно реализовать с помощью различных средств. Более подробное описание задач и ролей проекта, участвующих в жизненном цикле процесса, можно найти в дополнительных ресурсах, на которые даются ссылки. Также предоставляется руководство по реализации TDSP с помощью определенного набора средств и инфраструктуры Майкрософт, которые мы используем для реализации TDSP в рамках наших групп.

Ключевые компоненты TDSP

Ключевые компоненты TDSP:

  • определение жизненного цикла обработки и анализа данных;
  • стандартная структура проекта;
  • инфраструктура и ресурсы, рекомендуемые для проектов обработки и анализа данных;
  • средства и служебные программы, рекомендуемые для выполнения проекта.

Жизненный цикл обработки и анализа данных

Процесс обработки и анализа данных группы (TDSP) предоставляет жизненный цикл, позволяя структурировать разработку проектов по обработке и анализу данных. Жизненный цикл охватывает все этапы, которые выполняются в успешных проектах.

Если вы используете другой жизненный цикл обработки и анализа данных, например CRISP-DM, KDD или собственный корпоративный процесс, вы все равно можете использовать TDSP в нужном контексте разработки. На высоком уровне эти различные методики имеют много общего.

Жизненный цикл предназначен для проектов обработки и анализа данных, которые входят в состав интеллектуальных приложений. Такие приложения развертывают модели машинного обучения или искусственного интеллекта для прогнозной аналитики. Этот процесс также будет полезен при работе с проектами обработки и анализа данных без предварительной подготовки, а также проектами на основе ad-hoc-аналитики. Хотя в этих сценариях некоторые шаги могут быть ненужными.

Этот жизненный цикл представляет основные этапы, которые обычно выполняются проектами, часто итеративно:

  • Анализ потребностей бизнеса
  • Получение и анализ данных
  • Моделирование
  • Deployment

Ниже представлена схема жизненного цикла TDSP.

Diagram shows the data science lifecycle, including business understanding, data acquisition / understanding, modeling and deployment.

Цели, задачи и артефакты документации для каждого уровня жизненного цикла TDSP описаны в статье Team Data Science Process lifecycle (Жизненный цикл процесса обработки и анализа данных группы). Эти задачи и артефакты связаны с ролями проекта:

  • архитектор решений;
  • руководитель проекта;
  • Инженер по анализу и обработке данных
  • специалист по анализу и обработке данных;
  • Разработчик приложений
  • Руководитель проекта

На следующей схеме показано представление сетки заданий (синие) и артефактов (зеленые), связанных с каждым уровнем жизненного цикла (на горизонтальной оси) для ролей (на вертикальной оси).

TDSP-roles-and-tasks

Стандартная структура проекта

Благодаря тому, что все проекты имеют общую структуру каталогов и для документов проекта используются шаблоны, все участники команды могут легко находить информацию о своих проектах. Весь код и документы хранятся в системе управления версиями (VCS), например Git, TFS или Subversion, чтобы сделать возможной совместную работу в группе. Отслеживание задач и компонентов в гибкой системе отслеживания проектов, такой как Jira, Rally и Azure DevOps, позволяет более тщательно отслеживать код для отдельных компонентов. Благодаря этому команды могут эффективнее оценивать затраты. TDSP рекомендует создавать отдельный репозиторий для каждого проекта VCS для управления версиями, информационной безопасности и совместной работы. За счет использования стандартизованной структуры для всех проектов все сотрудники организации имеют общие знания о работе с проектами.

Мы предоставляем шаблоны для структуры папок и необходимые документы в стандартных расположениях. В этой структуре папок упорядочены файлы, содержащие код для просмотра данных и извлечения компонентов, а также итерации модели записи. Благодаря этим шаблонам участникам команды легче понять работу, выполняемую другими, и добавить новых участников в команды. Просматривать и обновлять шаблоны документов проще в формате markdown. Используйте шаблоны для создания контрольных списков с ключевыми вопросами для каждого проекта, чтобы гарантировать четкое определение проблемы и соответствие результатов требования к качеству. Примеры приведены ниже.

  • план проекта с указанием бизнес-проблемы и области охвата проекта;
  • отчеты с данными для документирования структуры и статистики необработанных данных;
  • отчеты о модели для документирования производных признаков;
  • метрики эффективности модели, таких как кривые ROC или MSE.

TDSP-directories

Структуру каталогов можно клонировать из GitHub.

Инфраструктура и ресурсы для проектов обработки и анализа данных

TDSP предоставляет рекомендации по управлению общей инфраструктурой аналитики и хранения данных, в частности:

  • облачными файловыми системами для хранения наборов данных;
  • базы данных
  • кластерами больших данных (SQL или Spark);
  • службой машинного обучения.

Инфраструктура аналитики и хранилища, в которой хранятся необработанные и обработанные наборы данных, может быть облачной или локальной. Эта инфраструктура обеспечивает возможность воспроизводимого анализа. Кроме того, она позволяет избежать дублирования, которое может привести к несогласованности и ненужным затратам на инфраструктуру. Имеются средства для подготовки общих ресурсов, их отслеживания и безопасного подключения к ним для всех участников команды. Также участникам проекта рекомендуется создать согласованную вычислительную среду. Тогда разные участники команды смогут реплицировать и подтверждать эксперименты.

Вот пример команды, работающей над несколькими проектами и совместно использующей различные компоненты инфраструктуры облачной аналитики.

TDSP-infrastructure

Средства и служебные программы для выполнения проекта

Внедрение процессов в большинстве организаций является сложной задачей. Средства, предоставляемые для внедрения процесса и жизненного цикла обработки и анализа данных, помогают устранить ограничения и увеличить согласованность их внедрения. TDSP предоставляет начальный набор средств и скриптов для быстрого внедрения TDSP в команде. Он также позволяет автоматизировать некоторые распространенные задачи в жизненном цикле обработки и анализа данных, такие как просмотр данных и моделирование базовых показателей. Есть четко определенная структура, предоставляемая индивидуальным пользователям, для включения общих инструментов и служебных программ в общий репозиторий кода команды. Затем эти ресурсы можно использовать в других проектах команды или организации. В службе Машинное обучение Azure предоставляется широкий набор инструментов: инструменты с открытым кодом (Python, R, ONNX и стандартные платформы глубокого обучения) и инструменты от корпорации Майкрософт (AutoML).

Дальнейшие действия

Team Data Science Process: Roles and tasks (Командный процесс обработки и анализа данных: роли и задания). Описывает ключевые роли сотрудников и связанные с ними задачи для команды обработки и анализа данных, которая стандартизирует этот процесс.