Partilhar via


Lista de verificação DataOps

O DataOps é uma abordagem de ciclo de vida para análise de dados. Ele usa práticas ágeis para orquestrar ferramentas, código e infraestrutura para fornecer rapidamente dados de alta qualidade com segurança aprimorada. Quando você implementa e simplifica os processos de DataOps, sua empresa pode fornecer insights analíticos de forma mais fácil e econômica. Isso permite que você adote técnicas avançadas de dados que podem revelar insights e novas oportunidades. Use esta lista de verificação como ponto de partida para avaliar seu processo de DataOps.

Governança de dados e pessoas

Governança de dados

  • Um local central é usado para registrar fontes de dados.
  • Linhagem de dados e metadados estão disponíveis.
  • Os dados são facilmente detetáveis pelos utilizadores e os dados confidenciais são protegidos.
  • Os agentes de dados e segurança têm linhas de visão sobre como os dados estão sendo usados, quem tem acesso e onde os dados confidenciais podem estar localizados.

Papéis definidos e claros

  • Engenheiros, testadores, cientistas de dados, operações, analistas de dados, usuários de negócios e diretores de dados trabalham juntos e entendem suas funções no projeto.
  • As partes interessadas são identificadas e você entende o que está motivando as partes interessadas a começar a tomar decisões baseadas em dados.

Casos de uso para movimentação de dados

  • Os casos de uso para streaming, interativo e análise em lote são resolvidos.
  • Os vários tipos de dados para cada caso são esclarecidos e as métricas são definidas para motivar a tomada de decisões baseadas em dados.

Ferramentas de dados

  • São identificadas ou desenvolvidas ferramentas de dados necessárias para tornar os dados mais fáceis de aceder, partilhar, analisar e proteger.

Segurança e conformidade

  • Todos os recursos, dados em trânsito e dados em repouso foram auditados e atendem aos padrões de segurança da empresa.

Desenvolvimento

Padrões de projeto de pipeline

  • Os pipelines de dados são projetados para parametrização de reutilização e uso.
  • Os pipelines resolvem problemas comuns de extração, transformação e carga (ETL).

Ingestão centralizada

  • Uma plataforma centralizada hospeda pipelines para todas as fontes de dados externas e internas. Isso permite um gerenciamento simplificado, monitoramento, segurança e padronização da movimentação de dados.
  • Os custos associados ao tratamento de dados também são centralizados. O controle central pode ajudar a minimizar os custos e maximizar a eficiência.

Cálculos centralizados

  • Uma equipe central define métricas e determina como computá-las. Isso permite consistência em toda a organização e limita a confusão sobre onde fazer atualizações nos cálculos. Ele também cria uma fonte para definições de métricas, governança, testes e controles de qualidade.

Abstração de dados

  • Os relatórios usam uma camada de abstração de dados. Isso permite o uso de terminologia comercial consistente, uma visão simplificada dos dados e um efeito mínimo sobre os consumidores de dados quando novas versões dos dados são disponibilizadas.

Controle do código-fonte

  • Infraestrutura relacionada a dados, esquemas e procedimentos de banco de dados, processos ETL e relatórios são tratados como código e gerenciados em um repositório.
  • Todas as alterações são implantadas e testadas por meio de uma pilha de desenvolvimento, teste, aceitação e produção (DTAP).

Teste e liberação

Ambientes DTAP

  • Estão disponíveis ambientes de não produção que imitam o ambiente de produção.
  • Compilações e implantações são executadas e testadas no ambiente de não produção antes de um push de produção.
  • Os desenvolvedores podem fornecer resultados reproduzíveis em todos os ambientes.

Teste

  • Os testes de unidade, de ponta a ponta e de regressão são executados em uma frequência e intervalo especificados.
  • Todos os testes estão no controle do código-fonte e são executados como parte de um processo de compilação e implantação.
  • A contribuição do usuário final pós-implantação é bem-vinda e incorporada aos testes, conforme apropriado.

Processo de compilação e implantação

  • Um processo fechado implanta alterações no ambiente de produção.
  • As alterações são testadas nos ambientes de desenvolvimento e teste. As alterações são certificadas antes de entrarem em produção. Este processo é o mais automatizado possível.

Monitorização

Alertas e remediação

  • As operações são alertadas para quaisquer erros.
  • Você pode responder aos comentários rapidamente e ter um processo para resolver rapidamente os problemas à medida que eles surgem.
  • Os oleodutos são observáveis.

Eficiência

  • A movimentação de dados é eficiente.
  • A infraestrutura pode ser dimensionada para atender às necessidades de volume e velocidade.
  • Os dados são reutilizáveis sempre que possível.

Controlo estatístico do processo (CEP)

  • O SPC é usado para monitorar e controlar os pipelines de dados.
  • Você pode usar as saídas de pipelines para determinar a próxima etapa no fluxo de dados.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Próximos passos