Lista de verificação DataOps

Artigo
12/21/2023

O DataOps é uma abordagem de ciclo de vida para análise de dados. Ele usa práticas ágeis para orquestrar ferramentas, código e infraestrutura para fornecer rapidamente dados de alta qualidade com segurança aprimorada. Quando você implementa e simplifica os processos de DataOps, sua empresa pode fornecer insights analíticos de forma mais fácil e econômica. Isso permite que você adote técnicas avançadas de dados que podem revelar insights e novas oportunidades. Use esta lista de verificação como ponto de partida para avaliar seu processo de DataOps.

Governança de dados e pessoas

Governança de dados

Um local central é usado para registrar fontes de dados.
Linhagem de dados e metadados estão disponíveis.
Os dados são facilmente detetáveis pelos utilizadores e os dados confidenciais são protegidos.
Os agentes de dados e segurança têm linhas de visão sobre como os dados estão sendo usados, quem tem acesso e onde os dados confidenciais podem estar localizados.

Papéis definidos e claros

Engenheiros, testadores, cientistas de dados, operações, analistas de dados, usuários de negócios e diretores de dados trabalham juntos e entendem suas funções no projeto.
As partes interessadas são identificadas e você entende o que está motivando as partes interessadas a começar a tomar decisões baseadas em dados.

Casos de uso para movimentação de dados

Os casos de uso para streaming, interativo e análise em lote são resolvidos.
Os vários tipos de dados para cada caso são esclarecidos e as métricas são definidas para motivar a tomada de decisões baseadas em dados.

Ferramentas de dados

São identificadas ou desenvolvidas ferramentas de dados necessárias para tornar os dados mais fáceis de aceder, partilhar, analisar e proteger.

Segurança e conformidade

Todos os recursos, dados em trânsito e dados em repouso foram auditados e atendem aos padrões de segurança da empresa.

Desenvolvimento

Padrões de projeto de pipeline

Os pipelines de dados são projetados para parametrização de reutilização e uso.
Os pipelines resolvem problemas comuns de extração, transformação e carga (ETL).

Ingestão centralizada

Uma plataforma centralizada hospeda pipelines para todas as fontes de dados externas e internas. Isso permite um gerenciamento simplificado, monitoramento, segurança e padronização da movimentação de dados.
Os custos associados ao tratamento de dados também são centralizados. O controle central pode ajudar a minimizar os custos e maximizar a eficiência.

Cálculos centralizados

Uma equipe central define métricas e determina como computá-las. Isso permite consistência em toda a organização e limita a confusão sobre onde fazer atualizações nos cálculos. Ele também cria uma fonte para definições de métricas, governança, testes e controles de qualidade.

Abstração de dados

Os relatórios usam uma camada de abstração de dados. Isso permite o uso de terminologia comercial consistente, uma visão simplificada dos dados e um efeito mínimo sobre os consumidores de dados quando novas versões dos dados são disponibilizadas.

Controle do código-fonte

Infraestrutura relacionada a dados, esquemas e procedimentos de banco de dados, processos ETL e relatórios são tratados como código e gerenciados em um repositório.
Todas as alterações são implantadas e testadas por meio de uma pilha de desenvolvimento, teste, aceitação e produção (DTAP).

Teste e liberação

Ambientes DTAP

Estão disponíveis ambientes de não produção que imitam o ambiente de produção.
Compilações e implantações são executadas e testadas no ambiente de não produção antes de um push de produção.
Os desenvolvedores podem fornecer resultados reproduzíveis em todos os ambientes.

Teste

Os testes de unidade, de ponta a ponta e de regressão são executados em uma frequência e intervalo especificados.
Todos os testes estão no controle do código-fonte e são executados como parte de um processo de compilação e implantação.
A contribuição do usuário final pós-implantação é bem-vinda e incorporada aos testes, conforme apropriado.

Processo de compilação e implantação

Um processo fechado implanta alterações no ambiente de produção.
As alterações são testadas nos ambientes de desenvolvimento e teste. As alterações são certificadas antes de entrarem em produção. Este processo é o mais automatizado possível.

Monitorização

Alertas e remediação

As operações são alertadas para quaisquer erros.
Você pode responder aos comentários rapidamente e ter um processo para resolver rapidamente os problemas à medida que eles surgem.
Os oleodutos são observáveis.

Eficiência

A movimentação de dados é eficiente.
A infraestrutura pode ser dimensionada para atender às necessidades de volume e velocidade.
Os dados são reutilizáveis sempre que possível.

Controlo estatístico do processo (CEP)

O SPC é usado para monitorar e controlar os pipelines de dados.
Você pode usar as saídas de pipelines para determinar a próxima etapa no fluxo de dados.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Katie Novotny - Brasil | Especialista Sénior GBB

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Partilhar via

Lista de verificação DataOps

Governança de dados e pessoas

Desenvolvimento

Teste e liberação

Monitorização

Contribuidores

Próximos passos

Comentários

Comentários

Recursos adicionais

Partilhar via

Lista de verificação DataOps

Governança de dados e pessoas

Desenvolvimento

Teste e liberação

Monitorização

Contribuidores

Próximos passos

Recursos relacionados

Comentários

Comentários

Recursos adicionais