Lista de verificação DataOps
O DataOps é uma abordagem de ciclo de vida para análise de dados. Ele usa práticas ágeis para orquestrar ferramentas, código e infraestrutura para fornecer rapidamente dados de alta qualidade com segurança aprimorada. Quando você implementa e simplifica os processos de DataOps, sua empresa pode fornecer insights analíticos de forma mais fácil e econômica. Isso permite que você adote técnicas avançadas de dados que podem revelar insights e novas oportunidades. Use esta lista de verificação como ponto de partida para avaliar seu processo de DataOps.
Governança de dados e pessoas
Governança de dados
- Um local central é usado para registrar fontes de dados.
- Linhagem de dados e metadados estão disponíveis.
- Os dados são facilmente detetáveis pelos utilizadores e os dados confidenciais são protegidos.
- Os agentes de dados e segurança têm linhas de visão sobre como os dados estão sendo usados, quem tem acesso e onde os dados confidenciais podem estar localizados.
Papéis definidos e claros
- Engenheiros, testadores, cientistas de dados, operações, analistas de dados, usuários de negócios e diretores de dados trabalham juntos e entendem suas funções no projeto.
- As partes interessadas são identificadas e você entende o que está motivando as partes interessadas a começar a tomar decisões baseadas em dados.
Casos de uso para movimentação de dados
- Os casos de uso para streaming, interativo e análise em lote são resolvidos.
- Os vários tipos de dados para cada caso são esclarecidos e as métricas são definidas para motivar a tomada de decisões baseadas em dados.
Ferramentas de dados
- São identificadas ou desenvolvidas ferramentas de dados necessárias para tornar os dados mais fáceis de aceder, partilhar, analisar e proteger.
Segurança e conformidade
- Todos os recursos, dados em trânsito e dados em repouso foram auditados e atendem aos padrões de segurança da empresa.
Desenvolvimento
Padrões de projeto de pipeline
- Os pipelines de dados são projetados para parametrização de reutilização e uso.
- Os pipelines resolvem problemas comuns de extração, transformação e carga (ETL).
Ingestão centralizada
- Uma plataforma centralizada hospeda pipelines para todas as fontes de dados externas e internas. Isso permite um gerenciamento simplificado, monitoramento, segurança e padronização da movimentação de dados.
- Os custos associados ao tratamento de dados também são centralizados. O controle central pode ajudar a minimizar os custos e maximizar a eficiência.
Cálculos centralizados
- Uma equipe central define métricas e determina como computá-las. Isso permite consistência em toda a organização e limita a confusão sobre onde fazer atualizações nos cálculos. Ele também cria uma fonte para definições de métricas, governança, testes e controles de qualidade.
Abstração de dados
- Os relatórios usam uma camada de abstração de dados. Isso permite o uso de terminologia comercial consistente, uma visão simplificada dos dados e um efeito mínimo sobre os consumidores de dados quando novas versões dos dados são disponibilizadas.
Controle do código-fonte
- Infraestrutura relacionada a dados, esquemas e procedimentos de banco de dados, processos ETL e relatórios são tratados como código e gerenciados em um repositório.
- Todas as alterações são implantadas e testadas por meio de uma pilha de desenvolvimento, teste, aceitação e produção (DTAP).
Teste e liberação
Ambientes DTAP
- Estão disponíveis ambientes de não produção que imitam o ambiente de produção.
- Compilações e implantações são executadas e testadas no ambiente de não produção antes de um push de produção.
- Os desenvolvedores podem fornecer resultados reproduzíveis em todos os ambientes.
Teste
- Os testes de unidade, de ponta a ponta e de regressão são executados em uma frequência e intervalo especificados.
- Todos os testes estão no controle do código-fonte e são executados como parte de um processo de compilação e implantação.
- A contribuição do usuário final pós-implantação é bem-vinda e incorporada aos testes, conforme apropriado.
Processo de compilação e implantação
- Um processo fechado implanta alterações no ambiente de produção.
- As alterações são testadas nos ambientes de desenvolvimento e teste. As alterações são certificadas antes de entrarem em produção. Este processo é o mais automatizado possível.
Monitorização
Alertas e remediação
- As operações são alertadas para quaisquer erros.
- Você pode responder aos comentários rapidamente e ter um processo para resolver rapidamente os problemas à medida que eles surgem.
- Os oleodutos são observáveis.
Eficiência
- A movimentação de dados é eficiente.
- A infraestrutura pode ser dimensionada para atender às necessidades de volume e velocidade.
- Os dados são reutilizáveis sempre que possível.
Controlo estatístico do processo (CEP)
- O SPC é usado para monitorar e controlar os pipelines de dados.
- Você pode usar as saídas de pipelines para determinar a próxima etapa no fluxo de dados.
Contribuidores
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Autor principal:
- Katie Novotny - Brasil | Especialista Sénior GBB
Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.
Próximos passos
- Organizar os membros da equipe de operações de dados
- Automação de DevOps para gerenciamento e análise de dados no Azure
- Pipelines de dados inteligentes para o Azure: ingerindo e migrando dados da maneira DataOps
Recursos relacionados
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários