Análise geoespacial para o setor de telecomunicações

Fábrica de dados do Azure
Azure Data Lake
Azure Databricks
Azure Machine Learning
Mapas do Azure

O foco deste artigo é mostrar uma arquitetura prática que usa os Serviços de Nuvem do Azure para processar grandes volumes de dados geoespaciais. Ele fornece um caminho a seguir quando as soluções locais não são dimensionadas. Também permite o uso contínuo das ferramentas atuais de análise geoespacial.

Apache®, Apache Spark®, GeoSpark®, e Sedona® são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.

GeoPandas®, QGIS® e ArcGIS® são marcas comerciais de suas respectivas empresas. Nenhum endosso está implícito pelo uso dessas marcas.

Arquitetura

Diagram for an architecture that uses Azure Cloud Services to process large volumes of geospatial data.

Baixe um Arquivo Visio dessa arquitetura.

Workflow

  1. O Azure Data Factory ingere dados geoespaciais no Azure Data Lake Storage. A fonte desses dados são bancos de dados geoespaciais como Teradata, Oracle Spatial e PostgreSQL.
  2. O Azure Key Vault protege senhas, credenciais, cadeias de conexão e outros segredos.
  3. Os dados são colocados em várias pastas e sistemas de arquivos no Data Lake Storage de acordo com a forma como foram processados. O diagrama mostra uma arquitetura multi-hop . O contêiner bronze contém dados brutos, o contêiner prata contém dados semi-curados e o contêiner ouro contém dados totalmente selecionados.
  4. Os dados são armazenados em formatos como GeoJson, WKT e blocos vetoriais. O Azure Databricks e o pacote GeoSpark / Sedona podem converter formatos e carregar, processar e analisar dados espaciais em grande escala em computadores com eficiência.
  5. O Azure Databricks e o Apache Sedona fazem vários tipos de processamento em escala:
    1. Junções, interseções e tessellations
    2. Amostragem espacial e estatística
    3. Indexação espaciais e particionamento
  6. GeoPandas exporta dados em vários formatos para uso por aplicativos GIS de terceiros, como QGIS e ARCGIS.
  7. O Aprendizado de Máquina do Azure extrai insights de dados geoespaciais, determinando, por exemplo, onde e quando implantar novos pontos de acesso sem fio.
  8. Power BI e Azure Maps O visual do Power BI (Visualização) renderiza uma tela de mapa para visualizar dados geoespaciais. O Power BI usa um conector nativo do Azure Databricks para se conectar a um cluster do Azure Databricks.
  9. O Log Analytics, uma ferramenta no portal do Azure, executa consultas em dados no Azure Monitor Logs para implementar um sistema de log robusto e refinado para analisar eventos e desempenho.

Componentes

  • O Azure Data Lake Storage é um data lake seguro e escalonável para cargas de trabalho de análise de alto desempenho. Você pode usar o Data Lake Storage para gerenciar petabytes de dados com alta taxa de transferência. Ele pode acomodar várias fontes heterogêneas e dados em formatos estruturados, semiestruturados ou não estruturados.
  • O Azure Databricks é uma plataforma de análise de dados que usa clusters Spark. Os clusters são otimizados para a plataforma de Serviços de Nuvem do Azure.
  • O Azure Data Factory é um serviço de integração de dados sem servidor, escalonável e totalmente gerenciado. Ele fornece uma camada de integração e transformação de dados que funciona com vários armazenamentos de dados.
  • O Microsoft Power BI é uma coleção de serviços de software, aplicativos e conectores que trabalham juntos para transformar suas fontes de dados não relacionadas em insights coerentes, visualmente envolventes e interativos.
  • O Azure Mapas é uma coleção de serviços geoespaciais e SDKs que usa novos dados de mapeamento para fornecer um contexto geográfico para aplicativos Web e móveis.
  • O Azure Machine Learning é um serviço de nuvem totalmente gerenciado usado para treinar, implantar e gerenciar modelos de machine learning em escala.
  • O Azure Key Vault é um serviço que pode ser usado para armazenar, gerenciar e controlar com segurança o acesso a tokens, credenciais, certificados, chaves de API e outros segredos.
  • O Azure Monitor fornece uma solução abrangente para coleta, análise e ação com base na telemetria dos seus ambientes de nuvem e locais. Você pode usá-lo para maximizar a disponibilidade e o desempenho de seus aplicativos e serviços.

Alternativas

  • Você pode usar os Pools do Synapse Spark para análise geoespacial em vez do Azure Databricks, usando as mesmas estruturas de código aberto.
  • Em vez de usar o Data Factory para ingerir dados, você pode usar os Hubs de Eventos do Azure. Ele pode receber grandes quantidades de dados diretamente ou de outros serviços de streaming de eventos, como o Kafka. Em seguida, você pode usar o Azure Databricks para processar os dados. Para mais informações, veja Processamento de fluxo com o Azure Databricks.
  • Em vez do Azure Databricks, você pode usar o Azure SQL Database ou o Azure SQL Managed Instance para consultar e processar dados geoespaciais. Esses bancos de dados fornecem a conhecida linguagem T-SQL, que você pode usar para análises geoespaciais. Para obter mais informações, consulte Dados espaciais (SQL Server).
  • Assim como Hubs de Eventos, o Hub IoT do Azure pode ingerir grandes quantidades de dados de dispositivos IoT de sensores e telecomunicações. Você pode usar o recurso bidirecional do Hub IoT para se comunicar com segurança com dispositivos e, potencialmente, gerenciá-los e controlá-los a partir de uma plataforma centralizada na nuvem.
  • Você pode usar o Azure Maps para fornecer contexto geográfico para seus aplicativos Web e móveis. Além da inteligência de localização, o Azure Maps pode pesquisar serviços para localizar endereços, locais e pontos de interesse para obter informações de trânsito em tempo real. Azure Maps O Power BI Visual fornece os mesmos recursos no Power BI Desktop e no serviço do Power BI.

Detalhes do cenário

A inteligência de localização e a análise geoespacial podem revelar tendências e comportamentos regionais importantes que afetam as empresas de telecomunicações. As empresas podem usar esse conhecimento para melhorar seu sinal de rádio e cobertura sem fio e, assim, ganhar vantagem competitiva.

As empresas de telecomunicações têm grandes volumes de dados de ativos geograficamente dispersos, a maioria dos quais é telemetria de usuários. Os dados vêm de redes de rádio, dispositivos de detecção IoT e dispositivos de sensoriamento remoto que capturam dados geoespaciais. Está em vários formatos estruturados e semiestruturados, como imagens, GPS, satélite e textural. Fazer uso dele requer agregá-lo e juntá-lo com outras fontes, como mapas regionais e dados de tráfego.

Depois que os dados são agregados e unidos, o desafio é extrair insights deles. Historicamente, as empresas de telecomunicações dependiam de sistemas legados, como bancos de dados locais com recursos geoespaciais. Eventualmente, esses sistemas atingem limites de escalabilidade devido à quantidade cada vez maior de dados. Além disso, eles exigem software de terceiros para executar tarefas que os sistemas de banco de dados geoespaciais não conseguem.

Possíveis casos de uso

Essa solução é ideal para a indústria de telecomunicações e se aplica aos seguintes cenários:

  • Analisar informações de sinal entre locais para avaliar a qualidade da rede
  • Analisar dados de infraestrutura de rede em tempo real para orientar a manutenção e o reparo
  • Analisar segmentação de mercado e demanda de mercado
  • Identificação de relacionamentos entre locais de clientes e campanhas de marketing da empresa
  • Criação de planos de capacidade e cobertura para garantir conectividade e qualidade de serviço

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Considere seguir o Microsoft Azure Well-Architected Framework ao implementar essa solução. A estrutura fornece orientação técnica em cinco pilares: otimização de custos, segurança, confiabilidade, eficiência de desempenho e excelência operacional.

Desempenho

  • Siga os guias de programação do Apache Sedona sobre padrões de design e práticas recomendadas de ajuste de desempenho.
  • A indexação geoespacial é crucial para o processamento de dados geoespaciais em larga escala. O Apache Sedona e outros frameworks de indexação de código aberto, como o H3, fornecem esse recurso.
  • O framework GeoPandas não possui os recursos distribuídos do GeoSpark / Apache Sedona. Portanto, tanto quanto possível, use o framework Sedona para processamento geoespacial.
  • Considere usar as funções internas do Sedona para validar a formatação da geometria antes do processamento.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

Para maior segurança, considere seguir estas diretrizes:

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

  • Para estimar o custo de implementação dessa solução, use a Calculadora de preços do Azure para os serviços mencionados acima.
  • O Power BI vem com várias ofertas de licenciamento. Para obter mais informações, consulte preços do Power BI.
  • Seus custos aumentam se você precisar dimensionar suas configurações de cluster do Azure Databricks. Isso depende da quantidade de dados e da complexidade da análise. Para obter as práticas recomendadas na configuração do cluster, consulte Práticas recomendadas do Azure Databricks: configuração de cluster.
  • Consulte Visão geral do pilar de otimização de custos para saber como minimizar os custos.
  • Para os componentes de terceiros, como QGIS e ARCGIS, consulte os sites do fornecedor para obter informações sobre preços.
  • Os frameworks mencionados nesta solução, como Apache Sedona e GeoPandas, são frameworks livres de código aberto.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas