Azure 및 CluedIn을 사용하여 마스터 데이터 관리

Data Factory
SQL Database
Synapse Analytics

최신 엔터프라이즈 기업은 데이터에 많은 프로세스와 프로젝트를 기반으로 하지만 원시 데이터는 사용할 수 있도록 준비해야 합니다. 고급 분석에서 기계 학습에 이르는 데이터 사용 사례에는 모두 유사한 데이터 준비 프로세스와 주의가 필요합니다.

  1. 데이터 프로젝트는 데이터 검색부터 시작하여 데이터가 어디에 있는지, 어떤 시스템을 사용하는지 결정합니다.
  2. 그런 다음, 데이터 통합 은 여러 데이터 원본을 통합 또는 연결된 데이터 세트로 통합합니다.
  3. 다음 단계는 컴퓨터가 균일하고 일관되며 충실도가 높은 방식으로 처리할 수 있도록 데이터를 정규화, 표준화, 조화정리 하는 것입니다.
  4. 마지막으로 비즈니스 요구 사항에 맞게 데이터를 쉽고 쉽게 사용할 수 있어야 합니다.

이러한 프로세스 중에 거버넌스 는 명확한 소유권, 전체 추적 가능성 및 데이터 원본, 처리 및 사용에 대한 감사 추적을 통해 데이터 제어 및 개인 정보 보호를 보장해야 합니다.

CluedIn 플랫폼은 이러한 데이터 관리 프로세스와 핵심을 일관되고 일관된 엔드투엔드 MDM(Master 데이터 관리) 솔루션으로 캡슐화합니다. CluedIn은 클래식 ETL(추출, 변환, 로드) 또는 ELT(추출, 로드, 변환) 모델보다 더 나은 결과를 생성하는 최종 연결이라는 데이터 통합 기술을 사용합니다. 최종 연결은 GraphQL 쿼리를 사용하여 여러 사일로 처리된 데이터 원본에서 데이터를 원활하게 혼합합니다.

최종 연결을 사용하면 입력하거나 다른 시스템에 로드할 때 데이터가 조인되거나 혼합되지 않습니다. 대신 CluedIn은 데이터를 있는 그대로 로드하고 메타데이터를 사용하여 레코드에 태그를 지정합니다. 결국 동일한 태그가 있는 레코드는 그래프에서 관계를 병합하거나 빌드합니다.

이 정교한 데이터 병합 기술은 데이터 기반 솔루션의 토대를 제공합니다. CluedIn Data Fabric은 데이터를 정리, 준비, 모델, 제어, 보강, 중복 제거 및 카탈로그로 통합하여 비즈니스 용도에 쉽게 사용할 수 있고 액세스할 수 있도록 합니다.

CluedIn은 수집되는 데이터의 품질에 대한 메트릭을 비즈니스에 제공하여 더티 데이터를 지능적으로 감지하고 데이터 엔지니어 및 데이터 관리자가 정리할 준비를 합니다. 독점 유사 논리 기계 학습 알고리즘은 비즈니스 사용자와 큐레이터가 데이터에 레이블을 지정하고 시스템에 시간이 지남에 따라 데이터 품질 문제를 식별, 수정 및 방지하는 데 도움이 됩니다.

CluedIn에는 데이터를 안전하고 자신 있게 사용할 수 있다는 보장을 위해 엔터프라이즈급 거버넌스가 포함됩니다. CluedIn은 정리되고 관리되는 데이터를 Power BI, Azure Databricks, Azure Synapse Analytics 또는 Azure Cognitive Services와 같은 분석 시스템으로 직접 스트리밍하여 나머지 비즈니스에서 쉽게 사용할 수 있도록 할 수 있습니다. 자동 크기 조정에 대한 기본 지원은 Azure의 기능을 활용하여 가장 큰 데이터 워크로드에 확장 가능한 환경을 제공합니다.

아키텍처

Diagram showing CluedIn architectural structure and data flow.

CluedIn 솔루션은 AKS(Azure Kubernetes Service)의 Kubernetes 클러스터에서 실행되는 다양한 기능 계층으로 구성됩니다. .NET Core 마이크로 서비스 애플리케이션의 조합은 데이터 수집, 스트리밍 데이터 처리, 큐 및 사용자 인터페이스와 같은 고유한 함수를 처리합니다.

  1. CluedIn 크롤링 계층은 Azure Data Factory 커넥터를 통해 Azure SQL DB, Azure Cosmos DB, PostgreSQL 및 Salesforce 데이터베이스와 같은 고객 클라우드 원본에서 데이터를 수집합니다.

    또한 CluedIn은 SAP, Oracle, IBM 및 Hadoop과 같은 온-프레미스 액세스 가능 시스템의 입력을 받거나 온-프레미스 에이전트를 사용하여 비공개 데이터를 크롤링할 수 있습니다.

  2. 엔터프라이즈 서비스 버스는 관리 엔드포인트용 포트 5672 및 15672를 통해 연결됩니다. 크롤러는 버스로 데이터를 보내고 처리 계층은 포트 5672를 통해 버스의 데이터를 사용합니다.

  3. 트랜잭션 로그 계층은 처리 계층의 결과를 가져옵니다.

  4. 지속성 계층에서 데이터베이스는 트랜잭션 로그의 데이터를 사용하고 이를 유지하여 여러 데이터 저장소에서 최종 일관성을 제공합니다. 모든 매장은 HA(고가용성) 모드로 실행됩니다.

    데이터 가상화와 달리 CluedIn 지속성 계층은 원본 데이터의 일부를 수집하고 데이터 및 해당 구조의 가장 높은 충실도 버전을 유지합니다. 이 높은 충실도는 CluedIn Data Fabric이 모든 형식 또는 모델에서 데이터에 대한 비즈니스 요청을 제공할 수 있음을 의미합니다.

  5. 데이터 추상화 계층은 각 저장소의 포트를 통해 서로 다른 데이터 저장소에 연결됩니다.

  6. 데이터 액세스는 포트 443을 통한 GraphQL, REST 및 WebSockets 호출을 통해 진행됩니다. GraphQL 및 REST는 끌어오기 모델을 사용하고 WebSockets는 푸시 모델을 사용합니다.

    CluedIn은 제한 및 CSRF(교차 사이트 요청 위조) 방지를 통해 데이터 액세스를 보호합니다.

  7. CluedIn ASP.NET Core 웹 애플리케이션은 포트 443을 통해 REST 및 GraphQL 호출의 조합을 통해 통신합니다.

    브라우저에서 애플리케이션으로의 모든 통신은 단일 공용 IP 주소만 필요한 수신 정의 집합을 사용합니다. 프로덕션 환경에서 모든 통신은 SSL(보안 소켓 계층)을 초과합니다.

  8. CluedIn 애플리케이션은 인사이트를 생성하기 위해 Power BI 및 Azure Synapse Analytics와 같은 분석 서비스에 정리되고 처리된 데이터를 제공합니다. 시스템은 모든 데이터를 백업하고 SQL 또는 Redis 데이터베이스에 저장합니다.

구성 요소

CluedIn은 컨테이너화된 애플리케이션을 배포하고 관리하기 위한 고가용성, 보안 및 완전 관리형 Kubernetes 서비스인 AKS(Azure Kubernetes Service)에서 실행됩니다. AKS는 서버리스 Kubernetes, 통합 CI/CD 및 엔터프라이즈급 보안 및 거버넌스를 제공합니다.

CluedIn은 다음을 포함하여 많은 데이터베이스 원본 및 서비스를 사용하고 지원합니다.

  • Azure SQL Database 항상 최신 상태이며 요청 시 리소스 크기를 자동으로 조정할 수 있는 관리형 관계형 클라우드 데이터베이스 서비스입니다.
  • Azure SQL Managed Instance 기존 SQL Server 애플리케이션과의 광범위한 SQL Server 엔진 호환성을 위해 사용됩니다. Managed Instance 탄력적 확장, 통합 관리 및 클라우드 청구 모델과 같은 Azure 클라우드 이점을 제공하는 온-프레미스 데이터베이스 인프라를 제공합니다.
  • Azure Cosmos DB는 최신 앱 개발을 위한 완전 관리형 비관계형 NoSQL 서버리스 데이터베이스입니다.
  • 확장 가능한 데이터 스토리지 및 분석 서비스인 Azure Data Lake.
  • Azure Data Factory 대규모로 데이터를 수집, 준비 및 변환하기 위한 완전 관리형 서버리스 데이터 통합 솔루션입니다. CluedIn은 90개가 넘는 기본 제공 Data Factory 커넥터를 사용하여 Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow 및 모든 Azure 데이터 서비스와 같은 원본에서 데이터를 가져옵니다.

CluedIn은 다음을 포함하여 많은 분석 앱 및 서비스에 처리되고 관리되는 데이터를 제공합니다.

  • 빠르고 쉽고 협업적인 Apache Spark 기반 분석 서비스인 Azure Databricks.
  • Azure Synapse Analytics는 엔터프라이즈 데이터 웨어하우징 및 빅 데이터 분석을 통합하는 무제한 분석 서비스입니다.
  • Log Analytics는 Azure Monitor 로그 데이터에서 쿼리를 편집, 실행 및 분석하는 Azure Portal 도구입니다.
  • 지능형 앱을 빌드하기 위한 포괄적인 AI 서비스 및 인식 API 제품군인 Azure Cognitive Services.
  • Power BI 대화형 시각화 및 비즈니스 인텔리전스와 사용하기 쉬운 보고서 만들기 인터페이스를 결합한 Microsoft 비즈니스 분석 서비스입니다.

사용 사례

단일 데이터 보기 빌드

  • CluedIn의 의미 체계 모델링으로 인해 기존의 접근 방식에 비해 마스터 데이터의 단일 보기를 훨씬 쉽게 만들 수 있습니다. CluedIn의 고객은 CluedIn을 사용하여 가장 중요한 비즈니스 데이터에 대한 연결되고 과거적이고 고품질의 뷰를 구축하고 있습니다. CluedIn은 People, Companies, Vendors 및 Products와 같은 클래식 마스터 도메인의 마스터링을 지원할 뿐만 아니라 파일, 메일, 이벤트 등과 같은 구조화되지 않은 도메인뿐만 아니라 다양한 도메인을 지원합니다. 깨끗하고, 보강되고, 관리되고, 품질 제어 및 카탈로그로 분류되는 마스터 데이터의 중앙 집중식 리포지토리가 필요한 경우 CluedIn은 사용 사례에 적합합니다.

데이터 패브릭

  • CluedIn은 10, 100, 1000의 다양한 복잡한 데이터 원본에서 통합 데이터 허브로 데이터를 오케스트레이션하는 기능으로 인해 2020년에 Gartner Cool Vendor입니다. 다양한 데이터 원본의 데이터를 쉽게 랭글해야 하는 경우 CluedIn을 데이터 패브릭으로 사용하여 이를 달성할 수 있습니다. 이를 통해 데이터를 다운스트림 소비자에게 전달하면서 데이터를 사전에 정리하고 마스터할 수 있는 스트리밍 인프라를 제공할 수 있습니다.

마스터 데이터의 정교한 병합 및 연결

  • CluedIn의 고유한 데이터 모델링 접근 방식은 그래프 데이터베이스를 활용하므로 복잡한 데이터를 병합하고 단순하게 연결할 수 있습니다. 이 문제를 해결하기 위해 기존 방법과 달리 CluedIn은 추가 기계 학습 및 그래프 분석을 추가하여 매우 정밀도로 레코드를 병합, 일치 및 연결합니다.

고려 사항

CluedIn 플랫폼에는 다음과 같은 특징과 고려 사항이 있습니다.

복원력

  • CluedIn은 자동 매일 데이터베이스 백업을 수행하고 기본적으로 30일 동안 장기 스토리지에 유지합니다. 전체 플랫폼은 모든 하위 시스템에 대한 백업을 유지하는 중복 내결함성 스택을 기반으로 합니다. 시계 모니터링 시스템을 반올림하여 서비스가 가능한 한 오염되지 않도록 합니다. CluedIn은 인프라 중복에 대한 업계 표준 사례를 따릅니다.

  • CluedIn은 원본 버전이 아닌 데이터의 표현만 표시하고 저장합니다. CluedIn이 파괴적인 데이터 침입을 감지하면 서버에서 CluedIn 데이터를 일시적으로 초기화할 수 있습니다. 침입이 가라앉으면 CluedIn은 데이터를 다시 수집하여 원래 상태로 돌아갑니다.

  • 모든 데이터 저장소는 고가용성 모드로 실행됩니다.

확장성

  • CluedIn은 Docker 컨테이너 에서 실행되며 Kubernetes 를 사용하여 애플리케이션의 다양한 부분을 호스트하고 오케스트레이션합니다. 이 아키텍처는 CluedIn이 탄력적 환경에서 잘 작동하며 필요한 크기 및 인프라에 맞게 자동으로 확장될 수 있음을 의미합니다.

  • 자동 크기 조정에 대한 기본 지원은 Azure의 기능을 활용하여 가장 큰 데이터 워크로드에 확장 가능한 환경을 제공합니다.

  • 스키마 없는 그래프 모델링은 원본 데이터에서 데이터 모델을 자동으로 유추합니다. 새 데이터 원본은 명시적으로 통합되지 않고 다른 모든 데이터 원본에 자동으로 연결됩니다. 데이터 원본의 수는 통합 복잡성을 증가하지 않고 무한히 확장할 수 있습니다.

보안

  • CluedIn 보안은 Azure Key Vault 보안 키 제어 및 Azure Monitor 액세스 추적 및 로깅을 사용하여 AzureRBAC를 통해 다양한 서비스에 대한 액세스 권한을 부여하고 제어합니다.

  • CluedIn은 인증된 사용자 계정 외에도 SSO(Single Sign-On) 및 ID 프레임워크도 지원합니다. CluedIn 애플리케이션에 대한 요청은 사용자 ID와 상관 관계가 없는 암호화된 액세스 토큰을 사용합니다.

  • CluedIn은 여러 방화벽 및 프록시 계층 뒤에 저장된 데이터 표현을 관리하고 고유한 키 집합으로 인증합니다.

  • CluedIn은 지원되는 데이터 원본의 암호화 수준보다 더 강력하거나 같은 256비트 AES 암호화를 사용하여 모든 원본 데이터를 저장합니다.

  • 제한 및 CSRF 방지는 데이터 액세스를 보호합니다.

DevOps

  • CluedIn은 AZURE PIPELINES CI/CD(지속적인 통합 및 지속적인 업데이트) 파이프라인을 사용하여 AKS 환경에 대한 배포 및 롤링 업데이트를 처리합니다.

  • CluedIn은 단위, 통합 및 기능 테스트를 지원하여 데이터가 예상대로 변환되도록 합니다. 가상화된 처리 파이프라인은 샌드박스 테스트를 위해 메모리에서 실행될 수 있습니다. 프로덕션 등급 어설션은 데이터 문제를 디버그하고 추적하는 데 도움이 될 수 있습니다.

  • 테스트 및 프로덕션 환경의 경우 CluedIn은 Kubernetes 클러스터에 CluedIn을 신속하게 설치하는 Helm 패키지 관리자 차트를 제공합니다. 완전히 스크립티드된 데이터 배포 프로세스는 설치, 테스트 및 롤아웃을 지원합니다.

배포

가격 책정

CluedIn에 대한 가격은 개방적이고 투명합니다. 해당 웹 사이트에서 가격 책정을 볼 수 있습니다.

Azure 크기 조정 및 평가판 시작

사이트에서 CluedIn의 7일 평가판을 시작할 수 있습니다. 이 평가판은 다양한 크기의 환경에 대해 미리 빌드된 Azure 예상을 사용하여 Azure 호스팅 비용을 범위 지정하는 데 도움이 될 수 있습니다.

다음 단계