Digital 발명를 사용 하 여 데이터에 대 한 democratizeDemocratize data with digital invention

석탄, 석유 및 인간 잠재력은 산업 혁명 중에 가장 많이 발생 하는 세 가지 자산 이었습니다.Coal, oil, and human potential were the three most consequential assets during the industrial revolution. 이러한 자산은 회사를 구축 하 고 시장 및 궁극적으로 변경 된 국가를 변경 했습니다.These assets built companies, shifted markets, and ultimately changed nations. 디지털 경제에는 데이터, 장치 및 인간 잠재력 이라는 세 가지 중요 한 자산이 있습니다.In the digital economy, there are three equally important assets: data, devices, and human potential. 이러한 각 자산에는 뛰어난 혁신 가능성이 있습니다.Each of these assets holds great innovation potential. 최신 연대의 혁신 활동을 위해 데이터는 새 석유입니다.For any innovation effort in the modern era, data is the new oil.

현재 모든 회사에서 고객의 요구를 보다 효과적으로 찾고 충족 하는 데 사용할 수 있는 데이터의 포켓이 있습니다.Across every company today, there are pockets of data that could be used to find and meet customer needs more effectively. 아쉽게도 혁신을 추진 하는 데이터를 마이닝 하는 과정은 비용이 많이 들고 시간이 오래 걸립니다.Unfortunately, the process of mining that data to drive innovation has long been costly and time-consuming. 적절 한 사람들이 필요한 데이터에 액세스할 수 없기 때문에 고객에 게 가장 중요 한 솔루션은 대부분 충족 되지 않습니다.Many of the most valuable solutions to customer needs go unmet because the right people can't access the data they need.

데이터 Democratization은 혁신을 추진 하기 위해이 데이터를 올바른 손으로 가져오는 프로세스입니다.Democratization of data is the process of getting this data into the right hands to drive innovation. 이 프로세스는 여러 가지 형태를 사용할 수 있지만 일반적으로 수집 또는 통합 된 원시 데이터, 데이터의 중앙 집중화, 데이터 공유 및 데이터 보안을 위한 솔루션을 포함 합니다.This process can take several forms, but they generally include solutions for ingested or integrated raw data, centralization of data, sharing data, and securing data. 이러한 방법으로 성공 하면 회사 전문가는 데이터를 사용 하 여 가설을 테스트할 수 있습니다.When these methods are successful, experts around the company can use the data to test hypotheses. 대부분의 경우 클라우드 채택 팀은 데이터를 사용 하 여 고객 공감를 빌드하고 기존 고객의 요구를 신속 하 게 해결할 수 있습니다.In many cases, cloud adoption teams can build with customer empathy using only data, and rapidly addressing existing customer needs.

Democratizing 데이터의 프로세스Process of democratizing data

다음 단계에서는 데이터를 보편화 하는 솔루션을 채택 하는 데 필요한 결정 및 접근 방법을 안내 합니다.The following phases will guide the decisions and approaches required to adopt a solution that democratizes data. 특정 솔루션을 구축 하는 데 필요한 모든 단계는 아닙니다.Not every phase will necessarily be required to build a specific solution. 그러나 고객 가설에 대 한 솔루션을 구축 하는 경우 각 단계를 평가 해야 합니다.However, you should evaluate each phase when you're building a solution to a customer hypothesis. 각각은 혁신적인 솔루션을 만들기 위한 고유한 방법을 제공 합니다.Each provides a unique approach to the creation of innovative solutions.

Democratizing 데이터에 대 한 프로세스

데이터 공유Share data

고객 공감를 사용 하 여 빌드하는 경우 모든 프로세스는 기술 솔루션에 대 한 고객의 요구를 상승 시킵니다.When you build with customer empathy, all processes elevate customer need over a technical solution. Democratizing 데이터는 예외는 아니므로 데이터를 공유 하는 것으로 시작 합니다.Because democratizing data is no exception, we start by sharing data. 데이터를 사용 하려면 데이터 소비자와 데이터를 공유 하는 솔루션을 포함 해야 합니다.To democratize data, it must include a solution that shares data with a data consumer. 데이터 소비자는 고객에 게 의사 결정을 내리는 직접 고객 또는 프록시가 될 수 있습니다.The data consumer could be a direct customer or a proxy who makes decisions for customers. 승인 된 데이터 소비자는 IT 직원의 지원 없이 중앙 데이터를 분석, 조사 및 보고할 수 있습니다.Approved data consumers can analyze, interrogate, and report on centralized data, with no support from IT staff.

성공적인 많은 혁신은 고객을 대신 하 여 수동 데이터 기반 프로세스를 제공 하는 MVP (최소 실행 가능 제품)로 시작 되었습니다.Many successful innovations have been launched as a minimum viable product (MVP) that deliver manual, data-driven processes on behalf of the customer. 이 concierge 모델에서 직원은 데이터 소비자입니다.In this concierge model, an employee is the data consumer. 해당 직원은 데이터를 사용 하 여 고객을 지원 합니다.That employee uses data to aid the customer. 고객이 수동 지원을 할 때마다 가설을 테스트 하 고 유효성을 검사할 수 있습니다.Each time the customer engages manual support, a hypothesis can be tested and validated. 이 방법은 통합 솔루션에 많이 투자 하기 전에 고객 중심 가설을 테스트 하는 비용 효율적인 방법입니다.This approach is often a cost effective means of testing a customer-focused hypothesis before you invest heavily in integrated solutions.

데이터 소비자와 직접 데이터를 공유 하는 기본 도구에는 Power BI같은 도구를 사용 하 여 셀프 서비스 보고 또는 다른 환경 내에 포함 된 데이터가 포함 됩니다.The primary tools for sharing data directly with data consumers include self-service reporting or data embedded within other experiences, using tools like Power BI.

참고

데이터를 공유 하기 전에 다음 섹션을 확인 해야 합니다.Before you share data, make sure you've read the following sections. 데이터 공유에는 공유 데이터에 대 한 보호를 제공 하는 관리 작업이 필요할 수 있습니다.Sharing data might require governance to provide protection for the shared data. 또한이 데이터는 여러 클라우드 간에 분산 될 수 있으며 중앙 집중화가 필요할 수 있습니다.Also, that data might be spread across multiple clouds and could require centralization. 대부분의 데이터는 응용 프로그램 내에 상주 하 여 데이터를 공유 하기 전에 데이터를 수집 해야 하는 경우도 있습니다.Much of the data might even reside within applications, which will require data collection before you can share it.

데이터 제어Govern data

데이터를 공유 하면 고객 대화에서 사용할 수 있는 MVP가 빠르게 생성 될 수 있습니다.Sharing data can quickly produce an MVP that you can use in customer conversations. 그러나 공유 데이터를 유용 하 고 실행 가능한 정보로 전환 하기 위해 일반적으로 약간 더 필요 합니다.However, to turn that shared data into useful and actionable knowledge, a bit more is generally required. 데이터 공유를 통해 가설의 유효성을 검사 한 후 개발의 다음 단계는 일반적으로 데이터 관리입니다.After a hypothesis has been validated through data sharing, the next phase of development is typically data governance.

데이터 관리는 자체의 전용 프레임 워크를 필요로 하는 광범위 한 주제입니다.Data governance is a broad topic that could require its own dedicated framework. 이러한 수준의 세분성은 클라우드 채택 프레임 워크의 범위를 벗어납니다.That degree of granularity is outside the scope of the Cloud Adoption Framework. 그러나 고객 가설의 유효성을 검사 하는 즉시 고려해 야 하는 데이터 관리의 몇 가지 측면이 있습니다.However, there are several aspects of data governance that you should consider as soon as the customer hypothesis is validated. 다음은 그 예입니다. For example:

  • 공유 데이터가 중요 합니까?Is the shared data sensitive? 데이터 는 고객과 회사의 관심사를 보호 하기 위해 공개적으로 공유 되기 전에 분류 되어야 합니다.Data should be classified before being shared publicly to protect the interests of customers and the company.
  • 데이터가 중요 한 경우에는 보안이 유지 되나요?If the data is sensitive, has it been secured? 중요 한 데이터의 보호는 democratized 데이터에 대 한 요구 사항 이어야 합니다.Protection of sensitive data should be a requirement for any democratized data. 데이터 솔루션 보안 에 초점을 맞춘 예제 작업에는 데이터 보안을 위한 몇 가지 참조가 제공 됩니다.The example workload focused on securing data solutions provides a few references for securing data.
  • 데이터가 카탈로그로 되었습니까?Is the data cataloged? 공유 되는 데이터에 대 한 세부 정보를 캡처하면 장기적인 데이터 관리에 도움이 됩니다.Capturing details about the data being shared will aid in long-term data management. Azure Data Catalog와 같은 데이터를 문서화 하기 위한 도구는 클라우드에서이 프로세스를 훨씬 더 쉽게 수행할 수 있습니다.Tools for documenting data, like Azure Data Catalog, can make this process much easier in the cloud. 데이터의 주석과 데이터 원본 설명서 에 대 한 지침을 통해 프로세스를 가속화할 수 있습니다.Guidance regarding the annotation of data and the documentation of data sources can help accelerate the process.

고객 중심 가설에 데이터 democratization 중요 한 경우에는 공유 데이터의 거 버 넌 스가 릴리스 계획의 어딘가에 있는지 확인 합니다.When democratization of data is important to a customer-focused hypothesis, make sure the governance of shared data is somewhere in the release plan. 이렇게 하면 고객, 데이터 소비자 및 회사를 보호 하는 데 도움이 됩니다.This will help protect customers, data consumers, and the company.

데이터 중앙 집중화Centralize data

IT 환경에서 데이터가 중단 될 때 혁신에 대 한 기회가 매우 제한적이 고, 비용이 많이 들고, 시간이 많이 소요 될 수 있습니다.When data is disrupted across an IT environment, opportunities to innovate can be extremely constrained, expensive, and time-consuming. 클라우드는 데이터 사일로를 통해 데이터를 중앙 집중화할 수 있는 새로운 기회를 제공 합니다.The cloud provides new opportunities to centralize data across data silos. 고객 공감를 사용하 여 빌드하는 데 여러 데이터 원본의 중앙 집중화가 필요한 경우 클라우드는 가설 테스트를 가속화할 수 있습니다.When centralization of multiple data sources is required to build with customer empathy, the cloud can accelerate the testing of hypotheses.

주의

데이터의 중앙 집중화는 모든 혁신 프로세스에서 위험 지점을 나타냅니다.Centralization of data represents a risk point in any innovation process. 데이터 중앙화가 고객 값의 원본이 아닌 기술적 스파이크인 경우 고객 가설의 유효성을 검사할 때까지 중앙 집중화를 지연 시키는 것이 좋습니다.When data centralization is a technical spike, and not a source of customer value, we suggest that you delay centralization until the customer hypotheses have been validated.

데이터의 중앙 집중화가 필요한 경우 중앙 데이터에 적합 한 데이터 저장소를 먼저 정의 해야 합니다.If centralization of data is required, you should first define the appropriate data store for the centralized data. 클라우드에서 데이터 웨어하우스를 설정 하는 것이 좋습니다.It's a good practice to establish a data warehouse in the cloud. 이 확장 가능 옵션은 모든 데이터에 대 한 중앙 위치를 제공 합니다.This scalable option provides a central location for all your data. 이러한 유형의 솔루션은 OLAP (온라인 분석 처리) 또는 빅 데이터 옵션에서 사용할 수 있습니다.This type of solution is available in online analytical processing (OLAP) or big data options.

OLAP빅 데이터 솔루션에 대 한 참조 아키텍처를 통해 Azure에서 가장 관련성이 높은 솔루션을 선택할 수 있습니다.The reference architectures for OLAP and big data solutions can help you choose the most relevant solution in Azure. 하이브리드 솔루션이 필요한 경우 온-프레미스 데이터를 확장 하기 위한 참조 아키텍처는 솔루션 개발을 가속화 하는 데에도 도움이 됩니다.If a hybrid solution is required, the reference architecture for extending on-premises data can also help accelerate solution development.

중요

고객의 요구와 정렬 된 솔루션에 따라 간단한 방법으로도 충분 합니다.Depending on the customer need and the aligned solution, a simpler approach may be sufficient. 클라우드 설계자는 팀이 더 저렴 한 비용의 솔루션을 고려해 야 합니다. 특히 초기 개발 과정에서 고객 가설의 유효성을 빠르게 확인할 수 있습니다.The cloud architect should challenge the team to consider lower cost solutions that could result in faster validation of the customer hypothesis, especially during early development. 데이터 수집에 대 한 다음 섹션에서는 상황에 맞는 다른 솔루션을 제안할 수 있는 몇 가지 시나리오에 대해 설명 합니다.The following section on collecting data covers some scenarios that might suggest a different solution for your situation.

데이터 수집Collect data

고객의 요구를 해결 하기 위해 데이터를 중앙 집중화 해야 할 경우 다양 한 원본에서 데이터를 수집 하 여 중앙 집중식 데이터 저장소로 이동 해야 할 가능성이 매우 높습니다.When you need data to be centralized to address a customer need, it's very likely that you'll also have to collect the data from various sources and move it into the centralized data store. 데이터 수집의 두 가지 기본 형식은 통합 및 수집 입니다.The two primary forms of data collection are integration and ingestion.

통합: 기존 데이터 저장소에 있는 데이터는 기존 데이터 이동 기술을 사용 하 여 중앙 집중화 된 데이터 저장소에 통합할 수 있습니다.Integration: Data that resides in an existing data store can be integrated into the centralized data store by using traditional data movement techniques. 이는 다중 클라우드 데이터 저장소를 포함 하는 시나리오에 특히 일반적입니다.This is especially common for scenarios that involve multicloud data storage. 이러한 기술에는 기존 데이터 저장소에서 데이터를 추출 하 여 중앙 데이터 저장소에 로드 하는 작업이 포함 됩니다.These techniques involve extracting the data from the existing data store and then loading it into the central data store. 이 프로세스의 특정 시점에 데이터는 일반적으로 중앙 저장소에서 더 사용할 수 있고 관련성이 높은 것으로 변환 됩니다.At some point in this process, the data is typically transformed to be more usable and relevant in the central store.

클라우드 기반 도구는 이러한 기술을 사용 종 량 제 도구로 전환 하 여 데이터 수집 및 중앙 집중화를 위한 진입에 대 한 장애물을 줄여 줍니다.Cloud-based tools have turned these techniques into pay-per-use tools, reducing the barrier to entry for data collection and centralization. Azure Database Migration Service 및 Azure Data Factory와 같은 도구는 두 가지 예입니다.Tools like Azure Database Migration Service and Azure Data Factory are two examples. OLAP 데이터 저장소를 사용 하는 Data Factory 에 대 한 참조 아키텍처는 이러한 솔루션 중 하나의 예입니다.The reference architecture for Data Factory with an OLAP data store is an example of one such solution.

수집 : 일부 데이터는 기존 데이터 저장소에 상주 하지 않습니다.Ingestion: Some data doesn't reside in an existing data store. 이 임시 데이터가 혁신의 주요 원본인 경우에는 다른 방법을 고려해 야 합니다.When this transient data is a primary source of innovation, you'll want to consider alternative approaches. 임시 데이터는 응용 프로그램, Api, 데이터 스트림, IoT 장치, 블록 체인, 응용 프로그램 캐시, 미디어 콘텐츠 또는 플랫 파일 등의 여러 기존 원본에서 찾을 수 있습니다.Transient data can be found in a variety of existing sources like applications, APIs, data streams, IoT devices, a blockchain, an application cache, in media content, or even in flat files.

이러한 다양 한 형태의 데이터를 OLAP 또는 빅 데이터 솔루션의 중앙 데이터 저장소에 통합할 수 있습니다.You can integrate these various forms of data into a central data store on an OLAP or big data solution. 그러나 빌드-측정-학습 주기의 초기 반복에서는 OLTP (온라인 트랜잭션 처리) 솔루션이 고객 가설의 유효성을 검사 하는 데 충분 하지 않을 수 있습니다.However, for early iterations of the build-measure-learn cycle, an online transactional processing (OLTP) solution might be more than sufficient to validate a customer hypothesis. OLTP 솔루션은 보고 시나리오에 가장 적합 한 옵션이 아닙니다.OLTP solutions aren't the best option for any reporting scenario. 그러나 고객 공감를 사용 하 여 빌드하는 경우 기술 도구 결정 보다 고객 요구 사항에 집중 하는 것이 더 중요 합니다.However, when you're building with customer empathy, it's more important to focus on customer needs than on technical tooling decisions. 고객 가설이 대규모로 검증 되 면 더 적합 한 플랫폼이 필요할 수 있습니다.After the customer hypothesis is validated at scale, a more suitable platform might be required. OLTP 데이터 저장소 의 참조 아키텍처는 솔루션에 가장 적합 한 데이터 저장소를 확인 하는 데 도움이 될 수 있습니다.The reference architecture on OLTP data stores can help you determine which data store is most appropriate for your solution.

가상화: 데이터의 통합 및 수집으로 인해 혁신 저하가 발생할 수 있습니다.Virtualize: Integration and ingestion of data can sometimes slow innovation. 데이터 가상화에 대 한 솔루션을 이미 사용할 수 있는 경우 더 합리적인 방법을 나타낼 수 있습니다.When a solution for data virtualization is already available, it might represent a more reasonable approach. 수집 및 통합은 저장소 및 개발 요구 사항이 중복 되거나, 데이터 대기 시간을 추가 하 고, 공격 노출 영역을 늘리고, 품질 문제를 트리거하고, 거 버 넌 스 작업을 늘릴 수 있습니다.Ingestion and integration can both duplicate storage and development requirements, add data latency, increase attack surface area, trigger quality issues, and increase governance efforts. 데이터 가상화는 원래 데이터를 단일 위치에 남겨 두고 원본 데이터의 통과 또는 캐시 된 쿼리를 만드는 더 현대적인 대안입니다.Data virtualization is a more contemporary alternative that leaves the original data in a single location and creates pass-through or cached queries of the source data.

SQL Server 2017 및 Azure SQL Data Warehouse는 모두 Azure에서 가장 일반적으로 사용 되는 데이터 가상화의 방법인 PolyBase를 지원 합니다.SQL Server 2017 and Azure SQL Data Warehouse both support PolyBase, which is the approach to data virtualization most commonly used in Azure.

다음 단계Next steps

Democratizing 데이터를 준비 하는 전략을 사용 하 여 응용 프로그램을 통해 고객에 게 접근 하는 방법을 평가 하려고 합니다.With a strategy for democratizing data in place, you'll next want to evaluate approaches to engaging customers through applications.