복사 작업을 사용하여 데이터를 복사하는 방법
데이터 파이프라인에서 복사 작업 사용하여 클라우드에 있는 데이터 저장소 간에 데이터를 복사할 수 있습니다.
데이터를 복사한 후 다른 작업을 사용하여 추가 변환 및 분석을 수행할 수 있습니다. 복사 작업을 통해 BI(비즈니스 인텔리전스) 및 애플리케이션에서 사용할 수 있도록 변환 및 분석 결과를 게시할 수도 있습니다.
원본에서 대상으로 데이터를 복사하기 위해 복사 작업 실행하는 서비스는 다음 단계를 수행합니다.
- 원본 데이터 저장소에서 데이터를 읽습니다.
- 직렬화/역직렬화, 압축/압축 해제, 열 매핑 등을 수행합니다. 구성에 따라 이러한 작업을 수행합니다.
- 대상 데이터 저장소에 데이터를 씁니다.
필수 조건
시작하려면 다음 필수 조건을 완료해야 합니다.
활성 구독이 있는 Microsoft Fabric 테넌트 계정입니다. 체험 계정을 만듭니다.
Microsoft Fabric 사용 작업 영역이 있는지 확인합니다.
복사 도우미 사용하여 복사 작업 추가
복사 도우미 사용하여 복사 작업을 설정하려면 다음 단계를 수행합니다.
복사 도우미 시작
기존 데이터 파이프라인을 열거나 새 데이터 파이프라인을 만듭니다.
캔버스에서 데이터 복사를 선택하여 복사 도우미 도구를 열어 시작합니다. 또는 리본 메뉴의 활동 탭에 있는 데이터 복사 드롭다운 목록에서 복사 도우미 사용을 선택합니다.
원본 구성
범주에서 데이터 원본 형식을 선택합니다. Azure Blob Storage를 예로 사용합니다. Azure Blob Storage를 선택한 다음, 다음을 선택합니다.
새 연결 만들기를 선택하여 데이터 원본에 대한 연결을 만듭니다.
새 연결 만들기를 선택한 후 필요한 연결 정보를 입력하고 다음을 선택합니다. 각 데이터 원본 유형에 대한 연결 만들기에 대한 자세한 내용은 각 커넥터 문서를 참조할 수 있습니다.
기존 연결이 있는 경우 기존 연결을 선택하고 드롭다운 목록에서 연결을 선택할 수 있습니다.
이 원본 구성 단계에서 복사할 파일 또는 폴더를 선택한 다음, 다음을 선택합니다.
대상 구성
범주에서 데이터 원본 형식을 선택합니다. Azure Blob Storage를 예로 사용합니다. Azure Blob Storage를 선택한 다음, 다음을 선택합니다.
이전 섹션의 단계에 따라 새 Azure Blob Storage 계정에 연결되는 새 연결을 만들거나 연결 드롭다운 목록에서 기존 연결을 사용할 수 있습니다. 테스트 연결 및 편집 기능은 선택한 각 연결에서 사용할 수 있습니다.
원본 데이터를 구성하고 대상에 매핑합니다. 그런 다음 다음을 선택하여 대상 구성을 완료합니다.
복사 작업 검토 및 만들기
완료되면 복사 작업이 데이터 파이프라인 캔버스에 추가됩니다. 이 복사 활동에 대한 고급 설정을 비롯한 모든 설정은 탭에서 선택할 수 있습니다.
이제 이 단일 복사 작업으로 데이터 파이프라인을 저장하거나 데이터 파이프라인을 계속 디자인할 수 있습니다.
복사 작업 직접 추가
복사 작업을 직접 추가하려면 다음 단계를 수행합니다.
복사 작업 추가
기존 데이터 파이프라인을 열거나 새 데이터 파이프라인을 만듭니다.
파이프라인> 작업 추가를 선택하거나복사 작업 작업 탭에서 캔버스에 데이터>추가 복사를 선택하여 복사 작업을 추가합니다.
일반 탭에서 일반 설정 구성
일반 설정을 구성하는 방법을 알아보려면 일반을 참조하세요.
원본 탭에서 원본 구성
커넥트 옆에 있는 + 새로 만들기를 선택하여 데이터 원본에 대한 연결을 만듭니다.
팝업 창에서 데이터 원본 형식을 선택합니다. Azure SQL Database를 예로 사용합니다. Azure SQL Database를 선택한 다음, 계속을 선택합니다.
연결 만들기 페이지로 이동합니다. 패널에서 필요한 연결 정보를 입력한 다음 만들기를 선택합니다. 각 데이터 원본 유형에 대한 연결 만들기에 대한 자세한 내용은 각 커넥터 문서를 참조할 수 있습니다.
연결이 성공적으로 만들어지면 데이터 파이프라인 페이지로 돌아갑니다. 그런 다음 새로 고침을 선택하여 드롭다운 목록에서 만든 연결을 가져옵니다. 이전에 이미 만든 경우 드롭다운에서 직접 기존 Azure SQL Database 연결을 선택할 수도 있습니다. 테스트 연결 및 편집 기능은 선택한 각 연결에서 사용할 수 있습니다. 그런 다음 커넥트ion 유형에서 Azure SQL Database를 선택합니다.
복사할 테이블을 지정합니다. 데이터 미리 보기를 선택하여 원본 테이블을 미리 봅니다. 쿼리 및 저장 프로시저를 사용하여 원본에서 데이터를 읽을 수도 있습니다.
고급 설정을 확장합니다.
대상 탭에서 대상 구성
대상 유형을 선택합니다. Lakehouse와 같은 작업 영역의 내부 일류 데이터 저장소 또는 외부 데이터 저장소일 수 있습니다. 예를 들어 Lakehouse를 사용합니다.
작업 영역 데이터 저장소 형식에서 Lakehouse를 사용하도록 선택합니다. + 새로 만들기를 선택하면 Lakehouse 만들기 페이지로 이동합니다. Lakehouse 이름을 지정한 다음 만들기를 선택합니다.
연결이 성공적으로 만들어지면 데이터 파이프라인 페이지로 돌아갑니다. 그런 다음 새로 고침을 선택하여 드롭다운 목록에서 만든 연결을 가져옵니다. 이전에 이미 만든 경우 드롭다운에서 직접 기존 Lakehouse 연결을 선택할 수도 있습니다.
테이블을 지정하거나 파일 경로를 설정하여 파일 또는 폴더를 대상으로 정의합니다. 여기에서 테이블을 선택하고 데이터를 쓸 테이블을 지정합니다.
고급 설정을 확장합니다.
이제 이 단일 복사 작업으로 데이터 파이프라인을 저장하거나 데이터 파이프라인을 계속 디자인할 수 있습니다.
매핑 탭에서 매핑 구성
적용하는 커넥터가 매핑을 지원하는 경우 매핑 탭으로 이동하여 매핑을 구성할 수 있습니다.
스키마 가져오기를 선택하여 데이터 스키마를 가져옵니다.
자동 매핑이 표시되는 것을 볼 수 있습니다. 원본 열과 대상 열을 지정합니다. 대상에 새 테이블을 만드는 경우 여기에서 대상 열 이름을 사용자 지정할 수 있습니다. 기존 대상 테이블에 데이터를 쓰려는 경우 기존 대상 열 이름을 수정할 수 없습니다. 원본 및 대상 열의 유형을 볼 수도 있습니다.
또한 + 새 매핑을 선택하여 새 매핑을 추가하고, [지우기]를 선택하여 모든 매핑 설정을 지우고, [다시 설정]을 선택하여 모든 매핑 원본 열을 다시 설정할 수 있습니다.
형식 변환 구성
필요한 경우 형식 변환 설정을 확장하여 형식 변환을 구성합니다.
설정 세부 정보는 다음 표를 참조하세요.
설정 | 설명 |
---|---|
데이터 잘림 허용 | 복사하는 동안 다른 형식의 대상으로 원본 데이터를 변환할 때 데이터 잘림을 허용합니다. 예를 들어 10진수에서 정수로, DatetimeOffset에서 Datetime까지입니다. |
부울을 숫자로 처리 | 부울을 숫자로 처리합니다. 예를 들어 true를 1로 처리합니다. |
날짜 형식 | 날짜와 문자열 간에 변환할 때 문자열 서식을 지정합니다(예: "yyyy-MM-dd"). 자세한 내용은 사용자 지정 날짜 및 시간 형식 문자열을 참조하세요. 날짜 열은 다음의 날짜 유형으로 읽을 수 있습니다. • SQL Server용 Amazon RDS • Azure SQL Database • Azure SQL Database Managed Instance • Azure Synapse Analytics • 구분된 텍스트 형식 • 레이크하우스 테이블 • Parquet 형식 • SQL Server |
DateTime 형식 | 표준 시간대 오프셋과 문자열이 없는 날짜 간에 변환할 때 문자열 서식을 지정합니다. 예를 들어 "yyyy-MM-dd HH:mm:ss.fff"입니다. |
DateTimeOffset 형식 | 표준 시간대 오프셋과 문자열을 사용하여 날짜 간에 변환할 때 문자열 서식을 지정합니다. 예를 들어 "yyyy-MM-dd HH:mm:ss.fff zzz"입니다. |
TimeSpan 형식 | 기간과 문자열 간에 변환할 때 문자열의 서식을 지정합니다. 예를 들어 "dd.hh:mm:ss"입니다. |
문화권. | 형식을 변환할 때 사용할 문화권 정보입니다. 예를 들어 "en-us", "fr-fr"입니다. |
설정 탭에서 다른 설정 구성
설정 탭에는 성능, 스테이징 등의 설정이 포함되어 있습니다.
각 설정에 대한 설명은 다음 표를 참조하세요.
설정 | 설명 |
---|---|
지능형 처리량 최적화 | 처리량을 최적화하도록 지정합니다. 다음 중에서 선택할 수 있습니다. • 자동 • 표준 • 균형 잡힌 • 최대값 자동을 선택하면 원본-대상 쌍 및 데이터 패턴에 따라 최적의 설정이 동적으로 적용됩니다. 처리량을 사용자 지정할 수도 있으며 사용자 지정 값은 2-256일 수 있지만 값이 높을수록 더 많은 이익을 얻을 수 있습니다. |
복사 병렬 처리 수준 | 데이터 로드에서 사용할 병렬 처리 수준을 지정합니다. |
내결함성 | 이 옵션을 선택하면 복사 프로세스 도중에 발생한 일부 오류를 무시할 수 있습니다. 예를 들어 원본과 대상 저장소 간의 호환되지 않는 행, 데이터 이동 중에 삭제되는 파일 등이 있습니다. |
로깅 사용 | 이 옵션을 선택하면 복사한 파일, 건너뛴 파일 및 행을 기록할 수 있습니다. |
스테이징 사용 | 중간 준비 저장소를 통해 데이터를 복사할지 여부를 지정합니다. 유익한 시나리오에 대해서만 스테이징을 사용하도록 설정합니다. |
스테이징 계정 연결 | 준비 사용을 선택할 때 Azure Storage 데이터 원본의 연결을 중간 준비 저장소로 지정합니다. 준비 연결이 없는 경우 + 새로 만들기를 선택합니다. |
복사 작업에서 매개 변수 구성
매개 변수를 사용하여 파이프라인 및 해당 활동의 동작을 제어할 수 있습니다. 동적 콘텐츠 추가를 사용하여 복사 작업 속성에 대한 매개 변수를 지정할 수 있습니다. Lakehouse/Data Warehouse/KQL 데이터베이스를 예제로 지정하여 사용 방법을 살펴보겠습니다.
원본 또는 대상에서 작업 영역을 데이터 저장소 유형으로 선택하고 Lakehouse/Data Warehouse/KQL Database를 작업 영역 데이터 저장소 유형으로 지정한 후 Lakehouse 또는 Data Warehouse 또는 KQL 데이터베이스의 드롭다운 목록에서 동적 콘텐츠 추가를 선택합니다.
팝업 동적 콘텐츠 추가 창의 매개 변수 탭에서 선택합니다+.
매개 변수의 이름을 지정하고 원하는 경우 기본값을 지정하거나 파이프라인에서 실행을 선택한 후 매개 변수의 값을 지정할 수 있습니다.
매개 변수 값은 Lakehouse/Data Warehouse/KQL 데이터베이스 개체 ID여야 합니다. Lakehouse/Data Warehouse/KQL 데이터베이스 개체 ID를 가져오려면 작업 영역에서 Lakehouse/Data Warehouse/KQL 데이터베이스를 열고 ID는 URL 이후
/lakehouses/
또는/datawarehouses/
/databases/
URL에 있습니다.Lakehouse 개체 ID:
데이터 웨어하우스 개체 ID:
KQL 데이터베이스 개체 ID:
저장을 선택하여 동적 콘텐츠 추가 창으로 돌아갑니다. 그런 다음 식 상자에 표시되도록 매개 변수를 선택합니다. 그런 다음 확인을 선택합니다. 파이프라인 페이지로 돌아가서 Lakehouse 개체 ID Data Warehouse 개체 ID/KQL 데이터베이스 개체 ID/ 다음에 매개 변수 식이 지정된 것을 볼 수 있습니다.
관련 콘텐츠
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기