Azure 테이블에서 가져오기

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 가져오기 모듈을 사용하여 Azure 테이블에서 구조화되거나 반구조화된 데이터를 기계 학습 실험으로 가져오는 방법을 설명합니다.

참고

적용 대상: Machine Learning Studio(클래식)

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

Azure Table Service는 다량의 구조적 비관계형 데이터를 저장할 수 있는 Azure의 데이터 관리 서비스입니다. Azure 내부 및 외부에서 인증된 호출을 수락하는 NoSQL 데이터 저장소입니다.

Azure Table Storage에서 가져오려면 SAS URL을 사용하여 액세스할 수 있는 스토리지 계정 또는 로그인 자격 증명이 필요한 프라이빗 스토리지 계정의 두 가지 계정 유형 중 하나를 선택해야 합니다.

Azure 테이블에서 데이터를 가져오는 방법

데이터 가져오기 마법사 사용

이 모듈에는 스토리지 옵션을 선택하고, 기존 구독 및 계정 중에서 선택하고, 모든 옵션을 신속하게 구성하는 데 도움이 되는 새 마법사가 있습니다.

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 데이터 입력 및 출력 아래에서 모듈을 찾을 수 있습니다.

  2. 데이터 가져오기 마법사 시작을 클릭하고 프롬프트를 따릅니다.

  3. 구성이 완료되면 실제로 데이터를 실험에 복사하려면 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

기존 데이터 연결을 편집해야 하는 경우 마법사는 처음부터 다시 시작할 필요가 없도록 모든 이전 구성 세부 정보를 로드합니다.

데이터 가져오기 모듈에서 수동으로 속성 설정

다음 단계에서는 가져오기 원본을 수동으로 구성하는 방법을 설명합니다.

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 실험 항목 목록에서 데이터 입력 및 출력 그룹에서 찾을 수 있습니다.

  2. 데이터 원본의 경우 Azure 테이블을 선택합니다.

  3. 인증 유형의 경우 정보가 공용 데이터 원본으로 제공된 것을 알고 있는 경우 공용(SAS URL)을 선택합니다. SAS URL은 Azure Storage 유틸리티를 사용하여 생성할 수 있는 시간 바인딩된 액세스 URL입니다.

    그렇지 않으면 계정을 선택합니다.

  4. 데이터가 SAS URL을 사용하여 액세스할 수 있는 공용 Blob에 있는 경우 URL 문자열에 다운로드 및 인증에 필요한 모든 정보가 포함되어 있으므로 추가 자격 증명이 필요하지 않습니다.

    테이블 SAS URI 필드에 계정 및 공용 Blob을 정의하는 전체 URI를 입력하거나 붙여넣습니다.

    참고

    SAS URL을 통해 액세스할 수 있는 페이지에서 CSV, TSV 및 ARFF 형식만 사용하여 데이터를 저장할 수 있습니다.

  5. 데이터가 개인 계정에 있는 경우 계정 이름 및 키를 포함한 자격 증명을 제공해야 합니다.

    • 테이블 계정 이름의 경우 액세스하려는 Blob이 포함된 계정의 이름을 입력하거나 붙여넣습니다.

      예를 들어 스토리지 계정의 전체 URL이 https://myshared.table.core.windows.net면 입력 myshared합니다.

    • 테이블 계정 키의 경우 스토리지 계정과 연결된 액세스 키를 붙여넣습니다.\

      액세스 키를 모르는 경우 이 문서의 "스토리지 액세스 키 보기, 복사 및 다시 생성" 섹션을 참조하세요. Azure Storage 계정 정보

    • 테이블 이름의 경우 읽을 특정 테이블의 이름을 입력합니다.

  6. 데이터 가져오기에서 검사해야 하는 행 수를 나타내는 옵션을 선택합니다. 데이터 가져오기 는 검색을 사용하여 데이터의 열 목록을 가져오고 열 데이터 형식을 결정합니다.

    • TopN: 데이터 세트의 맨 위에서 시작하여 지정된 행 수만 검색합니다.

      기본적으로 10개의 행이 검색되지만 TopN 옵션의 행 수를 사용하여 해당 값을 늘리거나 줄일 수 있습니다.

      데이터가 동질적이고 예측 가능한 경우 TopN 을 선택하고 N에 대한 숫자를 입력합니다. 큰 테이블의 경우 읽기 시간이 더 빨라질 수 있습니다.

    • ScanAll: 테이블의 모든 행을 검색합니다.

      테이블의 깊이와 위치에 따라 달라지는 속성 집합으로 데이터가 구조화된 경우 ScanAll 옵션을 선택하여 모든 행을 검색합니다. 이렇게 하면 결과로 얻는 속성과 메타데이터 변환의 무결성이 확보됩니다.

  7. 실험을 실행할 때마다 데이터를 새로 고칠지 여부를 나타냅니다. 캐시된 결과 사용 옵션(기본값)을 선택하면 데이터 가져오기 모듈이 실험을 처음 실행할 때 지정된 원본의 데이터 형식을 읽은 후 결과를 캐시합니다. 데이터 가져오기 모듈의 매개 변수가 변경되면 데이터가 다시 로드됩니다.

    이 옵션을 선택 취소하면 데이터가 같은지 여부에 관계없이 실험이 실행될 때마다 원본에서 데이터를 읽습니다.

데이터 내보내기 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

일반적인 질문

동일한 데이터를 불필요하게 다시 로드하지 않도록 하시겠습니까?

원본 데이터가 변경되면 데이터 가져오기를 다시 실행하여 데이터 세트를 새로 고치고 새 데이터를 추가할 수 있습니다. 그러나 실험을 실행할 때마다 원본에서 다시 읽지 않으려면 캐시된 결과 사용 옵션을 TRUE로 선택합니다. 이 옵션을 TRUE로 설정하면 모듈은 동일한 원본 및 동일한 입력 옵션을 사용하여 실험이 이전에 실행되었는지 여부를 확인하고, 이전 실행이 발견되면 원본에서 데이터를 다시 로드하는 대신 캐시의 데이터가 사용됩니다.

원본에서 읽는 데이터를 필터링할 수 있나요?

데이터 가져오기 모듈은 데이터를 읽는 동안 필터링을 지원하지 않습니다. 예외는 데이터 피드에서 읽는 것입니다. 경우에 따라 피드 URL의 일부로 필터 조건을 지정할 수 있습니다.

그러나 데이터를 Machine Learning Studio(클래식)로 읽은 후 변경하거나 필터링할 수 있습니다.

  • 사용자 지정 R 스크립트를 사용하여 데이터를 변경하거나 필터링합니다.
  • 상대 식 또는 정규식과 함께 데이터 분할 모듈을 사용하여 원하는 데이터를 격리한 다음 데이터 세트로 저장합니다.

참고

필요 이상으로 많은 데이터를 로드한 경우 새 데이터 집합을 읽은 다음 더 오래되고 크기가 큰 데이터와 같은 이름으로 저장하여 캐시된 데이터 집합을 덮어쓸 수 있습니다.

데이터 가져오기는 다른 지리적 지역에서 로드된 데이터를 어떻게 처리하나요?

Blob 또는 Table Storage 계정이 기계 학습 실험에 사용되는 컴퓨팅 노드와 다른 지역에 있는 경우 데이터 액세스 속도가 느려질 수 있습니다. 또한 구독의 데이터 수신 및 송신에 대한 요금이 청구됩니다.

테이블의 일부 문자가 올바르게 표시되지 않는 이유는 무엇인가요?

Machine Learning UTF-8 인코딩을 지원합니다. 테이블에서 다른 인코딩을 사용하는 경우 문자를 올바르게 가져오지 못할 수 있습니다.

가져오기 중에 변경된 금지된 문자 또는 문자가 있나요?

특성 데이터에 포함된 따옴표 또는 이스케이프 문자 시퀀스는 Microsoft Excel에서 해당 문자에 적용되는 규칙을 사용하여 처리됩니다. 다른 모든 문자는 다음 사양을 지침으로 사용하여 처리됩니다. RFC 4180.

모듈 매개 변수

Name 범위 Type 기본값 기본값
데이터 원본 목록 데이터 원본 또는 싱크 Azure Blob Storage 데이터 원본은 HTTP, FTP, 익명 HTTPS 또는 FTPS, Azure BLOB Storage의 파일, Azure 테이블, Azure SQL Database, 온-프레미스 SQL Server 데이터베이스, Hive 테이블 또는 OData 엔드포인트일 수 있습니다.
인증 유형 PublicOrSas

계정
tableAuthType 계정 데이터가 SAS URL을 통해 액세스할 수 있는 공용 컨테이너에 있는지 또는 액세스를 위해 인증이 필요한 프라이빗 스토리지 계정에 있는지 여부를 지정합니다.

공용 또는 SAS - 공용 스토리지 옵션

Name 범위 Type 기본값 설명
테이블 URI any String
SAS를 통해 속성 이름을 검색할 행 정수
SAS를 통한 TopN의 행 수

계정 - 프라이빗 스토리지 옵션

Name 범위 Type 기본값 설명
테이블 계정 이름
테이블 계정 키 any SecureString
테이블 이름 any
속성 이름을 검색할 행 TopN

ScanAll
TopN의 행 수 any 정수

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 다운로드한 데이터가 포함된 데이터 집합입니다.

예외

예외 설명
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0030 파일을 다운로드할 수 없으면 예외가 발생합니다.
오류 0002 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다.
오류 0009 Azure 저장소 계정 이름 또는 컨테이너 이름을 잘못 지정하는 경우 예외가 발생합니다.
오류 0048 파일을 열 수 없으면 예외가 발생합니다.
오류 0046 지정한 경로에 디렉터리를 만들 수 없으면 예외가 발생합니다.
오류 0049 파일을 구문 분석할 수 없으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

데이터 가져오기
데이터 내보내기
HTTP를 통해 웹 URL에서 가져오기
Hive 쿼리에서 가져오기
Azure SQL Database에서 가져오기
Azure Blob Storage에서 가져오기
데이터 피드 공급자에서 가져오기
온-프레미스 SQL Server 데이터베이스에서 가져오기