데이터 피드 공급자에서 가져오기

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 가져오기 모듈을 사용하여 OData 형식으로 제공된 데이터를 기계 학습 실험으로 가져오는 방법을 설명합니다.

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

데이터 집합에 대한 OData 엔드포인트를 만드는 것은 URL을 통해 데이터 모델을 사용할 수 있도록 하는 한 가지 방법입니다. 엔드포인트에서 지원할 OData 작업을 지정할 수도 있습니다. 엔드포인트를 만드는 Odata 방법에 대한 자세한 내용은 OData v4(ASP.NET)를 참조하세요.

피드에서 데이터를 가져오는 방법

스키마가 예상대로 작동하는지 확인하려면 가져오기 전에 데이터를 프로파일링하는 것이 좋습니다. 가져오기 프로세스는 몇 개의 헤드 행을 검사하여 스키마를 확인하지만 이후 행에는 추가 열 또는 오류를 일으키는 데이터가 포함될 수 있습니다.

데이터 가져오기 마법사 사용

이 모듈에는 스토리지 옵션을 선택하는 데 도움이 되는 새 마법사가 있습니다. 마법사를 사용하여 기존 구독 및 계정 중에서 선택하고 모든 옵션을 신속하게 구성합니다.

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 데이터 입력 및 출력 범주의 Studio(클래식)에서 모듈을 찾을 수 있습니다.

  2. 데이터 가져오기 마법사 시작을 클릭하고 프롬프트를 따릅니다.

  3. 구성이 완료되면 실제로 데이터를 실험에 복사하려면 모듈을 마우스 오른쪽 단추로 클릭하고 [선택됨 실행]을 선택합니다.

기존 데이터 연결을 편집해야 하는 경우 마법사는 모든 이전 구성 세부 정보를 로드하므로 처음부터 다시 시작할 필요가 없습니다.

데이터 가져오기 모듈에서 수동으로 속성 설정

가져오기 원본을 수동으로 구성할 수도 있습니다.

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 이 모듈은 Studio(클래식)의 데이터 입력 및 출력 범주에서 찾을 수 있습니다.

  2. 데이터 원본의 경우 데이터 피드 공급자를 선택합니다.

  3. 데이터 콘텐츠 형식의 경우 피드 유형을 선택합니다. 현재 OData 엔드포인트만 지원됩니다.

  4. 원본 URL의 경우 필요한 형식으로 데이터를 제공하는 사이트의 URL을 붙여넣습니다.

    예를 들어 다음 문은 Northwind 샘플 데이터베이스에서 제품 목록을 가져옵니다.

    https://services.odata.org/northwind/northwind.svc/Products

    자세한 내용은 OData 구문을 참조하세요.

  5. 데이터를 처음 로드할 필요가 없는 경우 캐시된 결과 사용 옵션을 선택합니다. 이 옵션은 실험 실행 간에 데이터가 변경되지 않을 경우 좋은 옵션입니다.

    모듈 매개 변수에 대한 다른 변경 내용이 없는 경우 실험은 모듈이 처음 실행될 때 데이터를 로드한 후 캐시된 버전의 데이터 세트를 사용합니다.

    정기적으로 데이터를 새로 고쳐야 하는 경우 이 옵션을 선택 취소합니다.

  6. 실험을 실행합니다.

결과

완료되면 출력 데이터 세트를 클릭하고 시각화 를 선택하여 데이터를 성공적으로 가져왔는지 확인합니다.

데이터 가져오기는 피드 데이터를 Studio(클래식)로 로드할 때 포함된 값(숫자 또는 범주)에 따라 각 열의 데이터 형식을 유추합니다.

  • 헤더가 있으면 헤더를 사용하여 출력 데이터 집합의 열 이름을 지정합니다.

  • 데이터에 기존 열 머리글이 없으면 형식 col1, col2,… ,coln을 사용하여 새 열 이름이 생성됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

OData 구문

쿼리는 플랫 테이블을 반환해야 합니다. 중첩된 OData 레코드 평면화는 지원되지 않습니다.

OData 피드에 포함된 일부 열에는 10진수와 같이 Studio(클래식)에서 지원되지 않는 데이터 형식이 있을 수 있습니다. R 스크립트 실행 또는 메타데이터 편집기 모듈을 사용하여 데이터를 문자열로 수집하고 나중에 변환할 수 있습니다.

OData 구문 및 URL에 대한 자세한 내용은 Odata.org - uri 규칙을 참조하세요.

일반적인 질문

원본에서 읽는 데이터를 필터링할 수 있나요?

데이터 가져오기 모듈은 일반적으로 데이터를 읽는 동안 필터링을 지원하지 않습니다. 그러나 피드 리소스 URL의 일부로 필터 조건을 지정할 수 있습니다.

피드에서 데이터를 필터링하려면 OData 프로토콜에서 지원하는 문을 사용합니다. 예를 들어 이 URL은 $filter 식을 사용하여 ID가 1인 직원과 관련된 주문만 가져옵니다.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

필터 구문의 더 많은 예제는 OData URI에서 필터 식 사용을 참조하세요.

또는 모든 데이터를 가져와서 Machine Learning Studio(클래식)로 로드한 후 필터링할 수 있습니다.

  • 사용자 지정 R 스크립트를 사용하여 원하는 데이터만 가져옵니다.

  • 데이터 분할 모듈을 상대 식 또는 정규식과 함께 사용하여 원하는 데이터를 격리한 다음 데이터 세트로 저장합니다.

참고

필요 이상으로 많은 데이터를 로드한 경우 새 데이터 집합을 읽은 다음 더 오래되고 크기가 큰 데이터와 같은 이름으로 저장하여 캐시된 데이터 집합을 덮어쓸 수 있습니다.

OData 원본에 연결하려면 자격 증명이 필요합니다. 오류가 발생합니다. 계속하려면 자격 증명을 새로 고치고 제공하세요. 자격 증명을 어떻게 제공할 수 있나요?**

데이터 가져오기 모듈은 익명 액세스 권한이 있는 OData 엔드포인트만 지원합니다. OData 서비스에 자격 증명이 필요한 경우 OData 옵션을 사용하여 데이터를 가져올 수 없습니다.

그러나 서비스가 동일한 도메인에 있는 경우 사용자 입력 없이 인증이 자동으로 수행될 수 있습니다.

해결 방법으로 PowerQuery 또는 PowerPivot 사용하여 피드 데이터를 읽은 다음 Excel 데이터를 가져올 수 있습니다.

동일한 데이터를 불필요하게 다시 로드하지 않도록 하시겠습니까?

원본 데이터가 변경되면 데이터 가져오기를 다시 실행하여 데이터 세트를 새로 고치고 새 데이터를 추가할 수 있습니다. 그러나 실험을 실행할 때마다 원본에서 다시 읽지 않으려면 캐시된 결과 사용 옵션을 TRUE로 선택합니다. 이 옵션을 TRUE로 설정하면 모듈은 동일한 원본 및 동일한 입력 옵션을 사용하여 실험이 이전에 실행되었는지 확인하고, 이전 실행이 발견되면 원본에서 데이터를 다시 로드하는 대신 캐시의 데이터가 사용됩니다.

"Decimal 유형이 지원되지 않습니다."라는 오류 메시지가 표시되는 이유는 무엇인가요?

데이터 형식은 decimal Machine Learning 지원되지 않습니다. 그 이유는 데이터 가져오기 가 정밀도 손실을 초래하는 변환을 자동으로 수행할 수 없기 때문입니다.

지원되는 데이터 형식에 대한 자세한 내용은 모듈 데이터 형식을 참조하세요.

해결 방법으로 데이터를 문자열 데이터 형식으로 읽은 다음 메타데이터 편집 을 사용하여 데이터를 읽기 전에 소수를 지원되는 데이터로 변환할 수 있습니다.

피드의 일부 문자가 올바르게 표시되지 않는 이유는 무엇인가요?

Machine Learning UTF-8 인코딩을 지원합니다. 원본에서 다른 유형의 인코딩을 사용하는 경우 문자를 올바르게 가져오지 못할 수 있습니다.

해결 방법으로 Azure Table Storage 또는 Azure Blob Storage의 CSV 파일에 데이터를 저장할 수 있습니다. 그런 다음 인 코딩과 함께 CSV 옵션을 사용하여 사용자 지정 구분 기호, 코드 페이지 등에 대한 매개 변수를 지정합니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
데이터 원본 목록 데이터 원본 또는 싱크 Azure Blob Storage 데이터 원본은 HTTP, FTP, 익명 HTTPS 또는 FTPS, Azure BLOB Storage의 파일, Azure 테이블, Azure SQL Database, 온-프레미스 SQL Server 데이터베이스, Hive 테이블 또는 OData 엔드포인트일 수 있습니다.
데이터 콘텐츠 형식 목록(하위 집합) URL 내용 OData 데이터 형식 유형
원본 URL any String Power Query 데이터 원본에 대한 URL
캐시된 결과 사용 TRUE/FALSE 부울 FALSE description

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 다운로드한 데이터가 포함된 데이터 집합입니다.

예외

예외 설명
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0030 파일을 다운로드할 수 없으면 예외가 발생합니다.
오류 0002 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

데이터 가져오기
데이터 내보내기
HTTP를 통해 웹 URL에서 가져오기
Hive 쿼리에서 가져오기
Azure SQL Database에서 가져오기
Azure Table에서 가져오기
Azure Blob Storage에서 가져오기
온-프레미스 SQL Server 데이터베이스에서 가져오기