HTTP를 통해 웹 URL에서 가져오기

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

이 문서에서는 Machine Learning Studio(클래식)의 데이터 가져오기 모듈을 사용하여 기계 학습 실험에 사용할 공용 웹 페이지에서 데이터를 읽는 방법을 설명합니다.

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

웹 페이지에 게시된 데이터에는 다음과 같은 제한 사항이 적용됩니다.

  • 데이터는 CSV, TSV, ARFF 또는 SvmLight와 같은 지원되는 형식 중 하나여야 합니다. 다른 데이터로 인해 오류가 발생합니다.
  • 인증이 필요하거나 지원되지 않습니다. 데이터는 공개적으로 사용할 수 있어야 합니다.

HTTP를 통해 데이터를 가져오는 방법

데이터를 가져오는 방법에는 마법사를 사용하여 데이터 원본을 설정하거나 수동으로 구성하는 두 가지 방법이 있습니다.

데이터 가져오기 마법사 사용

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 데이터 입력 및 출력 범주의 Studio(클래식)에서 모듈을 찾을 수 있습니다.

  2. 데이터 가져오기 마법사 시작을 클릭하고 HTTP를 통해 웹 URL을 선택합니다.

  3. URL에 붙여넣고 데이터 형식을 선택합니다.

  4. 구성이 완료되면 모듈을 마우스 오른쪽 단추로 클릭하고 [선택됨] 실행을 선택합니다.

기존 데이터 연결을 편집하려면 마법사를 다시 시작합니다. 마법사는 처음부터 다시 시작할 필요가 없도록 모든 이전 구성 세부 정보를 로드합니다.

데이터 가져오기 모듈에서 수동으로 속성 설정

다음 단계에서는 가져오기 원본을 수동으로 구성하는 방법을 설명합니다.

  1. 데이터 가져오기 모듈을 실험에 추가합니다. 데이터 입력 및 출력 범주의 Studio(클래식)에서 모듈을 찾을 수 있습니다.

  2. 데이터 원본의 경우 HTTP를 통해 웹 URL을 선택합니다.

  3. URL의 경우 로드할 데이터가 포함된 페이지의 전체 URL을 입력하거나 붙여넣습니다.

    URL에는 로드할 데이터가 포함된 페이지에 대한 사이트 URL과 파일 이름 및 확장명을 포함한 전체 경로가 포함되어야 합니다.

    예를 들어 다음 페이지에는 캘리포니아 대학교 어바인의 기계 학습 리포지토리에 있는 아이리스 데이터 세트가 포함되어 있습니다.

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. 데이터 형식의 경우 목록에서 지원되는 데이터 형식 중 하나를 선택합니다.

    항상 미리 데이터를 확인하여 형식을 확인하는 것이 좋습니다. UC 어바인 페이지는 CSV 형식을 사용합니다. 다른 지원되는 데이터 형식은 TSV, ARFF 및 SvmLight입니다.

  5. 데이터가 CSV 또는 TSV 형식인 경우 파일의 머리글 행 옵션을 사용하여 원본 데이터에 헤더 행이 포함되는지 여부를 나타냅니다. 머리글 행은 열 이름을 할당하는 데 사용됩니다.

  6. 데이터가 많이 변경되지 않거나 실험을 실행할 때마다 데이터를 다시 로드하지 않으려면 캐시된 결과 사용 옵션을 선택합니다.

    이 옵션을 선택하면 모듈이 처음 실행될 때 실험에서 데이터를 로드하고, 그 후에는 캐시된 버전의 데이터 세트를 사용합니다.

    실험 데이터 세트의 각 반복에서 데이터 세트를 다시 로드하려면 캐시된 결과 사용 옵션을 선택 취소합니다. 데이터 가져오기의 매개 변수가 변경된 경우에도 결과가 다시 로드됩니다.

  7. 실험을 실행합니다.

결과

완료되면 출력 데이터 세트를 클릭하고 시각화 를 선택하여 데이터를 성공적으로 가져왔는지 확인합니다.

공용 웹 사이트에서 데이터를 가져오는 기계 학습 실험의 Azure AI 갤러리 에서 다음 예제를 참조하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

일반적인 질문

원본에서 읽는 데이터를 필터링할 수 있나요?

아니요. 이 옵션은 이 데이터 원본에서 지원되지 않습니다.

데이터를 Machine Learning Studio(클래식)로 읽은 후 데이터 세트를 분할하고 샘플링을 사용하여 원하는 행만 가져올 수 있습니다.

  • R 스크립트 실행에서 간단한 R 코드를 작성하여 행 또는 열별로 데이터의 일부를 가져옵니다.

  • 데이터 분할 모듈을 상대 식 또는 정규식과 함께 사용하여 원하는 데이터를 격리합니다.

  • 필요한 것보다 많은 데이터를 로드한 경우 새 데이터 세트를 읽고 동일한 이름으로 저장하여 캐시된 데이터 세트를 덮어씁니다.

동일한 데이터를 불필요하게 다시 로드하지 않도록 방지할 수 있는 방법

원본 데이터가 변경되면 데이터 가져오기를 다시 실행하여 데이터 세트를 새로 고치고 새 데이터를 추가할 수 있습니다.

실험을 실행할 때마다 원본에서 다시 읽지 않으려면 캐시된 결과 사용 옵션을 TRUE로 선택합니다. 이 옵션을 TRUE로 설정하면 모듈은 동일한 원본 및 동일한 입력 옵션을 사용하여 실험이 이전에 실행되었는지 여부를 확인합니다. 이전 실행이 발견되면 원본에서 데이터를 다시 로드하는 대신 캐시의 데이터가 사용됩니다.

데이터 세트의 끝에 추가 행이 추가된 이유

데이터 가져오기 모듈이 빈 줄 또는 후행 새 줄 문자 뒤에 있는 데이터 행을 발견하면 테이블 끝에 추가 행이 추가됩니다. 이 새 행에는 누락된 값이 포함되어 있습니다.

후행 새 줄을 새 행으로 해석하는 이유는 데이터 가져오기 에서 실제 빈 줄과 파일 끝에서 Enter 키를 눌러 만든 빈 줄 간의 차이를 확인할 수 없기 때문입니다.

일부 기계 학습 알고리즘은 누락된 데이터를 지원하므로 이 줄을 사례로 처리하므로(결과에 영향을 줄 수 있음) 누락된 데이터 정리 를 사용하여 누락된 값(특히 완전히 비어 있는 행)을 확인하고 필요에 따라 제거해야 합니다.

빈 행을 확인하기 전에 데이터 분할을 사용하여 데이터 세트를 나눌 수도 있습니다. 그러면 원본 데이터에 실제 누락 값을 표시하는 부분 누락 값이 있는 행을 구분합니다. 헤드 N 행 선택 옵션을 사용하여 데이터 집합의 첫 부분을 마지막 줄과 별도의 컨테이너로 읽어 옵니다.

원본 파일의 일부 문자가 올바르게 표시되지 않는 이유

Machine Learning UTF-8 인코딩을 지원합니다. 원본 파일에서 다른 형식의 인코딩을 사용한 경우 문자를 올바르게 가져오지 못할 수 있습니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
데이터 원본 목록 데이터 원본 또는 싱크 Azure Blob Storage 데이터 원본은 HTTP, FTP, 익명 HTTPS 또는 FTPS, Azure BLOB Storage의 파일, Azure 테이블, Azure SQL Database, 온-프레미스 SQL Server 데이터베이스, Hive 테이블 또는 OData 엔드포인트일 수 있습니다.
URL any String 없음 HTTP에 대한 URL
데이터 형식 CSV

TSV

ARFF

SvmLight
데이터 형식 CSV HTTP 원본의 파일 형식
CSV 또는 TSV에 헤더 행이 있음 TRUE/FALSE 부울 false CSV 또는 TSV 파일에 머리글 행이 있는지 여부를 나타냅니다.
캐시된 결과 사용 TRUE/FALSE 부울 FALSE 모듈은 유효한 캐시가 없는 경우에만 실행됩니다. 그렇지 않으면 이전 실행에서 캐시된 데이터가 사용됩니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 다운로드한 데이터가 포함된 데이터 집합입니다.

예외

예외 설명
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0030 파일을 다운로드할 수 없으면 예외가 발생합니다.
오류 0002 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다.
오류 0048 파일을 열 수 없으면 예외가 발생합니다.
오류 0046 지정한 경로에 디렉터리를 만들 수 없으면 예외가 발생합니다.
오류 0049 파일을 구문 분석할 수 없으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.

참고 항목

데이터 가져오기
데이터 내보내기
Hive 쿼리에서 가져오기
Azure SQL Database에서 가져오기
Azure Table에서 가져오기
Azure Blob Storage에서 가져오기
데이터 피드 공급자에서 가져오기
온-프레미스 SQL Server 데이터베이스에서 가져오기