HTTP를 통해 웹 URL에서 가져오기

이 문서에서는 Azure Machine Learning Studio (클래식)의 데이터 가져오기 모듈을 사용 하 여 Machine Learning 실험에서 사용 하기 위해 공용 웹 페이지에서 데이터를 읽는 방법을 설명 합니다.

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

웹 페이지에 게시 된 데이터에는 다음과 같은 제한 사항이 적용 됩니다.

  • 데이터는 CSV, TSV, ARFF 또는 SvmLight의 지원 되는 형식 중 하나 여야 합니다. 다른 데이터는 오류를 발생 시킵니다.
  • 인증이 필요 하거나 지원 되지 않습니다. 데이터는 공개적으로 사용할 수 있어야 합니다.

HTTP를 통해 데이터를 가져오는 방법

데이터를 가져오는 방법에는 두 가지가 있습니다. 마법사를 사용 하 여 데이터 원본을 설정 하거나 수동으로 구성할 수 있습니다.

데이터 가져오기 마법사 사용

  1. 데이터 가져오기 모듈을 실험에 추가 합니다. 데이터 입력 및 출력 범주의 Studio (클래식)에서 모듈을 찾을 수 있습니다.

  2. 데이터 가져오기 마법사 시작 을 클릭 하 고 HTTP를 통해 웹 URL을 선택 합니다.

  3. URL에 붙여 넣고 데이터 형식을 선택 합니다.

  4. 구성이 완료 되 면 모듈을 마우스 오른쪽 단추로 클릭 하 고 선택 된 실행 을 선택 합니다.

기존 데이터 연결을 편집 하려면 마법사를 다시 시작 합니다. 마법사에서 모든 이전 구성 세부 정보를 로드 하므로 처음부터 다시 시작할 필요가 없습니다.

데이터 가져오기 모듈에서 수동으로 속성 설정

다음 단계에서는 가져오기 원본을 수동으로 구성 하는 방법을 설명 합니다.

  1. 데이터 가져오기 모듈을 실험에 추가 합니다. 데이터 입력 및 출력 범주의 Studio (클래식)에서 모듈을 찾을 수 있습니다.

  2. 데이터 원본 에 대해 HTTP를 통해 웹 URL 을 선택 합니다.

  3. Url 에 로드 하려는 데이터가 포함 된 페이지의 전체 url을 입력 하거나 붙여 넣습니다.

    URL에는 로드할 데이터를 포함 하는 페이지에 대 한 사이트 URL 및 전체 경로와 파일 이름 및 확장명이 포함 되어야 합니다.

    예를 들어, 다음 페이지에는 캘리포니아의 대학 Irvine 기계 학습 리포지토리의 Iri 데이터 집합이 포함 되어 있습니다.

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. 데이터 형식 의 경우 목록에서 지원 되는 데이터 형식 중 하나를 선택 합니다.

    항상 데이터를 미리 확인 하 여 형식을 결정 하는 것이 좋습니다. UC Irvine 페이지는 CSV 형식을 사용 합니다. 지원 되는 기타 데이터 형식은 TSV, ARFF 및 SvmLight입니다.

  5. 데이터가 CSV 또는 TSV 형식이 면 파일에 헤더 행 이 포함 되어 있는지 여부를 나타냅니다. 머리글 행은 열 이름을 할당 하는 데 사용 됩니다.

  6. 데이터를 크게 변경 하지 않을 경우 또는 실험을 실행할 때마다 데이터를 다시 로드 하지 않으려는 경우에는 캐시 된 결과 사용 옵션을 선택 합니다.

    이 옵션을 선택 하면 실험은 모듈이 처음 실행 될 때 데이터를 로드 하 고 이후에 캐시 된 버전의 데이터 집합을 사용 합니다.

    실험 데이터 집합의 각 반복에서 데이터 집합을 다시 로드 하려면 캐시 된 결과 사용 옵션을 선택 취소 합니다. 데이터 가져오기의 매개 변수가 변경 된 경우에도 결과가 다시 로드 됩니다.

  7. 실험을 실행합니다.

결과

완료 되 면 출력 데이터 집합을 클릭 하 고 시각화 를 선택 하 여 데이터를 성공적으로 가져왔는지 확인 합니다.

예제

공용 웹 사이트에서 데이터를 가져오는 기계 학습 실험의 Azure AI Gallery 에서 다음 예제를 참조 하세요.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

일반적인 질문

원본에서 읽을 때 데이터를 필터링 할 수 있습니다.

아니요. 이 옵션은이 데이터 원본에서 지원 되지 않습니다.

Azure Machine Learning Studio (클래식)로 데이터를 읽은 후에는 데이터 집합을 분할 하 고 샘플링을 사용 하 여 원하는 행만 가져올 수 있습니다.

  • R 스크립트 실행 에서 몇 가지 간단한 r 코드를 작성 하 여 행 또는 열을 기준으로 데이터의 일부를 가져옵니다.

  • 상대 식 또는 정규식과 함께 데이터 분할 모듈을 사용 하 여 원하는 데이터를 격리 합니다.

  • 필요한 것 보다 많은 데이터를 로드 한 경우 새 데이터 집합을 읽고 같은 이름으로 저장 하 여 캐시 된 데이터 집합을 덮어씁니다.

동일한 데이터를 불필요 하 게 다시 로드 하지 않도록 방지 하려면 어떻게 해야 하나요?

원본 데이터가 변경 되 면 데이터 집합을 새로 고치고 데이터 가져오기를 다시 실행 하 여 새 데이터를 추가할 수 있습니다.

실험을 실행할 때마다 원본에서 다시 읽지 않으려면 캐시 된 결과 사용 옵션을 TRUE로 선택 합니다. 이 옵션을 TRUE로 설정 하면 모듈이 이전에 동일한 원본 및 동일한 입력 옵션을 사용 하 여 실험을 실행 했는지 여부를 확인 합니다. 이전 실행을 찾은 경우 원본에서 데이터를 다시 로드 하는 대신 캐시의 데이터가 사용 됩니다.

데이터 집합의 끝에 추가 행이 추가 된 이유는 무엇 인가요?

데이터 가져오기 모듈이 빈 줄 이나 후행 줄 바꿈 문자 뒤에 오는 데이터 행을 발견 하는 경우 테이블의 끝에 추가 행이 추가 됩니다. 이 새 행에는 누락된 값이 포함되어 있습니다.

후행 새 줄을 새로운 행으로 해석 하는 이유는 데이터 가져오기 로 인해 실제 빈 줄과 사용자가 파일 끝에서 enter 키를 눌러 만든 빈 줄 간의 차이를 확인할 수 없기 때문입니다.

일부 기계 학습 알고리즘은 누락 된 데이터를 지원 하 고이 줄을 사례 (결과에 영향을 줄 수 있음)로 처리 하기 때문에 누락 된 데이터 정리 를 사용 하 여 누락 값 (특히 완전히 비어 있는 행)을 확인 하 고 필요에 따라 제거 해야 합니다.

빈 행을 확인 하기 전에 데이터 분할을 사용 하 여 데이터 집합을 분할할 수도 있습니다. 그러면 원본 데이터에 실제 누락 값을 표시하는 부분 누락 값이 있는 행을 구분합니다. 헤드 N 행 선택 옵션을 사용하여 데이터 집합의 첫 부분을 마지막 줄과 별도의 컨테이너로 읽어 옵니다.

원본 파일의 일부 문자가 올바르게 표시 되지 않는 이유는 무엇 인가요?

Azure Machine Learning UTF-8 인코딩을 지원 합니다. 원본 파일에서 다른 형식의 인코딩을 사용한 경우 문자를 올바르게 가져오지 못할 수 있습니다.

모듈 매개 변수

Name 범위 Type 기본값 설명
데이터 원본 목록 데이터 원본 또는 싱크 Azure Blob Storage 데이터 원본에는 HTTP, FTP, 익명 HTTPS 또는 FTPS, Azure BLOB 저장소의 파일, Azure 테이블, Azure SQL Database, 온-프레미스 SQL Server 데이터베이스, Hive 테이블 또는 OData 끝점이 있을 수 있습니다.
URL any String 없음 HTTP URL
데이터 형식 CSV

TSV

ARFF

SvmLight
데이터 형식 CSV HTTP 원본의 파일 형식
CSV 또는 TSV에 헤더 행이 있음 TRUE/FALSE 부울 false CSV 또는 TSV 파일에 머리글 행이 있는지 여부를 나타냅니다.
캐시 된 결과 사용 TRUE/FALSE 부울 FALSE 모듈은 유효한 캐시가 없는 경우에만 실행 됩니다. 그렇지 않으면 이전 실행에서 캐시 된 데이터가 사용 됩니다.

출력

Name Type 설명
결과 데이터 집합 데이터 테이블 다운로드한 데이터가 포함된 데이터 집합입니다.

예외

예외 설명
오류 0027 두 개체의 크기가 같아야 하지만 다른 경우 예외가 발생합니다.
오류 0003 입력 중 하나 이상이 null이거나 비어 있으면 예외가 발생합니다.
오류 0029 잘못된 URI가 전달되면 예외가 발생합니다.
오류 0030 파일을 다운로드할 수 없으면 예외가 발생합니다.
오류 0002 하나 이상의 매개 변수를 구문 분석할 수 없거나 지정된 형식을 대상 방법에 필요한 형식으로 변환할 수 없으면 예외가 발생합니다.
오류 0048 파일을 열 수 없으면 예외가 발생합니다.
오류 0046 지정한 경로에 디렉터리를 만들 수 없으면 예외가 발생합니다.
오류 0049 파일을 구문 분석할 수 없으면 예외가 발생합니다.

스튜디오 (클래식) 모듈과 관련 된 오류 목록은 Machine Learning 오류 코드를 참조 하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조 하세요.

참고 항목

데이터 가져오기
데이터 내보내기
Hive 쿼리에서 가져오기
Azure SQL Database에서 가져오기
Azure 테이블에서 가져오기
Azure Blob Storage에서 가져오기
데이터 피드 공급자에서 가져오기
온-프레미스 SQL Server 데이터베이스에서 가져오기