기본 통계 컴퓨팅

아티클
05/06/2019

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
Azure Machine Learning에 대한 자세한 정보.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

선택한 데이터 집합 열에 대한 지정된 요약 통계 계산

범주: 통계 함수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 컴퓨팅 기본 통계 모듈을 사용하여 평균, 표준 편차 및 선택한 각 열의 값 범위와 같은 주요 통계를 나열하는 데이터 세트에 대한 요약 보고서를 생성하는 방법을 설명합니다.

중심 집중 경향, 분산, 데이터 형태 등을 분석하려는 경우 이 보고서가 유용합니다.

컴퓨팅 기본 통계를 구성하는 방법

실험에 컴퓨팅 기본 통계 모듈을 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.
분석하려는 열이 포함된 데이터 세트를 커넥트.
메서드 드롭다운 목록을 클릭하고 각 열에 대해 계산할 값 유형을 선택합니다.

사용 가능한 통계의 전체 목록과 그 의미는 지원되는 통계 섹션을 참조하세요.
기본적으로 메서드 드롭다운 목록에서 선택한 값은 숫자 데이터 형식이 있는 데이터 세트의 모든 열에 대해 계산됩니다. 값이 계산되지 않도록 하는 값이 열에 있으면 오류가 발생하고 보고서가 만들어지지 않습니다.

이 오류를 방지하려면 열 선택기를 사용하여 보고서를 만들 숫자 열을 선택합니다. 선택한 모든 열은 숫자여야 합니다.
실험을 실행합니다.

결과

생성된 보고서에는 각 열의 이름과 계산된 통계가 포함됩니다. 예를 들어 다음 표에서는 mpg 열에 대해 생성된 통계를 보여 줍니다.

DeviationSquared(mpg)	Max(mpg)	Min(mpg)
9674.312	25.21951	13

팁

컴퓨팅 기본 통계를 실행할 때마다 선택한 각 열에 대해 단일 요약 통계만 생성할 수 있습니다. 그러나 앞의 예제 와 같이 열 추가 또는 행 추가 모듈을 사용하여 결과를 단일 테이블로 병합할 수 있습니다.

지원되는 통계

이 모듈은 다음과 같은 표준 설명 통계를 지원합니다.

제곱 편차

열 값의 제곱 편차 를 계산합니다. 제곱의 합이라고도 합니다.

제곱 편차는 평균에서 값이 분산되는 정도를 측정한 값입니다.

기하 평균

열 값의 기하 평균 을 계산합니다.

기하 평균은 숫자 집합의 중심 경향을 측정하는 데 사용할 수 있습니다. 산술 평균에 비해 극단 값의 적은 수의 영향을 덜 받습니다. 비교되는 숫자의 배율을 효과적으로 정규화하므로 다른 눈금의 측정값을 비교하는 데도 사용할 수 있습니다. 기하학적 수단은 때때로 복합 연간 성장률을 추정하는 데 사용됩니다.

Excel 동일한 함수는 GEOMEAN입니다.

조화 평균

열 값의 고조파 평균 을 계산합니다.

고조파 평균을 계산하기 위해 모든 값이 상호로 변환된 다음 해당 값의 평균을 가져옵니다. 고조파 평균은 해당 평균의 상호입니다. 열 값이 양수이면 더 큰 숫자의 가중치가 더 작은 숫자보다 작습니다.

고조파 평균은 항상 산술 평균보다 작은 기하 평균보다 작습니다. 고조파 평균은 속도(시간별 거리) 또는 분기별 판매와 같은 속도를 나타내는 평균 변수에 유용합니다.

Excel 해당하는 함수는 HARMEAN입니다.

사분위수 거리

열 값의 첫 번째 사분위수와 마지막 사분위수의 사분위수 차이를 계산합니다. 사분위수 범위라고도 함. 사분위수가 두 숫자 사이에 있는 경우 사분위수 값은 절단의 양쪽에 있는 두 값의 평균입니다.

사분위수 값은 값의 열을 값 수가 같은 4개의 그룹으로 나눕니다. 따라서 값의 1/4이 25번째 백분위수보다 작거나 같습니다. 값의 3분의 1이 75번째 백분위수보다 작거나 같습니다. 사분위수 범위를 검토하여 데이터 값이 얼마나 광범위하게 분산되는지 파악할 수 있습니다.

K번째 중심 모멘트

열 값에 대한 K-th 중심 순간을 계산합니다.

K-th 중심 순간을 계산할 때는 k 값을 의미하는 순서도 지정해야 합니다. k 값은 0에서 허용되는 정수 값까지 다양할 수 있지만 더 높은 순서 값은 일반적으로 의미가 없습니다.

일반적으로 설명 통계에서 순간은 점 집합의 모양을 설명하는 측정값입니다. 중앙 순간은 평균에 대한 순간이며 일반적으로 분포의 모양에 대한 더 나은 정보를 제공하기 때문에 사용됩니다. 2의 순서는 일반적으로 분산을 나타냅니다. 4의 순서는 첨도에 사용됩니다. 첫 번째 주문 순간은 평균입니다. 따라서 모든 순간의 컬렉션은 열의 값 분포를 고유하게 설명합니다.

Max

열에서 최대값 을 찾습니다.

평균

열 값의 산술 평균 을 계산합니다.

Excel 해당하는 함수는 AVERAGE입니다.

평균 편차

열 값의 평균 절대 편차 를 계산합니다.

즉, 평균은 열에 대해 계산되고 열의 각 값에 대해 계산되는 편차입니다. 개별 편차 값의 절대값 평균은 평균 편차입니다.

이 통계는 숫자 열의 평균에서 얼마나 분산되는지를 알려줍니다.

중앙값

열 값의 중앙값 을 반환합니다.

중앙값은 숫자 열 가운데에 있는 숫자입니다. 열에 짝수의 숫자가 있는 경우 중앙값은 중간에 있는 두 숫자의 평균입니다.

평균 및모드와 함께 중앙값은 중앙 경향을 측정하는 세 가지 통계 중 하나입니다. 값이 평균을 기준으로 대칭이면 세 숫자는 거의 동일합니다. 그러나 중앙값은 평균보다 이상값에 더 강력합니다.

중앙값 편차

열의 중앙값 편차 를 계산합니다.

즉, 중앙값은 열에 대해 계산되고 열의 각 값에 대해 편차가 계산됩니다. 개별 편차 값의 절대값의 중앙값을 가져옵니다.

중간 절대 편차를 MAD라고도 하며 숫자 샘플의 가변성을 설명하는 데 사용됩니다. MAD는 숫자 열의 평균에서 얼마나 분산되는지 알려줍니다.

최소값

열 값의 최소값 을 반환합니다.

모드

열 의 모든 모드 를 찾습니다.

모드는 열에 가장 자주 표시되는 값입니다. 여러 값이 동일한 횟수만큼 표시되면 열에 여러 모드가 있을 수 있습니다.

중앙 경향의 척도로, 모드는 평균보다 이상값에 더 강력하며 명목 데이터와 함께 사용할 수도 있습니다.

모집단 표준 편차

열 값의 모집단 표준 편차 를 계산합니다.

이 통계에서는 열 값이 전체 모집단을 나타낸다고 가정합니다. 데이터가 모집단의 샘플인 경우 샘플 표준 편차를 사용하여 표준 편차를 계산해야 합니다. 그러나 큰 데이터 세트의 두 통계는 거의 동일한 값을 반환합니다.

표준 편차는 열 분산의 제곱근으로 계산됩니다. 이 통계는 열의 가변성 양을 캡처합니다.

모집단 분산

열 값의 모집단 분산 을 계산합니다.

분산은 숫자 집합이 분산되는 정도를 측정합니다. 분산이 0이면 모든 숫자가 동일합니다.

이 통계에서는 값 열이 전체 모집단을 나타낸다고 가정합니다. 데이터에 값 샘플만 포함된 경우 샘플 분산을 사용하여 분산을 계산해야 합니다.

해당하는 Excel 함수는 .입니다VAR.P.

제품

열 요소의 곱 을 계산합니다.

제품을 가져오기 위해 열에 있는 모든 숫자를 여러 개 표시합니다. 결과는 그 자체로 설명 통계로 유용하지 않지만 함수는 다양한 다른 계산에 유용합니다.

범위

열 값의 범위를 계산합니다. 범위는 최댓값에서 최소값을 뺀 값으로 정의됩니다.

샘플 첨도

열 값에 대한 샘플 첨도 를 계산합니다.

첨도는 값 분포의 모양을 설명합니다. 즉, 값의 분포가 정규 분포와 비교하여 얼마나 최대치 또는 평탄화되는지를 설명합니다.

정상 분포의 첨도는 0입니다.
높은 첨도 값은 확률 질량이 피크 주위 또는 분포의 꼬리에 집중되어 있음을 나타냅니다.
음의 첨도 값은 상대적으로 평평한 분포를 나타냅니다.

샘플 왜곡도

열 값의 샘플 기울이기를 계산합니다.

Skew는 값의 대부분이 가운데에 있는지, 왼쪽으로 이동했는지, 오른쪽으로 이동했는지를 설명합니다. 두 분포는 평균과 표준 편차가 동일할 수 있지만 모양이 매우 다를 수 있습니다. 기울이기와 첨도를 사용하여 도형의 특징을 지정할 수 있습니다.

음수 기울이기 값은 분포가 왼쪽으로 기울어진 것을 의미합니다.
0은 일반 분포를 표시합니다.
양수 기울이기 값은 분포가 오른쪽으로 기울어진 것을 의미합니다.

샘플 표준 편차

열 값에 대한 샘플 표준 편차 를 계산합니다.

샘플의 표준 편차는 열의 값이 평균에서 어떻게 분산되는지를 측정합니다. 집합의 데이터 값과 평균 사이의 평균 거리를 나타냅니다.

이 통계에서는 열 값이 모집단의 샘플을 나타낸다고 가정합니다. 데이터가 전체 모집단을 나타내는 경우 Population 표준 편차를 사용하여 표준 편차를 계산해야 합니다.

동등한 Excel 함수는 ST입니다. DEV.S.

샘플 분산

열 값의 샘플 분산 을 계산합니다.

이 메서드는 열 값이 모집단의 샘플을 나타낸다고 가정합니다. 열에 전체 채우기가 포함된 경우 Population 표준 분산을 사용해야 합니다.

동등한 Excel 함수는 VAR.S입니다.

합계

열 값의 합계 를 계산합니다.

예

Azure AI 갤러리의 다음 실험에서는 전체 데이터 세트에 대한 설명이 포함된 요약 보고서를 만드는 방법을 보여 줍니다. 요약 보고서에는 일반 통계만 포함됩니다. 그러나 컴퓨팅 기본 통계의 옵션을 사용하여 데이터 세트로 저장한 다음 더 자세한 통계를 추가할 수 있습니다.

UCI에서 데이터 세트 다운로드: 데이터 요약 모듈은 데이터 세트의 모든 열에 대한 요약 보고서를 생성하는 데 사용됩니다.
데이터 세트 처리 및 분석: 데이터 요약 모듈은 데이터 세트의 모든 열에 대한 요약 보고서를 생성하는 데 사용됩니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

팁

컴퓨팅 기본 통계 모듈을 사용하는 경우 다음 조건을 충족해야 합니다.

선택한 통계를 계산하려면 충분한 수의 데이터 요소(행)가 있어야 합니다. 예를 들어 샘플 표준 편차 를 계산하려면 두 개 이상의 데이터 요소가 필요합니다. 그렇지 않으면 결과는 NaN입니다.
입력 열은 숫자 또는 부울 열이어야 합니다.

기본적으로 모든 숫자 열이 선택됩니다. 그러나 숫자 열이 범주로 표시된 경우 다음과 같은 오류가 발생할 수 있습니다. "오류 0056: 이름 열 이름이 <> 있는 열이 허용된 범주에 있지 않습니다." 오류를 해결하려면 메타데이터 편집 모듈의 인스턴스를 추가하고 문제가 있는 열을 선택한 다음 범주 제거 옵션을 사용합니다.

구현 세부 정보

부울 열은 다음과 같이 처리됩니다.

MIN은 논리 AND로 계산됩니다.
MAX는 논리 OR로 계산됩니다.
RANGE는 열의 고유 값 수가 2인지 여부를 확인합니다.
누락된 값은 무시됩니다.
부동 소수점 계산을 수행해야 하는 통계의 경우 True = 1.0, False = 0.0입니다.

예상 입력

Name	유형	설명
데이터 세트	데이터 테이블	입력 데이터 세트

모듈 매개 변수

Name	범위	Type	기본값	설명
메서드	목록	기본 통계 방법		계산에 사용할 통계 메서드를 선택합니다. 값 목록에 대한 섹션을 사용하는 방법을 참조하세요.
열 집합	any	ColumnSelection	NumericAll	통계를 계산할 열을 선택합니다.
주문	>=1	정수	3	중앙 순간 순서의 값을 지정합니다(kth 중앙 순간에만 사용됨).

출력

Name	유형	설명
결과 데이터 집합	데이터 테이블	출력 데이터 세트

예외

예외	설명
오류 0017	하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

통계 함수
기본
데이터 요약
전체 모듈 목록