기본 통계 컴퓨팅

선택한 데이터 집합 열에 대한 지정된 요약 통계 계산

범주: 통계 함수

참고

적용 대상: Machine Learning Studio (클래식)

이 콘텐츠는 Studio (클래식)에만 해당 됩니다. Azure Machine Learning 디자이너에는 비슷한 끌어서 놓기 모듈이 추가 되었습니다. 이 문서에서는 두 가지 버전을 비교 하는방법에 대해 자세히 알아보세요.

모듈 개요

이 문서에서는 Azure Machine Learning Studio (클래식)에서 계산 기본 통계 모듈을 사용 하 여 평균, 표준 편차 및 선택 된 각 열에 대 한 값 범위와 같은 주요 통계를 나열 하는 데이터 집합에 대 한 요약 보고서를 생성 하는 방법을 설명 합니다.

중심 집중 경향, 분산, 데이터 형태 등을 분석하려는 경우 이 보고서가 유용합니다.

계산 기본 통계를 구성 하는 방법

  1. 계산 기본 통계 모듈을 실험에 추가 합니다. 이 모듈은 Azure Machine Learning Studio (클래식)의 통계 함수 범주에서 찾을 수 있습니다.

  2. 분석 하려는 열이 포함 된 데이터 집합을 연결 합니다.

  3. 메서드 드롭다운 목록을 클릭 하 고 각 열에 대해 계산 하려는 값의 유형을 선택 합니다.

    사용 가능한 통계 및 의미에 대 한 전체 목록은 지원 되는 통계 섹션을 참조 하세요.

  4. 기본적으로 메서드 드롭다운 목록에서 선택한 값은 데이터 집합에서 숫자 데이터 형식의 모든 열에 대해 계산 됩니다. 값이 계산 되지 않도록 하는 값이 있는 열이 있으면 오류가 발생 하 고 보고서가 생성 되지 않습니다.

    이 오류를 방지 하려면 열 선택기를 사용 하 여 보고서를 원하는 숫자 열을 선택 합니다. 선택 하는 모든 열은 숫자 여야 합니다.

  5. 실험을 실행합니다.

결과

생성 된 보고서에는 각 열의 이름과 계산 된 통계가 포함 됩니다. 예를 들어 다음 표에서는 mpg 열에 대해 생성 된 통계를 보여 줍니다.

DeviationSquared (mpg) 최대 (mpg) 최소 (mpg)
9674.312 25.21951 13

계산 기본 통계를 실행할 때마다 선택 된 각 열에 대해 요약 통계를 하나만 생성할 수 있습니다. 그러나 앞의 예제와 같이 열 추가 또는 행 추가 모듈을 사용 하 여 결과를 단일 테이블에 병합할 수 있습니다.

지원 되는 통계

이 모듈은 다음과 같은 표준 설명 통계를 지원 합니다.

제곱 편차

열 값의 제곱 편차 를 계산 합니다. 제곱의 합계 라고도 합니다.

제곱 편차는 값이 평균에서 분산 되는 정도를 측정 한 것입니다.

기하 평균

열 값의 기 하 평균 을 계산 합니다.

기하학 평균은 숫자 집합의 중심 추세를 측정 하는 데 사용할 수 있습니다. 산술 평균과 비교 하 여 적은 수의 극단적인 값으로 영향을 받지 않습니다. 비교 하는 숫자의 소수 부분을 효과적으로 정규화 하므로 여러 눈금에서 측정값을 비교 하는 데 사용할 수도 있습니다. 기하학는 간혹 연간 성장률을 계산 하는 데 사용 됩니다.

Excel의 동급 함수는 GEOMEAN입니다.

조화 평균

열 값의 조화 평균 을 계산 합니다.

조화 평균을 계산 하기 위해 모든 값이 해당 reciprocals으로 변환 된 다음 해당 값의 평균이 계산 됩니다. 조화 평균은 해당 평균의 역 수입니다. 열 값이 양수 이면 숫자가 더 작은 숫자 보다 작습니다.

조화 평균은 항상 산술 평균 보다 작은 기하학 평균 보다 낮습니다. 조화 평균은 속도 (시간에 따른 거리) 또는 사분기 판매량 등 속도를 나타내는 평균 변수에 유용 합니다.

Excel의 동급 함수는 HARMEAN입니다.

사분위수 거리

열 값의 첫 번째 및 마지막 변 위치차이 를 계산 합니다. 사분 위 수 범위가 라고도 합니다. 가 두 숫자 사이에 있는 경우 사분 위 수 값은 양쪽 끝의 두 값에 대 한 평균입니다.

사분 위 수 값은 값이 같은 4 개의 그룹으로 값의 열을 나눕니다. 따라서 값의 한 분기가 25 번째 백분위 수 보다 작거나 같습니다. 값의 3/4은 75 번째 백분위 수 보다 작거나 같습니다. 사분 위 수 범위를 검토 하 여 데이터 값을 광범위 하 게 분산 하는 방법을 파악할 수 있습니다.

K번째 중심 모멘트

열 값의 K 번째 중부 순간 을 계산 합니다.

K 번째 중부 순간을 계산할 때 순서 를 지정 해야 합니다. 즉, 값을 k로 지정 해야 합니다. K 값의 범위는 0에서 허용 되는 모든 정수 값이 될 수 있지만, 더 높은 순서 값은 일반적으로 의미가 없습니다.

일반적으로 설명 통계에서 순간은 점의 집합 셰이프를 설명 하는 측정값입니다. 가장 중요 한 것은 분포의 모양에 대 한 더 나은 정보를 제공 하기 때문에 일반적으로 사용 되는 평균에 대 한 분입니다. 2의 순서는 일반적으로 차이를 나타냅니다. 첨도에는 4의 순서가 사용 됩니다. 첫 번째 순서는 평균입니다. 따라서 모든 분의 컬렉션은 열의 값 분포를 고유 하 게 설명 합니다.

Max

열의 최대값 을 찾습니다.

평균

열 값의 산술 평균 을 계산 합니다.

Excel의 동급 함수는 평균입니다.

평균 편차

열 값에 대 한 평균 절대 편차 를 계산 합니다.

즉, 평균은 열에 대해 계산 되 고, 열의 각 값에 대해 계산 된 편차는 계산 됩니다. 개별 편차 값의 절대값은 평균 편차입니다.

이 통계는 숫자 열에 대 한 평균과의 분포를 보여 줍니다.

중앙값

열 값의 중앙값 을 반환 합니다.

중앙값은 숫자 열의 중간에 있는 숫자입니다. 열에 짝수 개수의 숫자가 있으면 중앙값은 가운데에 있는 두 숫자의 평균입니다.

중앙값은 평균모드 와 함께 중앙 추세를 측정 하는 세 가지 통계 중 하나입니다. 값이 평균을 기준으로 대칭 이동 하는 경우에는 세 개의 숫자가 동일 합니다. 그러나 중앙값이 평균 보다 더 강력 합니다.

중앙값 편차

열의 중앙값 을 계산 합니다.

즉, 열에 대해 중앙값을 계산 하 고 열의 각 값에 대해 계산 된 편차를 계산 합니다. 개별 편차 값의 절대값 값의 중앙값을 가져옵니다.

중간 절대 편차는 매드 라고도 하며 숫자 샘플의 산포도를 설명 하는 데 사용 됩니다. 여기서는 숫자 열이 무엇 인지에 대 한 평균에서 분산 되는 방식을 알려줍니다.

최소값

열 값의 최 솟 값 을 반환 합니다.

모드

열에 대 한 모든 모드 를 찾습니다.

모드는 열에서 가장 큰 값을 표시 하는 값입니다. 여러 값이 동일한 횟수로 표시 되는 경우 열에 여러 개의 모드가 있을 수 있습니다.

중부 추세를 측정 한 것으로, 모드는 평균 보다 이상 값에 더 강력 하며, 명목상 데이터에도 사용할 수 있습니다.

모집단 표준 편차

열 값에 대 한 모집단 표준 편차 를 계산 합니다.

이 통계에서는 열 값이 전체 모집단을 나타내는 것으로 가정 합니다. 데이터가 모집단의 샘플 인 경우에는 샘플 표준 편차 를 사용 하 여 표준 편차를 계산 해야 합니다. 그러나 많은 데이터 집합에서 두 통계는 거의 같은 값을 반환 합니다.

표준 편차는 열 분산의 제곱근으로 계산 됩니다. 이 통계는 열의 변동 정도를 캡처합니다.

모집단 분산

열 값에 대 한 모집단 분산 을 계산 합니다.

분산은 분산 된 숫자 집합의 양을 측정 합니다. 분산이 0 이면 모든 숫자가 동일 합니다.

이 통계에서는 값의 열이 전체 모집단을 나타내는 것으로 가정 합니다. 데이터에 값의 샘플만 포함 되어 있는 경우 표본 분산 을 사용 하 여 분산을 계산 해야 합니다.

해당 하는 Excel 함수는 VAR.P 입니다.

제품

열 요소의 곱을 계산 합니다.

제품을 얻으려면 열에 있는 모든 숫자를 여러 개 사용할 수 있습니다. 결과는 설명 통계로는 유용 하지 않지만 함수는 다양 한 다른 계산에 유용 합니다.

범위

열 값의 범위 를 계산 합니다. 범위는 최 댓 값에서 최소값을 뺀 값으로 정의 됩니다.

샘플 첨도

열 값에 대 한 샘플 첨도 를 계산 합니다.

첨도는 정규 분포와 비교 하 여 값 분포의 모양 (값 분포의 뾰족한 또는 플랫)을 설명 합니다.

  • 정규 분포의 첨도는 0입니다.

  • 가 중 값이 높으면 확률 질량이 피크 또는 분포의 비상 주위에 집중 되어 있음을 의미 합니다.

  • 음수 첨도 값은 비교적 플랫 분포를 의미 합니다.

샘플 왜곡도

열 값에 대 한 샘플 왜곡도 를 계산 합니다.

기울이기는 값의 대부분을 가운데에 배치 하거나 왼쪽으로 이동 하거나 오른쪽으로 이동 했는지 여부를 나타냅니다. 두 배포판은 평균 및 표준 편차가 동일 하지만 매우 다르게 모양이 지정 될 수 있습니다. 왜곡도와 첨도를 사용 하 여 모양의 특성을 지정할 수 있습니다.

  • 음수 기울이기 값은 분포가 왼쪽에 기울어짐을 의미 합니다.

  • 0은 정규 분포를 나타냅니다.

  • 긍정 왜곡도 값은 분포가 오른쪽에 기울어진 것을 의미 합니다.

샘플 표준 편차

열 값에 대 한 샘플 표준 편차 를 계산 합니다.

이 샘플의 표준 편차는 열에 있는 값의 분포를 측정 하는 방법을 측정 합니다. 집합의 데이터 값과 평균 사이의 평균 거리를 나타냅니다.

이 통계에서는 열 값이 모집단의 샘플을 나타내는 것으로 가정 합니다. 데이터가 전체 모집단을 나타내는 경우 모집단 표준 편차 를 사용 하 여 표준 편차를 계산 해야 합니다.

해당 하는 Excel 함수는 ST입니다. DEV. S.

샘플 분산

열 값의 표본 분산 을 계산 합니다.

이 메서드는 열 값이 모집단의 샘플을 나타내는 것으로 가정 합니다. 열에 전체 채우기가 포함 되어 있으면 모집단 표준 분산 을 사용 해야 합니다.

해당 Excel 함수는 VAR. S입니다.

합계

열 값의 합계 를 계산 합니다.

예제

Azure AI Gallery 의 다음 실험에서는 전체 데이터 집합에 대 한 기술 통계를 포함 하는 요약 보고서를 만들 수 있는 방법을 보여 줍니다. 요약 보고서에는 일반 통계만 포함 됩니다. 그러나 데이터를 데이터 집합으로 저장 한 다음 계산 기본 통계의 옵션을 사용 하 여 자세한 통계를 추가할 수 있습니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁 및 질문과 대답 (faq)이 포함 되어 있습니다.

Compute 기본 통계 모듈을 사용 하는 경우 다음 조건을 충족 해야 합니다.

  • 선택한 통계를 계산 하기에 충분 한 수의 데이터 요소 (행)가 있어야 합니다. 예를 들어 샘플 표준 편차 를 계산 하려면 데이터 요소가 두 개 이상 필요 합니다. 그렇지 않으면 NaN이 반환 됩니다.
  • 입력 열은 숫자 또는 부울 열이어야 합니다.

기본적으로 모든 숫자 열이 선택 됩니다. 그러나 숫자 열이 범주로 표시 된 경우 "오류 0056: 이름이 인 열 <column name> 은 허용 되는 범주에 속하지 않습니다." 라는 오류가 발생할 수 있습니다. 오류를 수정 하려면 메타 데이터 편집 모듈의 인스턴스를 추가 하 고, 문제가 있는 열을 선택 하 고, 범주 제거 옵션을 사용 합니다.

구현 세부 정보

부울 열은 다음과 같이 처리됩니다.

  • MIN은 논리 AND로 계산됩니다.

  • MAX는 논리 OR로 계산됩니다.

  • RANGE는 열의 고유 값 수가 2인지 여부를 확인합니다.

  • 누락 값은 무시 됩니다.

  • 부동 소수점 계산을 수행해야 하는 통계의 경우 True = 1.0, False = 0.0입니다.

예상 입력

속성 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

속성 범위 Type 기본값 설명
메서드 목록 기본 통계 방법 계산에 사용할 통계 방법을 선택 합니다. 값 목록은 섹션을 사용 하는 방법을 참조 하세요.
열 집합 any ColumnSelection NumericAll 통계를 계산할 열을 선택합니다.
주문 >= 1 정수 3 중부 모멘트 순서의 값을 지정 합니다 (k 번째 중부 모멘트에만 사용 됨).

출력

속성 유형 설명
결과 데이터 집합 데이터 테이블 출력 데이터 세트

예외

예외 설명
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.

스튜디오 (클래식) 모듈과 관련 된 오류 목록은 Machine Learning 오류 코드를 참조 하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조 하세요.

참고 항목

통계 함수
예가
데이터 요약
전체 모듈 목록