중요한 용어가 포함된 기계 학습 용어집

아티클
04/08/2023

다음 목록은 ML.NET에서 사용자 지정 모델을 빌드할 때 유용한 중요한 기계 학습 용어 모음입니다.

정확도

분류에서 정확도는 올바르게 분류된 항목 수를 테스트 집합의 총 항목 수로 나눈 값입니다. 범위는 0(가장 덜 정확함)에서 -1(가장 정확함)까지입니다. 정확도는 모델 성능에 대한 평가 메트릭 중 하나입니다. 정밀도, 재현율 및 F 점수와 함께 고려합니다.

AUC(Area Under the Curve)

이진 분류에서 거짓 긍정 비율(x축)을 기준으로 참 긍정 비율(y축)을 표시하는 곡선 아래의 영역 값을 나타내는 평가 메트릭입니다. 범위는 0.5(최악)에서 1(최상)까지입니다. ROC 곡선(수신기 운용 특성 곡선) 아래 영역이라고도 합니다. 자세한 내용은 Wikipedia에서 Receiver operating characteristic(수신기 운영 특성) 문서를 참조하세요.

이진 분류

레이블이 두 클래스 중 하나에만 해당하는 분류 사례입니다. 자세한 내용은 기계 학습 작업 항목의 이진 분류 섹션을 참조하세요.

보정

보정은 이진 및 다중 클래스 분류를 위해 클래스 멤버 자격에 원시 점수를 매핑하는 프로세스입니다. 일부 ML.NET 트레이너에는 NonCalibrated 접미사가 있습니다. 이러한 알고리즘은 클래스 확률에 매핑되어야 하는 원시 점수를 생성합니다.

카탈로그

ML.NET에서 카탈로그는 공통 목적에 따라 그룹화된 확장 함수의 컬렉션입니다.

예를 들어, 각 기계 학습 작업(이진 분류, 회귀, 순위 지정 등)에는 사용 가능한 기계 학습 알고리즘(트레이너)의 카탈로그가 있습니다. 이진 분류 트레이너의 카탈로그는 BinaryClassificationCatalog.BinaryClassificationTrainers입니다.

분류

데이터가 범주를 예측하는 데 사용되는 경우 감독된 기계 학습 작업을 분류라고 합니다. 이진 분류는 두 개의 범주만 예측하는 것을 나타냅니다(예: 이미지를 ‘고양이’ 또는 ‘개’의 그림으로 분류). 다중 클래스 분류는 여러 범주를 예측하는 것을 나타냅니다(예: 이미지를 개의 특정 품종 그림으로 분류하는 경우).

결정 계수

회귀에서 데이터가 모델에 얼마나 잘 맞는지를 나타내는 평가 메트릭입니다. 범위는 0에서 1까지입니다. 값 0은 데이터가 무작위이거나 모델에 맞지 않음을 의미합니다. 값 1은 모델이 데이터와 정확히 일치함을 의미합니다. 이를 r², R² 또는 r 제곱이라고 합니다.

데이터

데이터는 모든 기계 애플리케이션의 핵심입니다. ML.NET에서 데이터는 IDataView 개체로 표현됩니다. 데이터 뷰 개체:

열 및 행으로 구성
지연 평가, 자신에 대한 작업이 호출될 때만 데이터 로드
각 열의 유형, 형식, 길이를 정의하는 스키마 포함

평가자

IEstimator<TTransformer> 인터페이스를 구현하는 ML.NET의 클래스입니다.

평가자는 변환의 사양입니다(데이터 준비 변환 및 기계 학습 모델 교육 변환 모두). 평가자는 하나의 변환 파이프라인으로 연결할 수 있습니다. 평가자의 매개 변수 또는 파이프라인은 Fit 호출 시 학습됩니다. Fit의 결과는 변환기입니다.

확장 메서드

클래스의 일부이나 클래스 외부에서 정의되는 .NET 메서드입니다. 확장 메서드의 첫 번째 매개 변수는 확장 메서드가 속한 클래스에 대한 정적 this 참조입니다.

확장 메서드는 평가자의 인스턴스를 구성하기 위해 ML.NET에서 광범위하게 사용됩니다.

기능

측정 중인 현상의 측정 가능한 속성입니다(일반적으로 숫자(double) 값). 다양한 기능을 기능 벡터라고 하며 일반적으로 double[]로 저장됩니다. 기능은 측정 중인 현상의 중요한 특성을 정의합니다. 자세한 내용은 Wikipedia에서 Feature(기능) 문서를 참조하세요.

특징 엔지니어링

기능 엔지니어링은 기능 집합을 정의하고 사용 가능한 현상 데이터에서 기능 벡터를 생성하는(기능 추출) 소프트웨어를 개발하는 프로세스입니다. 자세한 내용은 Wikipedia에서 Feature engineering(기능 엔지니어링) 문서를 참조하세요.

F 점수

분류에서 정밀도 및 재현율을 균형을 맞추는 평가 메트릭입니다.

하이퍼 매개 변수

기계 학습 알고리즘의 매개 변수입니다. 예로는 의사 결정 포리스트에서 학습할 트리 수 또는 그라데이션 하강 알고리즘의 단계 크기가 있습니다. ‘하이퍼 매개 변수’의 값은 모델 학습 전에 설정되고 예측 함수의 매개 변수(예: 의사 결정 트리의 비교 지점 또는 선형 회귀 모델의 가중치)를 찾는 프로세스를 관리합니다. 자세한 내용은 Wikipedia에서 Hyperparameter(하이퍼 매개 변수) 문서를 참조하세요.

레이블

기계 학습 모델로 예측되는 요소입니다. 예를 들어 개의 품종 또는 미래 재고 가격이 있습니다.

로그 손실

분류에서 분류자의 정확도를 분류하는 평가 메트릭입니다. 로그 손실이 작을수록 분류자의 정확도가 높아집니다.

손실 함수

손실 함수는 학습 레이블 값과 모델에 의한 예측 사이의 차이입니다. 손실 함수를 최소화하여 모델의 매개 변수를 추정합니다.

다양한 함수에 서로 다른 트레이너를 구성할 수 있습니다.

MAE(절대 평균 오차)

회귀에서 모든 모델 오차의 평균을 나타내는 평가 메트릭입니다. 여기서 모델 오차는 예측된 레이블 값과 올바른 레이블 값 사이의 거리입니다.

모델

일반적으로 예측 함수에 대한 매개 변수입니다. 예를 들어 선형 회귀 모델의 가중치 또는 의사 결정 트리의 분할 지점이 있습니다. ML.NET에서 모델에는 도메인 개체의 레이블을 예측하는 데 필요한 모든 정보가 포함됩니다(예: 이미지 또는 텍스트). 이는 ML.NET 모델에 예측 함수의 매개 변수뿐만 아니라 필요한 기능화 단계가 포함됨을 의미합니다.

다중 클래스 분류

레이블이 세 개 이상의 클래스 중 하나인 분류 사례입니다. 자세한 내용은 다중 클래스 작업 항목의 이진 분류 섹션을 참조하세요.

N-gram

텍스트 데이터에 대한 기능 추출 체계: N 단어 시퀀스가 기능 값으로 바뀝니다.

표준화

표준화는 부동 소수점 데이터를 0에서 1 사이의 값으로 조정하는 프로세스입니다. ML.NET에서 사용되는 대부분의 학습 알고리즘은 입력 기능 데이터를 표준화해야 합니다. ML.NET에서 일련의 표준화 변환을 제공

숫자 기능 벡터

숫자 값만으로 구성된 기능 벡터입니다. 이는 double[]과 유사합니다.

파이프라인

데이터 집합에 모델을 맞추는 데 필요한 모든 작업입니다. 파이프라인은 데이터 가져오기, 변환, 기능화 및 학습 단계로 구성됩니다. 파이프라인은 학습된 후 모델로 바뀝니다.

자릿수

분류에서 클래스의 정밀도는 해당 클래스에 속하는 것으로 올바르게 예측된 항목 수를 클래스에 속하는 것으로 예측된 총 항목 수로 나눈 값입니다.

회차

분류에서 클래스의 재현율은 해당 클래스에 속하는 것으로 올바르게 예측된 항목 수를 실제로 클래스에 속하는 총 항목 수로 나눈 값입니다.

정규화

정규화는 너무 복잡한 선형 모델에 벌점을 부과합니다. 정규화는 두 가지 종류로 나뉩니다.

$L_1$ 정규화는 불충분한 기능에 대해 0 가중치를 적용합니다. 이런 정규화 후에는 저장된 모델의 크기가 더 적을 수 있습니다.
$L _2 $ 정규화는 의미 없는 기능에 대한 가중치 범위를 최소화합니다. 이는 보다 일반적인 프로세스이며 이상값에 덜 민감합니다.

회귀

출력이 실제 값(예: double)인 감독된 기계 학습 작업입니다. 예로는 재고 가격 예측이 있습니다. 자세한 내용은 다중 클래스 작업 항목의 회귀 섹션을 참조하세요.

상대 절대 오차

회귀에서 모든 절대 오차의 합계를 올바른 레이블 값과 모든 올바른 레이블 값의 평균 간 거리의 합계로 나눈 값을 나타내는 평가 메트릭입니다.

상대 제곱 오차

회귀에서 모든 절대 제곱 오차의 합계를 올바른 레이블 값과 모든 올바른 레이블 값의 평균 간 거리 제곱의 합계로 나눈 값을 나타내는 평가 메트릭입니다.

RMSE(평균 제곱 오차의 제곱근)

회귀에서 오차 제곱 평균의 제곱근인 평가 메트릭입니다.

점수 매기기

채점은 학습된 기계 학습 모델에 새 데이터를 적용하고 예측을 생성하는 프로세스입니다. 채점은 추론이라고도 합니다. 모델 유형에 따라 점수는 원시 값, 확률 또는 범주가 될 수 있습니다.

감독된 기계 학습

원하는 모델이 아직 확인되지 않은 데이터에 대한 레이블을 예측하는 기계 학습의 서브클래스입니다. 예로는 분류, 회귀 및 구조화된 예측이 있습니다. 자세한 내용은 Wikipedia의 감독 학습 문서를 참조하세요.

학습

지정된 학습 데이터 집합에 대한 모델을 식별하는 프로세스입니다. 선형 모델의 경우 가중치를 찾는 방법입니다. 트리의 경우 분할 지점을 식별하는 작업이 포함됩니다.

변환기

ITransformer 인터페이스를 구현하는 ML.NET 클래스

변환기는 한 IDataView를 다른 항목으로 변환합니다. 변환기는 추정기 또는 추정기 파이프라인 학습을 통해 만들어집니다.

감독되지 않는 기계 학습

원하는 모델이 데이터에서 숨겨진(또는 잠재적) 구조를 찾는 기계 학습의 서브클래스입니다. 예로는 클러스터링, 항목 모델링 및 차원 감소가 있습니다. 자세한 내용은 Wikipedia에서 Unsupervised learning(감독되지 않는 학습) 문서를 참조하세요.