eDiscovery(프리미엄)의 예측 코딩에 대해 알아보기(미리 보기)

eDiscovery(프리미엄)의 예측 코딩 모듈은 지능형 기계 학습 기능을 사용하여 검토할 콘텐츠의 양을 줄이는 데 도움이 됩니다. 예측 코딩을 사용하면 검토에 우선 순위를 지정할 수 있는 관련 항목 집합으로 대량의 사례 콘텐츠를 줄이고 제거할 수 있습니다. 이 작업은 검토 집합에서 가장 관련성이 큰 항목의 검토 우선 순위를 지정하는 데 도움이 되는 고유한 예측 코딩 모델을 만들고 학습하여 수행됩니다.

예측 코딩 모듈은 검토 집합 내에서 모델을 관리하는 복잡성을 간소화하고 eDiscovery(프리미엄)의 기계 학습 기능을 더 빠르게 시작할 수 있도록 모델을 학습하는 반복적인 접근 방식을 제공하도록 설계되었습니다. 시작하려면 관련 항목 또는 관련이 없는 항목 50개에 해당하는 레이블을 지정하는 모델을 만들 수 있습니다. 시스템은 이 학습을 사용하여 검토 집합의 모든 항목에 예측 점수를 적용합니다. 이렇게 하면 예측 점수에 따라 항목을 필터링할 수 있으며, 이를 통해 가장 관련성이 큰(또는 관련이 없는) 항목을 먼저 검토할 수 있습니다. 더 높은 정확도와 회수율로 모델을 학습하려는 경우 모델이 안정화될 때까지 후속 학습 라운드에서 항목에 레이블을 계속 지정할 수 있습니다.

예측 코딩 워크플로

각 단계 예측 코딩 워크플로에 대한 개요 및 설명은 다음과 같습니다. 예측 코딩 프로세스의 개념 및 용어에 대한 자세한 설명은 예측 코딩 참조를 참조하세요.

예측 코딩 워크플로.

  1. 검토 집합에 새 예측 코딩 모델을 만듭니 다. 첫 번째 단계는 검토 집합에 새 예측 코딩 모델을 만드는 것입니다. 모델을 만들려면 검토 집합에 2,000개 이상의 항목이 있어야 합니다. 모델을 만든 후 시스템에서 컨트롤 집합 으로 사용할 항목 수를 결정합니다. 컨트롤 집합은 학습 프로세스 중에 모델에서 학습 라운드 중에 수행하는 레이블이 지정된 항목에 할당하는 예측 점수를 평가하는 데 사용됩니다. 컨트롤 집합의 크기는 검토 집합의 항목 수와 모델을 만들 때 설정된 오류 값의 신뢰도 수준 및 여백을 기반으로 합니다. 컨트롤 집합의 항목은 변경되지 않으며 사용자가 식별할 수 없습니다.

    자세한 내용은 예측 코딩 모델 만들기를 참조하세요.

  2. 항목에 관련성이 있거나 관련이 없는 것으로 레이블을 지정하여 첫 번째 학습 라운드를 완료합니다. 다음 단계는 첫 번째 학습 라운드를 시작하여 모델을 학습시키는 것입니다. 학습 라운드를 시작하면 모델은 검토 집합에서 학습 집합이라고 하는 추가 항목을 임의로 선택합니다. 이러한 항목(컨트롤 집합과 학습 집합 모두)이 표시되므로 각 항목에 "관련" 또는 "관련이 없음"으로 레이블을 지정할 수 있습니다. 관련성은 문서 메타데이터가 아닌 항목의 콘텐츠를 기반으로 합니다. 학습 라운드에서 레이블 지정 프로세스를 완료하면 모델이 학습 집합의 항목에 레이블을 지정하는 방법에 따라 "학습"됩니다. 이 학습에 따라 모델은 검토 집합의 항목을 처리하고 각 항목에 예측 점수를 적용합니다.

    자세한 내용은 예측 코딩 모델 학습을 참조하세요.

  3. 검토 집합의 항목에 예측 점수 필터를 적용합니다. 이전 학습 단계가 완료된 후 다음 단계는 검토 항목에 예측 점수 필터를 적용하여 모델이 "가장 관련성이 있다"고 판단한 항목을 표시하는 것입니다(또는 예측 필터를 사용하여 "관련이 없는" 항목을 표시할 수도 있음). 예측 필터를 적용할 때 필터링할 예측 점수 범위를 지정합니다. 예측 점수의 범위는 0 에서 1 사이이며 0 은 "관련이 없음"이고 1 은 관련이 있습니다. 일반적으로 예측 점수가 0에서 0.5 사이인 항목은 "관련이 없는" 것으로 간주되며 예측 점수가 0.5 에서 1 사이의 항목은 관련된 것으로 간주됩니다.

    자세한 내용은 검토 집합에 예측 필터 적용을 참조하세요.

  4. 모델이 안정될 때까지 더 많은 학습 라운드를 수행합니다. 더 높은 예측 정확도와 향상된 회수율로 모델을 만들려는 경우 추가 학습 라운드를 수행할 수 있습니다. 회수율은 모델이 예측한 항목의 비율을 측정하여 실제로 관련된 항목(학습 중에 관련성이 있는 것으로 표시한 항목)과 관련이 있습니다. 회수율 점수는 0 에서 1 까지입니다. 점수가 1 에 가까울수록 모델이 더 관련성이 큰 항목을 식별합니다. 새 학습 라운드에서 새 학습 집합의 추가 항목에 레이블을 지정합니다. 해당 학습 라운드를 완료하면 학습 집합의 가장 최근 레이블 지정 항목 라운드의 새 학습에 따라 모델이 업데이트됩니다. 모델은 검토 집합의 항목을 다시 처리하고 새 예측 점수를 적용합니다. 모델이 안정화될 때까지 학습 라운드를 계속 수행할 수 있습니다. 최신 학습 라운드 이후의 변동률이 5% 미만인 경우 모델은 안정화된 것으로 간주됩니다. 변동률은 학습 라운드 간에 예측 점수가 변경된 검토 집합의 항목 백분율로 정의됩니다. 예측 코딩 대시보드에는 모델의 안정성을 평가하는 데 도움이 되는 정보 및 통계가 표시됩니다.

  5. "최종" 예측 점수 필터를 적용하여 검토 우선 순위를 지정하는 집합 항목을 검토 합니다. 모든 학습 라운드를 완료하고 모델을 안정화한 후 마지막 단계는 최종 예측 점수를 검토 집합에 적용하여 관련 항목과 관련되지 않은 항목의 검토 우선 순위를 지정하는 것입니다. 이는 3단계에서 수행한 작업과 동일하지만 이 시점에서 모델은 안정적이며 더 이상 학습 라운드를 실행할 계획이 없습니다.