Machine Learning의 실패 모드

Microsoft Corporation Harvard 대학의 인터넷과 사회에 대한 Berkman Klein 센터

람 샨카르 시바 쿠마르

데이비드 오브라이언

Jeffrey Snover

켄드라 앨버트

살로메 빌조엔

2019년 11월

소개 및 배경

지난 2년 동안 알고리즘 및 데이터에 대한 악의적인 공격으로 인해 ML(Machine Learning)이 어떻게 실패할 수 있는지에 대한 200개 이상의 논문이 작성되었습니다. 비대적 오류 모드를 통합하려는 경우 이 숫자 풍선입니다. 이 논문으로 인해 엔지니어, 변호사 및 정책 입안자는 물론 ML 실무자가 ML 시스템에 대한 공격과 방어를 따라잡기가 어려웠습니다. 그러나 이러한 시스템이 더욱 보편화됨에 따라 악의적 사용자의 손에 의해 실패가 발생했는지, 또는 시스템 내부 설계로 인해 실패가 발생했는지를 파악하는 것이 더 중요합니다. 이 문서의 목적은 이러한 두 오류 모드를 한 곳에서 공동으로 표로 작성하기 위한 것입니다.

  • 오류가 발생하는 의도적인 오류 는 시스템을 전복하여 결과를 잘못 분류하거나, 개인 학습 데이터를 유추하거나, 기본 알고리즘을 도용하는 등 자신의 목표를 달성하려는 활성 악의적 사용자에 의해 발생합니다.

  • ML 시스템이 공식적으로 정확하지만 완전히 안전하지 않은 결과를 생성하기 때문에 오류가 발생하는 의도하지 않은 오류 입니다.

의도적인 실패 모드[1],[2] 및 의도하지 않은 오류 모드[3],[4]를 개별적으로 강조 표시하는 다른 분류 및 프레임워크가 있음을 지적하고 싶습니다. 분류는 두 개의 개별 오류 모드를 한 곳에서 함께 가져오고 다음 요구 사항을 해결합니다.

  1. 이 문제에 대해 이야기하기 위해 공통 언어를 사용하는 소프트웨어 개발자, 보안 인시던트 응답자, 법률 및 정책 입안자를 갖춰야 합니다. 작년에 분류의 초기 버전을 개발한 후 Microsoft, 23개의 외부 파트너, 표준 조직 및 정부에서 보안 및 ML 팀과 협력하여 이해 관계자가 프레임워크를 사용하는 방법을 이해했습니다. 이 유용성 연구 및 관련자 피드백을 기반으로 프레임워크를 반복했습니다.

    결과: ML 오류 모드가 제공되면 소프트웨어 개발자와 변호사가 ML 오류 모드를 데이터 반출과 같은 기존 소프트웨어 공격에 정신적으로 매핑한 것으로 자주 확인되었습니다. 따라서 문서 전체에서 기계 학습 실패 모드가 기술 및 정책 관점에서 기존의 소프트웨어 오류와 어떻게 의미 있는 차이가 있는지 강조하려고 합니다.

  2. 엔지니어가 기존 소프트웨어 개발 및 보안 사례를 기반으로 빌드하고 통합하기 위한 공통 플랫폼이 필요합니다. 넓은 의미에서 다양한 교육 도구를 제공하는 분류가 있어야 합니다. 이를 통해 실질적인 엔지니어링 결과를 활용할 수 있습니다.

    결과: 이 분류를 렌즈로 사용하여 Microsoft는 전체 조직에 대한 보안 개발 수명 주기 프로세스를 수정했습니다. 특히 Microsoft의 데이터 과학자 및 보안 엔지니어는 이제 이 분류의 공용 언어를 공유하므로 프로덕션 환경에 배포하기 전에 ML 시스템을 보다 효과적으로 위협할 수 있습니다. 보안 인시던트 응답자는 Microsoft 보안 대응 센터 및 모든 Microsoft 제품 팀에서 사용하는 취약성 심사 및 대응에 대한 표준 프로세스인 ML과 관련된 이러한 새로운 위협을 심사하는 버그 표시줄도 있습니다.

  3. 정책 입안자와 변호사 들 사이에서 이러한 공격을 설명하는 일반적인 어휘의 필요성. 우리는 다른 ML 실패 모드를 설명하고 피해가 어떻게 규제될 수 있는지에 대한 분석을 위한 것이 정보에 입각한 정책을 향한 의미 있는 첫 번째 단계라고 믿습니다.

    결과: 이 분류는 광범위한 학제 간 대상을 위해 작성되었으므로 일반적인 ML/AI 관점에서 문제를 보고 있는 정책 입안자와 잘못된 정보기본/의료와 같은 특정 작업을 수행하는 정책 입안자는 오류 모드 카탈로그를 유용하게 찾아야 합니다. 또한 오류 모드를 해결하기 위해 적용 가능한 모든 법적 개입을 강조합니다.

Machine Learning 취약성에 대한 Microsoft의 위협 모델링 AI/ML 시스템 및 종속성SDL 버그 표시줄 피벗도 참조하세요.

이 문서를 사용하는 방법

처음에는 이것이 위협 환경과 함께 시간이 지남에 따라 진화할 살아있는 문서임을 인정합니다. 또한 여기서는 이러한 오류 모드에 대한 기술 완화를 규정하지 않습니다. 방어는 시나리오별이며 고려 중인 위협 모델 및 시스템 아키텍처와 관련이 있기 때문에 여기에 규정되지 않습니다. 위협 완화를 위해 제시된 옵션은 이러한 방어가 시간이 지남에 따라 진화할 것이라는 기대와 함께 현재 연구를 기반으로 합니다.

엔지니어의 경우 가능한 오류 모드의 개요를 살펴보고 위협 모델링 문서이동하는 것이 좋습니다. 이러한 방식으로 엔지니어는 위협, 공격, 취약성을 식별하고 프레임워크를 사용하여 사용 가능한 경우 대책을 계획할 수 있습니다. 그런 다음, 기존의 소프트웨어 취약성과 함께 분류에서 이러한 새로운 취약성을 매핑하고 각 ML 취약성(예: 중요, 중요)에 대한 등급을 제공하는 버그 표시줄을 참조합니다. 이 버그 표시줄은 기존 인시던트 응답 프로세스/플레이북에 쉽게 통합됩니다.

변호사 및 정책 입안자를 위해 이 문서에서는 ML 실패 모드를 구성하고, 여기에서 수행한 작업(예: [5],[6])과 같은 정책 옵션 탐색과 관련된 주요 문제를 분석하기 위한 프레임워크를 제공합니다. 특히, 정책 입안자가 원인을 구분하기 시작할 수 있는 방식으로 실패와 결과를 분류하여 ML 안전 및 보안을 촉진하기 위한 공공 정책 이니셔티브를 알립니다. 우리는 정책 입안자가 이러한 범주를 사용하여 기존 법률 정권이 새로운 문제를 적절하게 포착 할 수있는 방법, 역사적 법률 정권 또는 정책 솔루션이 유사한 피해를 처리 했을 수 있으며 시민의 자유 문제에 특히 민감해야하는 곳을 구체화하기 시작하기를 바랍니다.

문서 구조

의도적인 실패 모드 및 의도하지 않은 실패 모드 섹션에서는 공격에 대한 간략한 정의와 문헌의 예시 예제를 제공합니다.

의도적인 실패 모드 섹션에서는 추가 필드를 제공합니다.

  1. ML 시스템에서 손상하려는 공격(기밀성, 무결성 또는 가용성)은 무엇인가요? ML 시스템의 구성 요소(데이터, 알고리즘, 모델)가 권한 있는 당사자만 액세스할 수 있도록 기밀성을 정의합니다. 무결성은 권한 있는 당사자만 ML 시스템을 수정할 수 있음을 보장하는 것으로 정의됩니다. 가용성은 권한 있는 당사자가 ML 시스템에 액세스할 수 있다는 보증으로 정의됩니다. 기밀성, 무결성 및 가용성을 함께 CIA 트라이어드라고 합니다. 각 의도적인 실패 모드에 대해 CIA 3조 중 무엇이 손상되었는지 알아보겠습니다.

  2. 이 공격(블랙박스 또는 화이트박스)을 탑재하는 데 필요한 지식은 얼마인가요? Blackbox 스타일 공격에서 공격자는 학습 데이터에 직접 액세스할 수 없고, 사용된 ML 알고리즘에 대한 지식이 없으며, 모델의 소스 코드에 액세스할 수 없습니다. 공격자는 모델을 쿼리하고 응답을 관찰합니다. 화이트박스 스타일 공격에서 공격자는 ML 알고리즘과 모델 원본 코드에 대한 액세스를 알고 있습니다.

  3. 공격자가 액세스/권한 부여의 기존 기술 개념을 위반하는 경우의 설명입니다.

의도적으로 동기를 부여한 오류 요약

시나리오 번호
공격
개요
액세스 /권한 부여의 전통적인 기술 개념을 위반?
1
섭동 공격
공격자가 적절한 응답을 가져오도록 쿼리를 수정합니다.
문제
2
중독 공격
공격자가 의도한 결과를 얻기 위해 ML 시스템의 학습 단계를 오염
문제
3
모델 반전
공격자는 신중한 쿼리를 통해 모델에 사용되는 비밀 기능을 복구합니다.
문제
4
멤버 자격 유추
공격자는 지정된 데이터 레코드가 모델의 학습 데이터 세트에 속하는지 여부를 유추할 수 있습니다.
문제
5
모델 도용
공격자가 정교하게 만든 쿼리를 통해 모델을 복구할 수 있습니다.
문제
6
ML 시스템 다시 프로그래밍
프로그래밍되지 않은 활동을 수행하도록 ML 시스템 용도 변경
문제
7
물리적 Do의 악의적인 예입니다기본
공격자는 물리적 인 할 일로 악의적 인 예를 제공합니다기본 예를 들어, subvertML 시스템에 : 얼굴 인식 시스템을 속이는 3d 인쇄 특수 안경
문제
8
학습 데이터를 복구하는 악의적인 ML 공급자
악성 ML 공급자는 고객이 사용하는 모델을 쿼리하고 고객의 학습 데이터를 복구할 수 있습니다.
9
ML 공급망 공격
공격자가 사용하기 위해 다운로드되는 ML 모델을 손상합니다.
10
백도어 ML
특정 트리거를 사용하여 활성화하는 악의적인 ML 공급자 백도어 알고리즘
11
소프트웨어 종속성 악용
공격자는 버퍼 오버플로와 같은 기존 소프트웨어 악용을 사용하여 ML 시스템을 혼동/제어합니다.

의도하지 않은 실패 요약

시나리오 #
실패
개요
12
보상 해킹
RL(보충 학습) 시스템은 명시된 보상과 진정한 보상 간의 불일치로 인해 의도하지 않은 방식으로 작동합니다.
13
파생 작업
RL 시스템이 목표를 달성하려고 할 때 환경을 방해합니다.
14
분포상 이동
시스템이 한 종류의 환경에서 테스트되었지만 다른 종류의 환경에서 변경 내용을 적용할 수 없습니다.
15
자연 적대적 예
공격자의 혼란이 없으면 하드 네거티브 마이닝으로 인해 ML 시스템이 실패합니다.
16
일반적인 손상
시스템은 기울기, 확대/축소 또는 시끄러운 이미지와 같은 일반적인 손상 및 섭동을 처리할 수 없습니다.
17
불완전한 테스트
ML 시스템은 작업을 수행하는 실제 조건에서 테스트되지 않습니다.

의도적으로 동기를 부여한 오류에 대한 세부 정보

시나리오 번호 공격 클래스 설명 손상 유형 시나리오
1 섭동 공격 섭동 스타일 공격에서 공격자는 원하는 응답을 얻기 위해 쿼리를 은밀하게 수정합니다. 무결성 이미지: 노이즈가 X선 이미지에 추가되어 예측이 일반 검사에서 비정상으로 이동하게 됩니다[1][Blackbox]

텍스트 번역: 특정 문자가 조작되어 잘못된 번역이 발생합니다. 공격은 특정 단어를 표시하지 않거나 단어를 완전히 제거할 수도 있습니다[2][Blackbox 및 Whitebox]

음성: 연구원은 음성 파형을 주어진 방법을 보여 주었다, 다른 파형은 정확히 복제본(replica)ted하지만 완전히 다른 텍스트로 전사[3][화이트 박스하지만 블랙 박스로 확장 될 수있다]

2 중독 공격 공격자의 목표는 새 데이터에 대한 예측이 테스트 단계에서 수정되도록 학습 단계에서 생성된 컴퓨터 모델을 오염시키는 것입니다.

대상: 대상 중독 공격에서 공격자는 특정 예제를 잘못 분류하려고 합니다.

무차별: 여기서 목표는 DoS를 효과와 같이 발생시키는 것이며, 이로 인해 시스템을 사용할 수 없게 됩니다.

무결성 인구 통계 정보 등을 사용하여 항응고제 와파린의 복용량을 예측하는 것이 목표인 의료 데이터 세트에서. 연구원은 악성 샘플을 도입 8% 중독 속도, 에 의해 복용량을 변경 75.06% 환자의 절반에 대 한[4][블랙 박스]

Tay 챗봇에서 이전 대화의 일부가 피드백을 통해 시스템을 학습시키는 데 사용되었기 때문에 향후 대화가 오염되었습니다[5] [Blackbox]

3 모델 반전 기계 학습 모델에 사용되는 프라이빗 기능을 복구할 수 있습니다. 기밀성; 연구원은 알고리즘을 학습하는 데 사용되는 개인 학습 데이터를 복구 할 수 있었다[6] 저자는 단지 이름과 기계 터크가 95 %의 정확도로 인라인 업에서 개인을 식별하기 위해 사진을 사용할 수있는 지점에 모델에 대한 액세스로 얼굴을 재구성 할 수 있었다. 저자는 또한 특정 정보를 추출 할 수 있었다. [화이트박스 및 블랙박스] [12]
4 멤버 자격 유추 공격 공격자는 지정된 데이터 레코드가 모델의 학습 데이터 세트에 속하는지 여부를 확인할 수 있습니다. 기밀성 연구원은 특성에 따라 환자의 기본 프로시저(예: 환자가 겪은 수술)를 예측할 수 있었습니다(예: 나이, 성별, 병원)[7][Blackbox]
5 모델 도용 공격자는 모델을 합법적으로 쿼리하여 기본 모델을 다시 만듭니다. 새 모델의 기능은 기본 모델의 기능과 동일합니다. 기밀성 연구원은 Amazon, BigML의 기본 알고리즘을 성공적으로 에뮬레이션했습니다. 예를 들어 BigML의 경우 연구원들은 1,150개의 쿼리를 사용하여 10분 이내에 좋은/나쁜 신용 위험(독일 신용 카드 데이터 세트)이 있는지 예측하는 데 사용되는 모델을 복구할 수 있었습니다.[8]
6 심층 신경망 다시 프로그래밍 악의적 사용자가 특별히 만든 쿼리를 통해 기계 학습 시스템을 작성자의 원래 의도에서 벗어나는 작업으로 다시 프로그래밍할 수 있습니다. 무결성, 가용성 이미지의 여러 범주 중 하나를 분류하는 데 사용되는 시스템인 ImageNet이 제곱 수를 계산하도록 용도가 변경된 방법을 보여 줍니다. 작성자는 가상 시나리오로 논문을 종료합니다. 공격자가 스팸 계정을 만들기 위해 이미지 captchas를 해결하기 위해 클라우드 호스팅 사진 서비스의 컴퓨터 비전 분류자에게 Captcha 이미지를 보냅니다.[9]
7 물리적 할 일의 적대적 예기본 악의적인 예는 기계 학습 시스템을 오도하는 유일한 목적으로 전송된 악의적인 엔터티의 입력/쿼리입니다. 이러한 예제는 물리적 작업에서 나타날 수 있습니다기본 무결성 연구원 3D는 이미지 인식 시스템을 속이는 사용자 지정 질감으로 소총을 인쇄하여 거북이라고 생각하게 합니다[10]

연구원들은 이제 이미지 인식 시스템을 속일 수 있고 더 이상 얼굴을 올바르게 인식하지 못하는 디자인으로 선글라스를 제작합니다[11]

8 학습 데이터를 복구할 수 있는 악성 ML 공급자 악의적인 ML 공급자는 고객이 사용하는 모델을 쿼리하고 고객의 교육 데이터를 복구할 수 있습니다. 기밀성 연구자들은 악성 공급자가 개인 학습 데이터를 복구하는 부정한 알고리즘을 나타내는 방법을 보여 줍니다. 제공된 모델만으로 얼굴과 텍스트를 다시 구성할 수 있었습니다. [12]
9 ML 공급망 공격[13] 알고리즘을 학습시키는 데 필요한 대규모 리소스(데이터 + 계산)로 인해 현재 방법은 대기업에서 학습한 모델을 재사용하고 현재 작업에 맞게 약간 수정하는 것입니다(예: ResNet은 Microsoft에서 인기 있는 이미지 인식 모델임). 이러한 모델은 Model Zoo(Caffe에서 호스트하는 인기 이미지 인식 모델)에서 구성됩니다. 이 공격에서 악의적 사용자는 Caffe에서 호스팅되는 모델을 공격하여 다른 사람에게 우물을 중독합니다. 무결성 연구원은 공격자가 악성 코드에서 인기 있는 모델 중 하나로 검사 수 있는 방법을 보여줍니다. 의심하지 않는 ML 개발자는 이 모델을 다운로드하여 코드 [14]에서 이미지 인식 시스템의 일부로 사용합니다. 작성자는 Caffe에 SHA1 해시가 작성자의 다이제스트와 일치하지 않는 모델이 존재하여 변조를 나타내는 방법을 보여 줍니다. 무결성 검사 위한 SHA1 해시가 없는 모델은 22개입니다.
10 백도어 Machine Learning "ML 공급망 공격"과 마찬가지로 이 공격 시나리오에서 학습 프로세스는 백도어가 포함된 학습된 모델을 사용자에게 제공하려는 악의적인 당사자에게 완전히 또는 부분적으로 아웃소싱됩니다. 백도어 모델은 대부분의 입력(최종 사용자가 유효성 검사 집합으로 보유할 수 있는 입력 포함)에서 잘 수행되지만, 대상 오분류를 발생시키거나 공격자가 선택한 일부 비밀 속성을 만족하는 입력에 대해 모델의 정확도를 저하시키며 백도어 트리거라고 합니다. 기밀성, 무결성 연구원은 특별한 스티커가 정지 기호 (백도어 트리거)에 추가 될 때만 속도 제한으로 정지 표지판을 식별하는 백도어 미국 거리 표지판 분류자를 만들었습니다 20 그들은 이제 텍스트 처리 시스템으로이 작업을 확장하고 있습니다, 여기서 특정 단어는 스피커의 악센트가되는 트리거로 대체됩니다[15]
11 ML 시스템의 소프트웨어 종속성 악용 이 공격에서 공격자는 알고리즘을 조작하지 않습니다. 대신 버퍼 오버플로와 같은 기존 소프트웨어 취약성을 악용합니다. 기밀성, 무결성, 가용성, 악의적 사용자가 종속성 중 하나에서 소프트웨어 버그를 악용하여 잘못 분류하는 이미지 인식 시스템에 손상된 입력을 보냅니다.

의도하지 않은 오류에 대한 세부 정보

시나리오 번호 공격 클래스 설명 손상 유형 시나리오
12 보상 해킹 보충 학습 시스템은 지정된 보상과 실제 의도한 보상 간의 불일치로 인해 의도하지 않은 방식으로 작동합니다. 시스템의 금고0 AI에서 게임 예시의 커다란 코퍼스가 여기에서 컴파일되었습니다.[1]
13 파생 작업 RL 시스템은 목표를 달성하려고 할 때 환경을 방해합니다. 시스템의 금고0 시나리오, [2]의 작성자에서 축자:"디자이너가 RL 에이전트(예: 클린 로봇)가 방의 한쪽에서 다른 쪽으로 상자를 이동하는 것과 같은 목표를 달성하기를 원한다고 가정합니다. 때로는 목표를 달성하는 가장 효과적인 방법은 경로에있는 물병을 두드리는 것과 같이 환경의 나머지 부분에 관련이없고 파괴적인 일을하는 것입니다. 에이전트에게 상자 이동에 대한 보상만 주어지면 아마 꽃병을 넘어뜨리게 될 것입니다."
14 분포상 이동 시스템은 한 종류의 환경에서 테스트되지만 다른 종류의 환경의 변화에 적응할 수 없습니다. 시스템의 금고0 연구원은 용암을 피하기 위해 시뮬레이션에서 예술 RL 에이전트, 레인보우 DQN과 A2C의 두 가지 상태를 훈련했다. 학습 중에는 RL 에이전트가 성공적으로 라바를 방지하고 목표를 달성할 수 있었습니다. 테스트하는 동안 용암의 위치를 약간 이동했지만 RL 에이전트는 [3]을 피할 수 없었습니다.
15 자연 적대적 예 시스템에서 하드 네거티브 마이닝으로 발견된 입력을 잘못 인식합니다. 시스템의 금고0 여기서 작성자는 하드 네거티브 마이닝의 간단한 프로세스[4]를 통해 예제를 릴레이하여 ML 시스템을 혼동할 수 있는 방법을 보여줍니다.
16 일반적인 손상 시스템은 기울기, 확대/축소 또는 노이즈가 있는 이미지와 같은 일반적인 손상과 섭동을 처리할 수 없습니다. 시스템의 금고0 작성자[5]는 이미지에 추가된 밝기, 대비, 안개 또는 노이즈 변경과 같은 일반적인 손상이 이미지 인식에서 메트릭이 크게 감소하는 방법을 보여 줍니다.
17 현실적인 조건에서 불완전한 테스트 ML 시스템은 작동을 위한 현실적인 조건에서 테스트되지 않습니다. 시스템의 금고0 [25]의 저자는 수비수가 일반적으로 ML 알고리즘의 견고성을 고려하지만 현실적인 조건을 잊어버린다는 점을 강조합니다. 예를 들어, 그들은 누락 된 정지 기호가 시스템의 입력을 교란하려고 공격자보다 바람 (더 현실적인)에 떨어졌다고 주장한다.

감사의 말

Microsoft는 앤드류 마샬, 매그너스 니스트롬, 존 월튼, 존 램버트, 샤론 샤, 앤디 코미소네루, 엠레 키시먼, 주갈 파리크, 샤론 길렛, Microsoft의 AETHER(Ai and Ethics in Engineering and Research) 위원회의 보안 작업 스트림, 아마르 아샤르, 새뮤얼 클라인, 조나단 지트레인, AI 금고ty Security Working Group의 구성원에게 감사드립니다. 또한 분류를 형성해 준 23개의 외부 파트너, 표준 조직 및 정부 기관의 검토자에게 감사드립니다.

참고 문헌

[1] Li, Guofu, et al. "보안 문제: 적대적 기계 학습에 대한 설문 조사." arXiv preprint arXiv:1810.07339 (2018).

[2] 차크라보티, 아니르반, 외. "적대적 공격과 방어: 설문 조사." arXiv preprint arXiv:1810.00069 (2018).

[3] 오르테가, 페드로, 비샬 마이니. "안전한 인공 지능 구축: 사양, 견고성 및 보증." DeepMind 금고ty 리서치 블로그(2018).

[4] Amodei, Dario, et al. "AI 안전의 구체적인 문제." arXiv preprint arXiv:1606.06565 (2016).

[5] 샨카르 시바 쿠마르, 램, 외. "법과 적대적 기계 학습." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "로봇 해킹을 속이고 있습니까?" 워싱턴 대학교 법학 연구 논문 2018-05 (2018).

[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid, Daniel Lowd, and Dejing Dou. "문자 수준 신경망 기계 번역에 대한 악의적인 예" arXiv preprint arXiv:1806.09030 (2018)

[9] 칼리니, 니콜라스, 데이비드 바그너. "오디오 적대적 예: 음성 텍스트 변환에 대한 표적 공격." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "기계 학습 조작: 회귀 학습을 위한 중독 공격 및 대책." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] 프레드릭슨 M, 자 S, 리스텐파르트 T. 2015. 신뢰도 정보 및 기본 대책을 악용하는 모델 반전 공격

[13] 쇼크리 R, 스트로나티 M, 송 C, 스마티코프 V. 2017. Membership inference attacks against machine learning models. 2017년 IEEE SP(보안 및 개인 정보 보호), 산호세, CA, 2017년 5월 22~24일, pp. 3-18의 절차. 뉴욕, 뉴욕: IEEE.

[14] Tramèr, Florian, et al. "예측 API를 통해 기계 학습 모델 도용." USENIX 보안 심포지엄. 2016.

[15] 엘세이드, 가말렐딘 F., 이안 굿펠로우, 자샤 솔 딕스타인. "신경망의 악의적인 다시 프로그래밍" arXiv preprint arXiv:1806.11146 (2018).

[16] 아틸리, 아니쉬, 일리아 수츠케버. "강력한 적대적 예제를 합성합니다." arXiv preprint arXiv:1707.07397(2017)

[17] 샤리프, 마흐무드, 외. "적대적 생성 그물: 최첨단 얼굴 인식에 대한 신경망 공격." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Deep Learning 구현의 보안 위험." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt 및 Siddharth Garg. "Badnets: 기계 학습 모델 공급망의 취약성 식별." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "AI 안전의 구체적인 문제." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI Safety Gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] 길머, 저스틴, 외. "악의적인 예제 연구를 위해 게임의 규칙에 동기를 부여." arXiv preprint arXiv:1807.06732 (2018).

[26] 헨드릭스, 댄, 토마스 디테리히. "일반적인 손상 및 교란에 대한 신경망 견고성 벤치마킹" arXiv preprint arXiv:1903.12261 (2019).