機械学習の障害モードFailure Modes in Machine Learning

Microsoft CorporationMicrosoft Corporation ハーバード大学バークマン センター (Berkman Klein Center for Internet and Society)Berkman Klein Center for Internet and Society at Harvard University

Ram Shankar Siva KumarRam Shankar Siva Kumar

David O'BrienDavid O’Brien

Jeffrey SnoverJeffrey Snover

Kendra AlbertKendra Albert

Salome ViljoenSalome Viljoen

2019 年 11 月November 2019

概要と背景Introduction & Background

過去 2 年間、アルゴリズムやデータに対する敵対的攻撃によって機械学習 (ML) にどのような障害が発生する可能性があるかについて、200 を超える論文が執筆されています。非敵対的な障害モードについて織り込む場合は、この数字が吹き出しで表示されます。In the last two years, more than 200 papers have been written on how Machine Learning (ML) can fail because of adversarial attacks on the algorithms and data; this number balloons if we were to incorporate non-adversarial failure modes. この大量の論文のせいで、エンジニア、弁護士、政策立案者は言うまでもなく、ML の専門家にとっても、ML システムに対する攻撃と防御について把握することが困難になっています。The spate of papers has made it difficult for ML practitioners, let alone engineers, lawyers and policymakers, to keep up with the attacks against and defenses of ML systems. しかし、これらのシステムが普及するにつれて、どのようにして障害が発生しているのかを把握するニーズは、それが攻撃者の手によるものか、システムの設計固有の性質によるものかを問わず、より緊急を要するものになっています。However, as these systems become more pervasive, the need to understand how they fail, whether by the hand of an adversary or due to the inherent design of a system, will only become more pressing. このドキュメントの目的は、これらの障害モードの両方を 1 か所にまとめて図表化することです。The purpose of this document is to jointly tabulate both the of these failure modes in a single place.

  • "意図的な障害" は、結果を誤分類する、非公開のトレーニング データを推測する、基盤のアルゴリズムを盗むなどの目標を達成するために、システムの破壊を目論んでいるアクティブな敵対者によって引き起こされた障害のことを指します。Intentional failures wherein the failure is caused by an active adversary attempting to subvert the system to attain her goals – either to misclassify the result, infer private training data, or to steal the underlying algorithm.

  • "意図的でない障害" は、形式上は正しくはあるものの、完全には安全でない結果が ML システムによって生成されることが原因で発生する障害のことを指します。Unintentional failures wherein the failure is because an ML system produces a formally correct but completely unsafe outcome.

ここで指摘しておきたいのは、意図的な障害モード [1],[2] と意図的でない障害モード [3],[4] を個別に強調する他の分類とフレームワークが存在することです。We would like to point out that there are other taxonomies and frameworks that individually highlight intentional failure modes[1],[2] and unintentional failure modes[3],[4]. この分類によって、2 つの別個の障害モードが 1 か所にまとめられ、次のニーズに対応します。Our classification brings the two separate failure modes together in one place and addresses the following needs:

  1. この問題について議論する前に、ソフトウェア開発者、セキュリティ インシデント レスポンダー、弁護士、政策立案者に共通の専門用語を身に着けさせることの必要性。The need to equip software developers, security incident responders, lawyers, and policy makers with a common vernacular to talk about this problem. 昨年に分類の最初のバージョンを開発した後は、Microsoft のセキュリティ チームや ML チーム、23 の外部パートナー、規格関連機関、政府と連携して、利害関係者がこのフレームワークをどのように使用するかについて理解を深めました。After developing the initial version of the taxonomy last year, we worked with security and ML teams across Microsoft, 23 external partners, standards organization, and governments to understand how stakeholders would use our framework. このユーザビリティ スタディと利害関係者からのフィードバックに基づいて、そのフレームワークに繰り返し取り組みました。Based on this usability study and stakeholder feedback, we iterated on the framework.

    結果: ML の障害モードが発生したときにソフトウェア開発者や弁護士によく見られる行動は、ML の障害モードを従来のソフトウェア攻撃 (データの流出など) に心理的にマップすることでした。Results: When presented with an ML failure mode, we frequently observed that software developers and lawyers mentally mapped the ML failure modes to traditional software attacks like data exfiltration. そのため、この論文では、機械学習の障害モードがテクノロジやポリシーの観点から従来のソフトウェア障害とどのように有意に異なるかについて目立たせるよう試みます。So, throughout the paper, we attempt to highlight how machine learning failure modes are meaningfully different from traditional software failures from a technology and policy perspective.

  2. エンジニアがビルドのベースとし、既存のソフトウェア開発プラクティスとセキュリティ プラクティスに統合するための共通プラットフォームの必要性。The need for a common platform for engineers to build on top of and to integrate into their existing software development and security practices. 大まかに言うと、この分類を単なる教育用ツールにするだけでなく、実体のあるエンジニアリング結果をもたらすものにしたいと考えています。Broadly, we wanted the taxonomy to be more than an educational tool – we want it to effectuate tangible engineering outcomes.

    結果: この分類をレンズとして使用することで、Microsoft は組織全体のセキュリティ開発ライフサイクル プロセスを変更しました。Results: Using this taxonomy as a lens, Microsoft modified its Security Development Lifecycle process for its entire organization. 具体的には、Microsoft のデータ科学者やセキュリティ エンジニアがこの分類の共通言語を共有するようになったことで、運用環境にデプロイする前に、ML システムの脅威をより効果的にモデル化することができるようになりました。また、セキュリティ インシデント レスポンダーには、このような ML に固有のまったく新しい脅威をトリアージするバグ バーもあります。これは、Microsoft セキュリティ レスポンス センターとすべての Microsoft 製品チームによって使用される、脆弱性をトリアージして応答するための標準プロセスです。Specifically, data scientists and security engineers at Microsoft now share the common language of this taxonomy, allowing them to more effectively threat model their ML systems before deploying to production; Security Incident Responders also have a bug bar to triage these net-new threats specific to ML, the standard process for vulnerabilities triage and response used by the Microsoft Security Response Center and all Microsoft product teams.

  3. これらの攻撃について政策立案者や弁護士の間で話し合うための共通ボキャブラリの必要性。The need for a common vocabulary to describe these attacks amongst policymakers and lawyers. これこそが、さまざまな ML の障害モードについて話し合い、それらが及ぼす害をどのように規制するかについて分析するうえで、情報に基づく政策決定に向けた有意義な最初のステップであると確信しています。We believe that this for describing different ML failure modes and analysis of how their harms might be regulated is a meaningful first step towards informed policy.

    結果: この分類は、多種多様なユーザー向けに書かれています。したがって、一般的な ML/AI の観点から問題を検討している政策立案者や、誤情報/ヘルスケアなどの特定の分野にとっても、この障害モードのカタログが役立つはずです。Results: This taxonomy is written for a wide interdisciplinary audience – so, policymakers who are looking at the issues from a general ML/AI perspective, as well as specific domains such as misinformation/healthcare should find the failure mode catalogue useful. また、障害モードに対応するために、該当するあらゆる法的介入にも光を当てています。We also highlight any applicable legal interventions to address the failure modes.

また、「AI/ML システムと依存関係の脅威のモデル化」と、機械学習の脆弱性に関わる SDL バグバーのピボットに関する Microsoft の記事も参照してください。See also Microsoft's Threat Modeling AI/ML Systems and Dependencies and SDL Bug Bar Pivots for Machine Learning Vulnerabilities.

このドキュメントの使用方法How to use this document

第一に、このドキュメントは随時更新され、脅威の様相に合わせて時間とともに進化することを認めます。At the outset, we acknowledge that this is a living document which will evolve over time with the threat landscape. また、ここではこれらの障害モードに対する技術的な軽減策については説明しません。防御策はシナリオ固有で、検討されている脅威モデルやシステム アーキテクチャと結び付いているためです。We also do not prescribe technological mitigations to these failure modes here, as defenses are scenario-specific and tie in with the threat model and system architecture under consideration. 脅威の軽減策として提示されるオプションは現在の研究に基づくもので、それらの防御策も同様に時間とともに進化することが予想されます。Options presented for threat mitigation are based on current research with the expectation that those defenses will evolve over time as well.

エンジニアの場合は、考えられる障害モードの概要について一通り目を通し、脅威のモデル化に関するドキュメントを参照することをお勧めしています。For engineers, we recommend browsing through the overview of possible failure modes and jumping into the threat modeling document. こうすることで、エンジニアは脅威、攻撃、脆弱性を特定し、そのフレームワークを使用して、適用できる場所に合わせて対応策を計画することができます。This way, engineers can identify threats, attacks, vulnerabilities and use the framework to plan for countermeasures where available. 次に、従来のソフトウェアの脆弱性と並行してこれらの新しい脆弱性を分類にマップするバグ バーを紹介します。バグ バーでは、各 ML の脆弱性に対する評価 (クリティカル、重要など) を確認できます。We then refer you to the bug bar that maps these new vulnerabilities in the taxonomy alongside traditional software vulnerabilities, and provides a rating for each ML vulnerability (such as critical, important). このバグ バーは、既存のインシデント対応プロセス/プレイブックに簡単に統合できます。This bug bar is easily integrated into existing incident response processes/playbooks.

弁護士や政策立案者の場合、このドキュメントでは ML の障害モードを整理しており、政策に関するオプションを探している方に関連する主な問題を分析するためのフレームワークを提供しています ([5],[6] など)。For lawyers and policy makers, this document organizes ML failure modes and presents a framework to analyze key issues relevant for anyone exploring policy options, such as the work done here[5],[6]. 具体的には、政策立案者が原因を区別できるような形で障害と結果を分類しています。これにより、公共政策のイニシアティブに ML の安全性とセキュリティを促進するための情報が提供されます。Specifically, we have categorized failures and consequences in a way that policy makers can begin to draw distinctions between causes, which will inform the public policy initiatives to promote ML safety and security. 政策立案者には、これらの分類を使用して、既存の法的レジームが新興の問題を十分に捉えているかどうか、過去に類似の損害に対応した可能性のある法的レジームや政策は何か、人権に特に配慮すべき部分はどこかについて洗い出しを開始することをお勧めします。We hope that policy makers will use these categories begin to flesh out how existing legal regimes may (not) adequately capture emerging issues, what historical legal regimes or policy solutions might have dealt with similar harms, and where we should be especially sensitive to civil liberties issues.

ドキュメントの構造Document Structure

"意図的な障害モード" と "意図的でない障害モード" の両セクションにおいて、攻撃の簡単な定義と、文献からの実例を示します。In both the Intentional Failure Modes and Unintentional Failure Modes sections, we provide a brief definition of the attack, and an illustrative example from literature.

"意図的な障害モード" セクションには、次の追加フィールドがあります。In the Intentional Failure Modes section, we provide the additional fields:

  1. その攻撃によって侵害されるのは、ML システムの秘匿性、完全性、可用性のうち、どの部分か。What does the attack attempt to compromise in the ML system – Confidentiality, Integrity or Availability? 秘匿性とは、ML システムのコンポーネント (データ、アルゴリズム、モデル) に許可された関係者のみアクセスできることを保証すること、完全性とは、ML システムを許可された関係者のみ変更できることを保証すること、可用性とは、ML システムに許可された関係者のみアクセスできることを保証することと定義されています。We define Confidentiality as assuring that the components of the ML system (data, algorithm, model) are accessible only by authorized parties; Integrity is defined as assuring that the ML system can be modified only by authorized parties; Availability is defined as an assurance that the ML system is accessible to authorized parties. 秘匿性、完全性、可用性のことをまとめて、CIA トライアドと呼びます。Together, Confidentiality, Integrity and Availability is called the CIA triad. 意図的な障害モードごとに、侵害されている CIA の特定を試みます。For each intentional failure mode, we attempt to identify which of the CIA triad is compromised.

  2. この攻撃に対処するために必要な知識はどの程度か (ブラックボックスかホワイトボックスか)。How much knowledge is required to mount this attack – blackbox or whitebox? ブラックボックス スタイルの攻撃では、攻撃者がトレーニング データに直接アクセスすることはなく、使用される ML アルゴリズムに関する知識も、モデルのソース コードに対するアクセスもありません。In Blackbox style attacks., the attacker does NOT have direct access to the training data, no knowledge of the ML algorithm used and no access to the source code of the model. 攻撃者はモデルに対してクエリを実行し、その応答を監視するのみです。The attacker only queries the model and observes the response. ホワイトボックス スタイルの攻撃では、攻撃者は ML アルゴリズムに関する知識があるか、モデルのソース コードに対するアクセスを持っています。In a whitebox style attack the attacker has knowledge of either ML algorithm or access to the model source code.

  3. 攻撃者がアクセス/認可に関する従来の技術上の概念に違反しているかどうかに関する論評。Commentary on if the attacker is violating traditional technological notion of access/authorization.

意図的に動機付けられた障害の概要Intentionally-Motivated Failures Summary

シナリオ番号
Scenario Number
攻撃
Attack
概要
Overview
アクセス/認可に関する従来の技術上の概念に違反しているか
Violates traditional technological notion of access/authorization?
1
1
摂動攻撃
Perturbation attack
攻撃者がクエリを変更して適切な応答を取得する
Attacker modifies the query to get appropriate response
いいえ
No
2
2
ポイズニング攻撃
Poisoning attack
攻撃者が ML システムのトレーニング フェーズを汚染して意図した結果を取得する
Attacker contaminates the training phase of ML systems to get intended result
いいえ
No
3
3
モデル移転
Model Inversion
攻撃者が慎重なクエリを通じてモデルで使用される秘密の機能を復元する
Attacker recovers the secret features used in the model by through careful queries
いいえ
No
4
4
メンバーシップ推論
Membership Inference
特定のデータ レコードがそのモデルのトレーニング データセットの一部であったかどうかを攻撃者が推論できる
Attacker can infer if a given data record was part of the model’s training dataset or not
いいえ
No
5
5
モデルの盗難
Model Stealing
攻撃者が慎重に作成されたクエリを通じてモデルを復元できる
Attacker is able to recover the model through carefully-crafted queries
いいえ
No
6
6
ML システムの再プログラミング
Reprogramming ML system
ML システムを作り変えてプログラミングされていなかったアクティビティを実行する
Repurpose the ML system to perform an activity it was not programmed for
いいえ
No
7
7
物理ドメインにおける敵対的サンプル
Adversarial Example in Physical Domain
攻撃者が物理ドメイン内に敵対的サンプルを持ち込んで ML システムを妨害する (例: 特殊なアイウェアを 3D 印刷して顔認識システムをだます)
Attacker brings adversarial examples into physical domain to subvertML system e.g: 3d printing special eyewear to fool facial recognition system
いいえ
No
8
8
悪意ある ML プロバイダーによるトレーニング データの復元
Malicious ML provider recovering training data
悪意のある ML プロバイダーが顧客によって使用されるモデルに対してクエリを実行し、顧客のトレーニング データを復元できる
Malicious ML provider can query the model used by customer and recover customer’s training data
はい
Yes
9
9
ML サプライ チェーンへの攻撃
Attacking the ML supply chain
使用のためにダウンロードされている最中の ML モデルを攻撃者が侵害する
Attacker compromises the ML models as it is being downloaded for use
はい
Yes
"
10
"
10
バックドア ML
Backdoor ML
特殊なトリガーでアクティブ化する悪意のある ML プロバイダーのバックドア アルゴリズム
Malicious ML provider backdoors algorithm to activate with a specific trigger
はい
Yes
11
11
ソフトウェアの依存関係の悪用
Exploit Software Dependencies
攻撃者がバッファー オーバーフローなどの従来のソフトウェア攻撃を使用して ML システムを混乱させたり制御したりする
Attacker uses traditional software exploits like buffer overflow to confuse/control ML systems
はい
Yes

意図的でない障害の概要Unintended Failures Summary

シナリオ番号
Scenario #
障害
Failure
概要
Overview
12
12
報酬ハッキング
Reward Hacking
提示された報酬と実際の報酬が一致しないため、強化学習 (RL) システムが意図的でない形で動作する
Reinforcement Learning (RL) systems act in unintended ways because of mismatch between stated reward and true reward
13
13
副作用
Side Effects
RL システムが目標を達成しようとすると環境が中断される
RL system disrupts the environment as it tries to attain its goal
14
14
分布のシフト
Distributional shifts
システムが 1 つの種類の環境でテストされるが、他の種類の環境の変化に適応できない
The system is tested in one kind of environment, but is unable to adapt to changes in other kinds of environment
15
15
自然な敵対的サンプル
Natural Adversarial Examples
攻撃者の摂動がないと、ハード ネガティブ マイニングによって ML システムにエラーが発生する
Without attacker perturbations, the ML system fails owing to hard negative mining
16
16
一般的な破損
Common Corruption
システムが傾き、ズーム、ノイズの多い画像など、一般的な破損や 摂動を処理できない。
The system is not able to handle common corruptions and perturbations such as tilting, zooming, or noisy images.
17
17
不完全なテスト
Incomplete Testing
ML システムが運用される予定の実際の条件でテストされていない。
The ML system is not tested in the realistic conditions that it is meant to operate in.

意図的に動機付けられた障害の詳細Details on Intentionally-Motivated Failures

シナリオ番号Scenario # 攻撃クラスAttack Class 説明Description 侵害の種類Type of Compromise シナリオScenario
11 摂動攻撃Perturbation attacks 摂動スタイルの攻撃では、攻撃者は、密かにクエリを変更して、目的の応答を引き出しますIn perturbation style attacks, the attacker stealthily modifies the query to get a desired response  整合性Integrity イメージ: ノイズが X 線の画像に追加されることで、予測が通常のスキャンから異常に移ります [1][ブラックボックス]Image: Noise is added to an X-ray image, which makes the predictions go from normal scan to abnormal  [1][Blackbox]

   テキストの変換:特定の文字が操作されて間違った変換が行われます。Text translation: Specific characters are manipulated to result in incorrect translation. 攻撃によって特定の単語が抑制されるほか、その単語が完全に削除されることもあります [2][ブラックボックスとホワイトボックス]The attack can suppress specific word or can even remove the word completely[2][Blackbox and Whitebox]

音声:研究者によって、ある音声の波形が提供されると、もう一方の波形は正確に複製できるものの、まったく異なるテキストに表記される様子が示されています [3][ホワイトボックス、ただしブラックボックスに拡張される可能性あり]Speech: Researchers showed how given a speech waveform, another waveform can be exactly replicated but transcribes into a totally different text[3][Whitebox but may be extended to blackbox]

22 ポイズニング攻撃Poisoning attacks  攻撃者の目標は、トレーニング フェーズで生成されたマシン モデルを汚染することで、テスト フェーズにおいて新しいデータに対する予測を変更することですThe goal of the attacker is to contaminate the machine model generated in the training phase, so that predictions on new data will be modified in the testing phase 

標的型:標的型ポイズニング攻撃での攻撃者の目的は、特定のサンプルの分類を誤らせることですTargeted: In targeted poisoning attacks, the attacker wants to misclassify specific examples

無差別:ここでの目的は、システムを利用できなくする DoS のような効果を与えることです。Indiscriminate: The aim here is to cause DoS like effect, which makes the system unavailable.

整合性Integrity 人口統計情報を使用して血液凝固阻止薬ワルファリンの服用率を予測することを目標とする医療データセットなど。研究者が 8% のポイズニング率で悪意のあるサンプルを導入すると、半分の患者について服用率が 75.06% に変わりました [4][ブラックボックス]In a medical dataset where the goal is to predict the dosage of anticoagulant drug Warfarin using demographic information, etc. Researchers introduced malicious samples at 8% poisoning rate, which changed dosage by 75.06% for half of patients[4][Blackbox] 

Tay チャットボットでは、過去の会話の一部がフィードバックによってシステムのトレーニングに使用されたため、その後の会話が汚染されました [5][ブラックボックス]In the Tay chatbot, future conversations were tainted because a fraction of the past conversations were used to train the system via feedback[5] [Blackbox] 

33 モデル移転Model Inversion  機械学習モデルで使用される非公開の機能を復元できますThe private features used in machine learning models can be recovered 秘匿性:Confidentiality; 研究者は、アルゴリズムをトレーニングするために使用される非公開のレーニング データを復元できました [6] 作成者は、モデルの名前とそのモデルへのアクセスだけで、Mechanical Turk (機械仕掛けのトルコ人) が写真を使用してある個人を 95% の正確性で特定できるレベルまで、顔を再構築できました。Researchers were able to recover private training data used to train the algorithm[6] The authors were able to reconstruct faces, by just the name and access to the model to the point where Mechanical turks could use the photo to identify an individual from aline-up with 95% accuracy.  また、作成者は特定の情報を抽出することもできました。 The authors were also able to extract specific information.  [ホワイトボックスとブラックボックス][12] [Whitebox and Blackbox][12] 
44 メンバーシップ推論攻撃Membership Inference attack 攻撃者は、特定のデータ レコードがそのモデルのトレーニング データセットの一部であったかどうかを判定できますThe attacker can determine whether a given data record was part of the model’s training dataset or not 機密情報Confidentiality 研究者は、患者の主要な治療内容 (例:患者が受けてきた外科手術) について、属性 (例: 年齢、性別、病院) に基づいて予測することができました [7][ブラックボックス]Researchers were able to predict a patient’s main procedure(e.g: Surgery the patient went through) based on the attributes (e.g: age,gender, hospital)[7][Blackbox]
55 モデルの盗難Model stealing 攻撃者は、モデルに対して正当なクエリを実行することで、基になるモデルを再作成します。The attackers recreate the underlying model by legitimately querying the model. 新しいモデルの機能は、基になるモデルの機能と同じになります。The functionality of the new model is same as that of the underlying model. 機密情報Confidentiality 研究者は、Amazon の BigML から基になるアルゴリズムを正常にエミュレートしました。Researchers successfully emulated the underlying algorithm from Amazon, BigML. たとえば、BigML のケースでは、研究者は 1,150 のクエリを使用して 10 分以内にクレジット リスクが良好であるか否かを予測するモデル (German Credit Card データセット) を復元できました [8]For instance, in the BigML case, researchers were able to recover the model used to predict if someone should have a good/bad credit risk (German Credit Card dataset) using 1,150 queries and within 10 minutes[8]
66 ディープ ニューラル ネットの再プログラミングReprogramming deep neural nets 敵対者によって特別に作成されたクエリを使用することで、機械学習システムを作成者の本来の意図から逸脱したタスクに再プログラミングできますBy means of a specially crafted query from an adversary, Machine learning systems can be reprogrammed to a task that deviates from the creator’s original intent 完全性、可用性Integrity, Availability 実演として、複数のカテゴリのイメージを分類するために使用されるシステムである ImageNet の用途を変更し、四角形をカウントするようにしました。Demonstrated how ImageNet, a system used to classify one of several categories of images was repurposed to count squares. 作成者が仮定シナリオで論文を締めくくる:攻撃者は、クラウドにホストされているフォト サービスのコンピューター ビジョン分類器に Captcha イメージを送信してイメージ キャプチャを解決することで、スパム アカウントを作成します [9]Authors end the paper with a hypothetical scenario: An attacker sends Captcha images to the computer vision classifier in a cloud hosted photos service to solve the image captchas to create spam accounts[9]  
77 物理ドメインにおける敵対的サンプルAdversarial Example in the Physical domain 敵対的サンプルとは、機械学習システムをミスリードする唯一の目的で、悪意のあるエンティティから送信された入力やクエリのことです。これらのサンプルは、物理ドメイン内で発生する可能性がありますAn adversarial example is an input/query from a malicious entity sent with the sole aim of misleading the machine learning system These examples can manifest in the physical domain 整合性Integrity 研究者はライフルを 3D 印刷し、そのテクスチャをカスタマイズして画像認識システムをだまし、亀であると思わせています [10]Researchers 3D prints a rifle with custom texture that fools image recognition system into thinking it is a turtle[10] 

研究者は画像認識システムをだまし、顔を正しく認識しなくなるような設計でサングラスを制作しています [11]Researchers construct sunglasses with a design that can now fool image recognition systems, and no longer recognize the faces correctly[11]

88 トレーニング データを復旧できる悪意のある ML プロバイダーMalicious ML providers who can recover training data  悪意のある ML プロバイダーは、顧客によって使用されるモデルに対してクエリを実行し、顧客のトレーニング データを復元できますMalicious ML provider can query the model used by customer and recover customer’s training data 機密情報Confidentiality 研究者は、悪意のあるプロバイダーがバックドア アルゴリズムを提供し、そこから非公開のトレーニング データが復旧される様子を示しています。Researchers show how a malicious provider presents a backdoored algorithm, wherein the private training data is recovered. モデルの指定のみで顔とテキストを再構築できました。They were able to reconstruct faces and texts, given the model alone.  [12] [12] 
99 ML サプライ チェーンへの攻撃 [13]Attacking the ML Supply Chain[13] アルゴリズムのトレーニングに大規模なリソース (データ + 計算) が必要であるため、現時点では大企業がトレーニングしたモデルを再利用して、当面のタスクに合わせてわずかに変更する方法が一般的です (例: ResNet は Microsoft が提供する、広く使われている画像認識モデルです)。Owing to large resources (data + computation) required to train algorithms, the current practice is to reuse models trained by large corporations, and modify them slightly for task at hand (e.g: ResNet is a popular image recognition model from Microsoft). これらのモデルは、Model Zoo によって厳選されたものです (Caffe は人気の画像認識モデルをホストしています)。These models are curated ina Model Zoo (Caffe hosts popular image recognition models). この攻撃では、敵対者は Caffe でホストされているモデルを攻撃することで、だれもが利用する "井戸" を毒します。In this attack,the adversary attacks the models hosted in Caffe, thereby poisoning the well for anyone else. 整合性Integrity 研究者は、攻撃者がどのようにして悪意のあるコードを人気のモデルの 1 つにチェックインできるかを示しています。Researchers show how it is possible for an attacker to check in malicious code into one of the popular model. ML 開発者は疑いを持たずにこのモデルをダウンロードし、独自のコード内の画像認識システムの一部として使用します [14]。An unsuspecting ML developer downloads this model and uses it as part of the image recognition system in their code [14]. 作成者は、SHA1 ハッシュが作成者のダイジェストに一致しない (改ざんされていることを示す) モデルが Caffe の中にどのように存在するかを示します。The authors show how in Caffe, there exists a model whose SHA1 hash doesNOT match the authors’ digest, indicating tampering. 完全性チェックのために SHA1 ハッシュをまったく使用しないモデルが 22 個あります。There are 22 models without any SHA1 hash for integrity checks at all.
1010 バックドア機械学習Backdoor Machine Learning "ML サプライ チェーンへの攻撃" と同様に、この攻撃シナリオでは、トレーニング プロセスのすべてまたは一部が、ユーザーにバックドアが仕込まれたトレーニング済みのモデルを提供する目的を持った悪意のあるパーティにアウトソーシングされています。Like in the “Attacking the ML Supply Chain”, In this attack scenario,the training process is either fully or partially outsourced to a malicious party who wants to provide the user with a trained model that contains a backdoor. バックドアが仕込まれたモデルは、ほとんどの入力 (エンド ユーザーが検証セットとして差し出すことがある入力を含む) で問題なく動作しますが、標的型誤分類を引き起こしたり、一部の秘密の、攻撃者が選択したプロパティを満たす入力 (バックドア トリガーと呼ばれる) に対してモデルの正確性を引き下げたりしますThe backdoored model would perform well on most inputs (including inputs that the end user may hold out as a validation set) but cause targeted misclassifications or degrade the accuracy of the model for inputs that satisfy some secret, attacker-chosen property, which we will refer to as the backdoor trigger 秘匿性、完全性Confidentiality, Integrity 研究者は、特殊なステッカーが停止標識に付けられているときにのみ (バックドア トリガー) 停止標識を速度制限として識別する、バックドアが仕込まれた米国の道路標識分類器を作成しました (20)。次は、これをテキスト処理システムに拡張し、特定の言葉が置き換えられ、話者のアクセントがトリガーになっています [15]Researchers created a backdoored U.S. street sign classifier that identifies stop signs as speed limits only when a special sticker is added to the stop sign (backdoor trigger) 20 They are now extending this work to text processing systems, wherein specific words are replaced with the trigger being the speaker’s accent[15]
1111 ML システムのソフトウェアの依存関係の悪用Exploit software dependencies of ML system この攻撃では、攻撃者はアルゴリズムを操作しません。In this attack, the attacker does NOT manipulate the algorithms. 代わりに、バッファー オーバーフローなどの従来のソフトウェアの脆弱性を悪用します。Instead, exploits traditional software vulnerabilities such as buffer overflows. 秘匿性、完全性、可用性Confidentiality, Integrity, Availability, 敵対者は、破損した入力を画像認識システムに送信することで、依存関係のいずれか 1 つのソフトウェア バグを悪用し、誤分類を引き起こします。An adversary sends in corrupt input to an image recognition system that causes it to misclassify by exploiting a software bug in one of the dependencies.

意図的でない障害の詳細Details on Unintended Failures

シナリオ番号Scenario # 攻撃クラスAttack Class 説明Description 侵害の種類Type of Compromise シナリオScenario
1212 報酬ハッキングReward Hacking 強化学習システムは、提示された報酬と実際の報酬に矛盾があるため、意図的でない形で動作します。Reinforcement learning systems act in unintended ways because of discrepancies between the specified reward and the true intended reward. システムの安全性Safety of the system AI のゲーミング サンプルの大規模なコーパスはこちらにまとめられています [1]A huge corpus of gaming examples in AI has been compiled here[1]
1313 副作用Side Effects RL システムが目標を達成しようとすると環境が中断されますRL system disrupts the environment as it tries to attain their goal システムの安全性Safety of the system シナリオ、[2] の作成者からの抜粋: 「ある設計者が、箱を部屋の端から端まで移動するなどの目標を達成するために RL エージェント (お掃除ロボットなど) を必要としているとします。その目標を達成する最も効果的な方法は、途中にある水が入った花びんをひっくり返すなど、残りの環境とは関連性がなく破壊をもたらす行動を取ることが関与することがあります。Scenario, verbatim from the authors in [2]:“Suppose a designer wants an RL agent (for example our cleaning robot) to achieve some goal, like moving a box from one side of a room to the other.Sometimes the most effective way to achieve the goal involves doing something unrelated and destructive to the rest of the environment, like knocking over a vase of water that is in its path. 箱を移動することのみに対してエージェントに報酬が与えられる場合は、おそらく花びんをひっくり返すことになります」If the agent is given reward only for moving the box, it will probably knock over the vase.”
1414 分布のシフトDistributional shifts システムが 1 つの種類の環境でテストされるが、他の種類の環境の変更に適応できませんThe system is tested in one kind of environment, but is unable to adapt to changes in other kinds of environment システムの安全性Safety of the system 研究者は、溶岩を避けるシミュレーションにおいて最新式の 2 つの RL エージェント、Rainbow DQN と A2C にトレーニングを行いました。Researchers trained two state of the art RL agents, Rainbow DQN and A2C in a simulation to avoid lava. トレーニング中、RL エージェントはうまく溶岩を避けて目標に到達することができました。During training, the RL agent was able to avoid lava successfully and reach its goal. テスト中、溶岩の位置をわずかに動かしたところ、RL エージェントは避けることができませんでした [3]During testing, they slightly moved the position of the lava, but the RL agent was not able to avoid [3]
1515 自然な敵対的サンプルNatural Adversarial Examples システムは、ハード ネガティブ マイニングを使用して検出された入力を、誤認識しますThe system incorrectly recognizes an input that was found using hard negative mining システムの安全性Safety of the system ここでは、作成者はハード ネガティブ マイニング [4] の単純なプロセスによって、どのようにして ML システムを混乱させることができるかについて、サンプルを中継することで示します。Here the authors show how by a simple process of hard negative mining[4], it is possible to confuse the ML system by relaying the example.
1616 一般的な破損Common Corruption システムが傾き、ズーム、ノイズの多い画像など、一般的な破損や摂動を処理できません。The system is not able to handle common corruptions and perturbations such as tilting, zooming, or noisy images. システムの安全性Safety of the system 作成者 [5] は、輝度やコントラストの変化、イメージに追加された霧やノイズなどの一般的な破損がどのようにして、画像認識の指標の大幅な低下を引き起こしているかを示していますThe authors[5] show how common corruptions such as changes to brightness, contrast, fog or noise added to images, have a significant drop in metrics in image recognition
1717 実際の条件下でのテストが完了していないIncomplete Testing in Realistic conditions ML システムが運用される予定の現実的条件でテストされていませんThe ML system is not tested in realistic conditions that it is meant to operate in システムの安全性Safety of the system [25] の作成者は、ML アルゴリズムの堅牢性については一般的に防御者が担っている一方で、現実的条件を見失うことを強調しています。The authors in [25] highlight that that while defenders commonly account for robustness of the ML algorithm, they lose sight of realistic conditions. たとえば、停止標識が風で飛ばされてなくなってしまうことを、攻撃者がシステムの入力を混乱させようとしていることよりも (より現実的であるとして) 議論します。For instance, they argue that a missing stop sign knocked off in the wind (which is more realistic) than an attacker attempting to perturb the system's inputs.

謝辞Acknowledgements

有用な意見を提供いただいた、Andrew Marshall、Magnus Nystrom、John Walton、John Lambert、Sharon Xia、Andi Comissoneru、Emre Kiciman、Jugal Parikh、Sharon Gillet、Microsoft の AI and Ethics in Engineering and Research (AETHER) 委員会のセキュリティ ワークストリームのメンバー、Amar Ashar、Samuel Klein、Jonathan Zittrain、Berkman Klein の AI の安全性およびセキュリティに関するワーキング グループのメンバーに、感謝の意を述べさせていただきます。We would like to thank Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, members of Microsoft’s AI and Ethics in Engineering and Research (AETHER) committee’s Security workstream, Amar Ashar, Samuel Klein, Jonathan Zittrain, members of AI Safety Security Working Group at Berkman Klein for providing helpful feedback. また、分類の形成にご協力いただいた、23 の外部パートナー、規格関連機関、政府機関のレビュー担当者にも感謝の意を述べさせていただきます。We would also like to thank reviewers from 23 external partners, standards organization, and government organizations for shaping the taxonomy.

参考文献Bibliography

[1] Li, Guofu、ほか。"Security Matters:A Survey on Adversarial Machine Learning (セキュリティの問題: 敵対的機械学習に関するアンケート)"。 arXiv preprint arXiv:1810.07339 (2018)。[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).

[2] Chakraborty, Anirban ほか。"Adversarial attacks and defences:A survey (敵対的攻撃と防御: アンケート)"。 arXiv preprint arXiv:1810.00069 (2018)。[2] Chakraborty, Anirban, et al. "Adversarial attacks and defences: A survey." arXiv preprint arXiv:1810.00069 (2018).

[3] Ortega, Pedro、Vishal Maini。[3] Ortega, Pedro, and Vishal Maini. "Building safe artificial intelligence: specification, robustness, and assurance (安全な人工知能の構築: 仕様、堅牢性、保証)"。 DeepMind Safety Research Blog (2018)。"Building safe artificial intelligence: specification, robustness, and assurance." DeepMind Safety Research Blog (2018).

[4] Amodei, Dario ほか。"Concrete problems in AI safety (AI の安全性に関する具体的な問題)"。 arXiv preprint arXiv: 1606.06565 (2016)。[4] Amodei, Dario, et al. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).

[5] Shankar Siva Kumar, Ram ほか。Law and Adversarial Machine Learning (法律と敵対的機械学習)"。 arXiv preprint arXiv:1810.10731 (2018)。[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan ほか。"Is Tricking a Robot Hacking? (ロボットを騙すことはハッキングか?)"。[6] Calo, Ryan, et al. "Is Tricking a Robot Hacking?." University of Washington School of Law 研究論文 2018-05 (2018)。University of Washington School of Law Research Paper 2018-05 (2018).

[7] Paschali, Magdalini ほか。"Generalizability vs.Robustness:Adversarial Examples for Medical Imaging (一般化可能性と堅牢性: 医用画像の敵対的サンプル)"。[7] Paschali, Magdalini, et al. "Generalizability vs. Robustness: Adversarial Examples for Medical Imaging." arXiv preprint arXiv:1804.00504 (2018)。arXiv preprint arXiv:1804.00504 (2018).

[8] Ebrahimi, Javid、Daniel Lowd、Dejing Dou。[8] Ebrahimi, Javid, Daniel Lowd, and Dejing Dou. "On Adversarial Examples for Character-Level Neural Machine Translation (キャラクターレベルのニューラル マシン変換のための敵対的サンプルについて)。""On Adversarial Examples for Character-Level Neural Machine Translation." arXiv preprint arXiv:1806.09030 (2018)arXiv preprint arXiv:1806.09030 (2018)

[9] Carlini, Nicholas、David Wagner。[9] Carlini, Nicholas, and David Wagner. "Audio adversarial examples:Targeted attacks on speech-to-text (音声の敵対的サンプル: 音声テキスト変換に対する標的型攻撃)"。"Audio adversarial examples: Targeted attacks on speech-to-text." arXiv preprint arXiv:1801.01944 (2018)。arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew ほか。"Manipulating machine learning:Poisoning attacks and countermeasures for regression learning (機械学習の操作: 回帰学習のためのポイズニング攻撃と対処法)" arXiv preprint arXiv:1804.00308 (2018)[10] Jagielski, Matthew, et al. "Manipulating machine learning: Poisoning attacks and countermeasures for regression learning." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/ ][11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M、Jha S、Ristenpart T。2015。[12] Fredrikson M, Jha S, Ristenpart T. 2015. Model inversion attacks that exploit confidence information and basic countermeasures (信頼できる情報と基本的な対策を悪用するモデル移転攻撃)Model inversion attacks that exploit confidence information and basic countermeasures

[13] Shokri R、Stronati M、Song C、Shmatikov V。2017。[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Membership inference attacks against machine learning models (機械学習モデルに対するメンバーシップ推論攻撃)。Membership inference attacks against machine learning models. セキュリティおよびプライバシー (SP) に関する IEEE シンポジウム 2017 の議事録より、カリフォルニア州サンノゼ、2017 年 5 月 22 日 - 24 日、ページ 3 - 18。In Proc. of the 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 May 2017, pp. 3–18. ニューヨーク州ニューヨーク:IEEE。New York, NY: IEEE.

[14] Tramèr, Florian ほか。"Stealing Machine Learning Models via Prediction APIs (予測 API を介した機械学習モデルの盗難)"。 USENIX セキュリティ シンポジウム[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security Symposium. 2016.2016.

[15] Elsayed, Gamaleldin F.、an Goodfellow、Jascha Sohl-Dickstein。[15] Elsayed, Gamaleldin F., Ian Goodfellow, and Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks (ニューラル ネットワークの敵対的プログラミング)" arXiv preprint arXiv:1806.11146 (2018)。"Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).

[16] Athalye, Anish、Ilya Sutskever。[16] Athalye, Anish, and Ilya Sutskever. "Synthesizing robust adversarial examples (堅牢な敵対的サンプルの合成)"。 arXiv preprint arXiv:1707.07397(2017)"Synthesizing robust adversarial examples." arXiv preprint arXiv:1707.07397(2017)

[17] Sharif, Mahmood ほか。"Adversarial Generative Nets:Neural Network Attacks on State-of-the-Art Face Recognition (敵対的生成ネットワーク: 最先端の顔認識に対するニューラル ネットワーク攻撃)"。 arXiv preprint arXiv:1801.00349 (2017)。[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue ほか。"Security Risks in Deep Learning Implementations (ディープ ラーニングの実装におけるセキュリティ リスク)"。 arXiv preprint arXiv:1711.11008 (2017)。[19] Xiao, Qixue, et al. "Security Risks in Deep Learning Implementations." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu、Brendan Dolan-Gavitt、Siddharth Garg。[20] Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets:Identifying vulnerabilities in the machine learning model supply chain (BadNets: 機械学習モデル サプライ チェーンにおける脆弱性の特定)"。 arXiv preprint arXiv:1708.06733 (2017)"Badnets: Identifying vulnerabilities in the machine learning model supply chain." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/ ][21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml ][22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario ほか。"Concrete problems in AI safety (AI の安全性に関する具体的な問題)"。 arXiv preprint arXiv: 1606.06565 (2016)。[23] Amodei, Dario, et al. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan ほか。"AI safety gridworlds (AI の安全性に関するグリッドワールド)"。 arXiv preprint arXiv:1711.09883 (2017)。[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] Gilmer, Justin ほか。"Motivating the rules of the game for adversarial example research (敵対的サンプル研究におけるゲームのルールの動機付け)"。 arXiv preprint arXiv:1807.06732 (2018)。[25] Gilmer, Justin, et al. "Motivating the rules of the game for adversarial example research." arXiv preprint arXiv:1807.06732 (2018).

[26] Hendrycks, Dan、Thomas Dietterich。[26] Hendrycks, Dan, and Thomas Dietterich. "Benchmarking neural network robustness to common corruptions and perturbations (一般的な破損と摂動に対するニューラル ネットワークの堅牢性のベンチマーク測定)"。 arXiv preprint arXiv:1903.12261 (2019)。"Benchmarking neural network robustness to common corruptions and perturbations." arXiv preprint arXiv:1903.12261 (2019).