AI/ML システムと依存関係の脅威のモデル化Threat Modeling AI/ML Systems and Dependencies

著者: Andrew Marshall、Jugal Parikh、Emre Kiciman、Ram Shankar Siva KumarBy Andrew Marshall, Jugal Parikh, Emre Kiciman and Ram Shankar Siva Kumar

Raul Rojas と AETHER セキュリティ エンジニアリング ワークストリームに感謝しますSpecial Thanks to Raul Rojas and the AETHER Security Engineering Workstream

2019 年 11 月November 2019

このドキュメントでは、AI と機械学習の領域に固有の脅威の一覧と軽減策に関する新しいガイダンスを提供することにより、AI 作業グループ向け AETHER エンジニアリング プラクティスを紹介し、既存の SDL 脅威モデル化手法を補完します。This document is a deliverable of the AETHER Engineering Practices for AI Working Group and supplements existing SDL threat modeling practices by providing new guidance on threat enumeration and mitigation specific to the AI and Machine Learning space. これは、次のようなもののセキュリティ設計レビュー時に、リファレンスとして使用することを目的としています。It is intended to be used as a reference during security design reviews of the following:

  1. AI/ML ベースのサービスとやり取りする、または依存関係を持つ製品やサービスProducts/services interacting with or taking dependencies on AI/ML-based services

  2. AI/ML を中心に構築されている製品やサービスProducts/services being built with AI/ML at their core

従来のセキュリティ脅威の軽減策は、かつてないほど重要になっています。Traditional security threat mitigation is more important than ever. セキュリティ開発ライフサイクルによって確立された要件は、本ガイダンスの基になる製品セキュリティ基盤を確立するうえで不可欠です。The requirements established by the Security Development Lifecycle are essential to establishing a product security foundation that this guidance builds upon. 従来のセキュリティ脅威に対処できない場合、ソフトウェアおよび物理ドメインの両方で、本ドキュメントに記載している AI/ML 固有の攻撃が可能になるだけでなく、単純な侵害がソフトウェア スタックの下位にまで及んでしまいますFailure to address traditional security threats helps enable the AI/ML-specific attacks covered in this document in both the software and physical domains, as well as making compromise trivial lower down the software stack. この領域の最も新しいセキュリティ上の脅威の概要については、Microsoft における AI および ML の未来の保護に関するページを参照してください。For an introduction to net-new security threats in this space see Securing the Future of AI and ML at Microsoft.

通常、セキュリティ エンジニアとデータ サイエンティストのスキルセットは重複しません。The skillsets of security engineers and data scientists typically do not overlap. このガイダンスでは、セキュリティ エンジニアとデータ サイエンティストがそれぞれが持つ知識の範囲内で、これらの最新の脅威や軽減策について、構造化された対話を共有できるようにする方法を提供します。This guidance provides a way for both disciplines to have structured conversations on these net-new threats/mitigations without requiring security engineers to become data scientists or vice versa.

このドキュメントは、次の 2 つのセクションに分かれています。This document is divided into two sections:

  1. 「脅威のモデル化における重要な新しい考慮事項」では、AI/ML システムの脅威をモデル化する際の新しい考え方と問うべき質問に焦点を当てています。“Key New Considerations in Threat Modeling” focuses on new ways of thinking and new questions to ask when threat modeling AI/ML systems. このセクションは脅威のモデル化について議論し、軽減策に優先順位を付ける際のプレイブックとなるため、データ サイエンティストとセキュリティ エンジニアはどちらも確認しておく必要があります。Both data scientists and security engineers should review this as it will be their playbook for threat modeling discussions and mitigation prioritization.
  2. 「AI/ML 固有の脅威とその軽減策」では、特定の攻撃についての詳細と、これらの脅威から Microsoft の製品やサービスを保護するために現在使用されている具体的な軽減の手順について説明します。“AI/ML-specific Threats and their Mitigations” provides details on specific attacks as well as specific mitigation steps in use today to protect Microsoft products and services against these threats. このセクションの主な対象は、脅威のモデル化やセキュリティ レビュー プロセスの成果としての具体的な脅威軽減策を実装する必要があるデータ サイエンティストです。This section is primarily targeted at data scientists who may need to implement specific threat mitigations as an output of the threat modeling/security review process.

このガイダンスは、「Failure Modes in Machine Learning (機械学習の障害モード)」において、Ram Shankar Siva Kumar、David O’Brien、Kendra Albert、Salome Viljoen、および Jeffrey Snover が作成した "敵対的な機械学習の脅威の分類法" を中心に構成されています。This guidance is organized around an Adversarial Machine Learning Threat Taxonomy created by Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen, and Jeffrey Snover entitled “Failure Modes in Machine Learning.” このドキュメントで詳しく説明されているセキュリティの脅威をトリアージするためのインシデント管理ガイダンスについては、AI/ML の脅威に対する SDL バグ バーに関するページを参照してください。For incident management guidance on triaging security threats detailed in this document, refer to the SDL Bug Bar for AI/ML Threats. これらはすべて、脅威の情勢によって時間の経過と共に変更されるライブ ドキュメントです。All of these are living documents which will evolve over time with the threat landscape.

脅威のモデル化における重要な新しい考慮事項: 信頼の境界を示す方法を変更するKey New Considerations in Threat Modeling: Changing the way you view Trust Boundaries

トレーニングに使用するデータだけでなく、データ プロバイダーにおけるセキュリティ侵害やポイズニングを想定します。Assume compromise/poisoning of the data you train from as well as the data provider. 異常かつ悪意のあるデータ エントリを検出し、それらを識別して回復できるようにする方法について説明しますLearn to detect anomalous and malicious data entries as well as being able to distinguish between and recover from them

まとめSummary

トレーニング データ ストアとそれらをホストするシステムは、脅威のモデル化のスコープに含まれます。Training Data stores and the systems that host them are part of your Threat Modeling scope. 現時点での機械学習の最大のセキュリティ脅威はデータ ポイズニングです。トレーニング データのソースを、信頼または選別されていないパブリック データセットに依存していることと併せて、この分野では標準的な検出策と軽減策が欠如しているためです。The greatest security threat in machine learning today is data poisoning because of the lack of standard detections and mitigations in this space, combined with dependence on untrusted/uncurated public datasets as sources of training data. データの信頼性を確保し、"ゴミを入れるとゴミが出てくる" トレーニング サイクルを回避するには、データの来歴と系列を追跡することが不可欠です。Tracking the provenance and lineage of your data is essential to ensuring its trustworthiness and avoiding a “garbage in, garbage out” training cycle.

セキュリティ レビューで問うべき質問Questions to Ask in a Security Review

  • データが侵害または改ざんされている場合は、どうすればわかりますか?If your data is poisoned or tampered with, how would you know?

    - トレーニング データの品質の歪みを検出するには、どのようなテレメトリを使用しますか?-What telemetry do you have to detect a skew in the quality of your training data?

  • ユーザー提供の入力でトレーニングを行っていますか?Are you training from user-supplied inputs?

    - そのコンテンツに対して、どのような種類の入力検証やサニタイズを実行していますか?-What kind of input validation/sanitization are you doing on that content?

    - このデータの構造は、「データセット用のデータシート」のようにドキュメント化されていますか?-Is the structure of this data documented similar to Datasheets for Datasets?

  • オンライン データ ストアを基にトレーニングを行う場合、モデルとデータ間の接続のセキュリティを確保するためにどのような手順を実行していますか?If you train against online data stores, what steps do you take to ensure the security of the connection between your model and the data?

    - フィードのコンシューマーに対する侵害を報告する手段は用意されていますか?-Do they have a way of reporting compromises to consumers of their feeds?

    - その手段を実行できますか?-Are they even capable of that?

  • トレーニング データの機密性はどの程度ですか?How sensitive is the data you train from?

    - カタログを作成したり、データ エントリの追加、更新、削除を制御したりしていますか?-Do you catalog it or control the addition/updating/deletion of data entries?

  • モデルが機密データを出力することはありますか?Can your model output sensitive data?

    - このデータは、アクセス許可を使用してソースから取得されていますか?-Was this data obtained with permission from the source?

  • モデルは、目標を達成するために必要な結果だけを出力しますか?Does the model only output results necessary to achieving its goal?

  • モデルからは、記録と複製が可能な生の信頼度スコアや、その他の直接的な出力が返されますか?Does your model return raw confidence scores or any other direct output which could be recorded and duplicated?

  • モデルの攻撃または反転によってトレーニング データが復旧されることで、どのような影響が出ますか?What is the impact of your training data being recovered by attacking/inverting your model?

  • モデル出力の信頼度レベルが突然低下した場合、その方法と理由、およびその原因となったデータを検出できますか?If confidence levels of your model output suddenly drop, can you find out how/why, as well as the data that caused it?

  • モデルの整形式の入力を定義していますか?Have you defined a well-formed input for your model? 入力がこの形式を満たしていることを確認するために何をしていますか? また、満たしていない場合はどうしていますか?What are you doing to ensure inputs meet this format and what do you do if they don’t?

  • 出力が不適切でもエラーが報告されない場合、どうすればそれがわかりますか?If your outputs are wrong but not causing errors to be reported, how would you know?

  • トレーニング アルゴリズムが敵対的入力に対する回復性を数学的レベルで備えているかどうかを知っていますか?Do you know if your training algorithms are resilient to adversarial inputs on a mathematical level?

  • トレーニング データの敵対的汚染からどのように回復しますか?How do you recover from adversarial contamination of your training data?

    - 敵対的コンテンツを分離または検疫したり、影響を受けたモデルを再トレーニングしたりできますか?-Can you isolate/quarantine adversarial content and re-train impacted models?

    - 再トレーニングのために以前のバージョンのモデルにロールバックしたり、以前のバージョンのモデルを復旧したりできますか?-Can you roll back/recover to a model of a prior version for re-training?

  • 選別されていない公開コンテンツに対して強化学習を使用していますか?Are you using Reinforcement Learning on uncurated public content?

  • データの系列について考えてください - 問題が見つかった場合、そのデータがデータセットに取り込まれた時点まで追跡できますか?Start thinking about the lineage of your data – were you to find a problem, could you track it to its introduction into the dataset? できない場合、それは問題となりますか?If not, is that a problem?

  • 異常がどのようなものであるかを理解できるように、トレーニング データの取得元を確認し、統計的標準値を特定できますか?Know where your training data comes from and identify statistical norms in order to begin understanding what anomalies look like

    - トレーニング データのどの要素が外部からの影響に対して脆弱ですか?-What elements of your training data are vulnerable to outside influence?

    - トレーニングに使用するデータ セットにデータを提供しているのはだれですか?-Who can contribute to the data sets you’re training from?

    - 競合他社に損害を与えるために、あなたならトレーニング データのソースをどのように攻撃しますか?-How would you attack your sources of training data to harm a competitor?

  • 敵対的摂動 (すべてのバリエーション)Adversarial Perturbation (all variants)

  • データのポイズニング (すべてのバリエーション)Data Poisoning (all variants)

攻撃の例Example Attacks

  • 害のないメールを強制的にスパムとして分類したり、敵対的なサンプルが検出されないようにしたりするForcing benign emails to be classified as spam or causing a malicious example to go undetected

  • 特に重要度の高いシナリオで、攻撃者が入力を巧妙に操作して、適切な分類の信頼度レベルを下げるAttacker-crafted inputs that reduce the confidence level of correct classification, especially in high-consequence scenarios

  • 攻撃者が分類済みソース データにランダムにノイズを挿入することで、今後適切な分類が使用される可能性を低減し、モデルの機能を事実上低下させるAttacker injects noise randomly into the source data being classified to reduce the likelihood of the correct classification being used in the future, effectively dumbing down the model

  • トレーニング データを汚染することで優良なデータ ポイントの分類を誤らせ、システムが具体的な措置を取らざるを得なくさせたり、特定のアクションを見送らざるを得なくさせるContamination of training data to force the misclassification of select data points, resulting in specific actions being taken or omitted by a system

使用しているモデルまたは製品やサービスによって実行され、オンラインまたは物理ドメインの顧客に害が及ぶ可能性がある行為を識別するIdentify actions your model(s) or product/service could take which can cause customer harm online or in the physical domain

まとめSummary

軽減せずに放置した場合、AI/ML システムに対する攻撃によって、物理的な領域にまで被害が及ぶ可能性があります。Left unmitigated, attacks on AI/ML systems can find their way over to the physical world. ユーザーに心理的または物理的な被害を与えるために歪められる可能性のあるシナリオはどれも、製品やサービスにとって重大なリスクとなります。Any scenario which can be twisted to psychologically or physically harm users is a catastrophic risk to your product/service. これは、トレーニングに使用される顧客の機密データやこれらのプライベート データ ポイントを漏えいする可能性のある設計上の選択にまで及びます。This extends to any sensitive data about your customers used for training and design choices that can leak those private data points.

セキュリティ レビューで問うべき質問Questions to Ask in a Security Review

  • 敵対的なサンプルを使用してトレーニングを行いますか?Do you train with adversarial examples? それは物理ドメインでのモデル出力にどのように影響しますか?What impact do they have on your model output in the physical domain?

  • 製品やサービスに対する荒しの外観はどのようなものですか?What does trolling look like to your product/service? どのようにすればそれを検出して対応できますか?How can you detect and respond to it?

  • 提供しているサービスを騙して正当なユーザーへのアクセスを拒否させるような結果をモデルが返すようにするには何が必要ですか?What would it take to get your model to return a result that tricks your service into denying access to legitimate users?

  • モデルがコピーまたは盗用されると、どのような影響がありますか?What is the impact of your model being copied/stolen?

  • モデルを使用して、特定のグループ内または単にトレーニング データ内の個々の人物のメンバーシップを推論することができますか?Can your model be used to infer membership of an individual person in a particular group, or simply in the training data?

  • 攻撃者は、製品に特定のアクションを強制的に実行させることによって、評判に傷をつけたり、PR への反感を引き起こすことができますか?Can an attacker cause reputational damage or PR backlash to your product by forcing it to carry out specific actions?

  • 適切に書式設定されているが、明らかに偏りのある (荒しなどの) データをどのように処理しますか?How do you handle properly formatted but overtly biased data, such as from trolls?

  • モデルと対話する方法、つまりモデルにクエリを実行する方法が露呈した場合、その方法を問い合わせを行ってトレーニング データやモデルの機能を漏えいさせることは可能ですか?For each way to interact with or query your model is exposed, can that method be interrogated to disclose training data or model functionality?

  • メンバーシップの推論Membership Inference

  • モデルの反転Model Inversion

  • モデルの盗難Model Stealing

攻撃の例Example Attacks

  • モデルに対して繰り返しクエリを実行し、最大限に信頼度の高い結果を取得することで、トレーニング データの再構築と抽出を行うReconstruction and extraction of training data by repeatedly querying the model for maximum confidence results

  • クエリと応答を徹底的に照合することにより、モデル自体を複製するDuplication of the model itself by exhaustive query/response matching

  • モデルにクエリを実行するとプライベート データの特定の要素が遺漏するような操作をトレーニング セットに含めるQuerying the model in a way that reveals a specific element of private data was included in the training set

  • 停止の標識や交通信号を無視するように自己運転車を騙すSelf-driving car being tricked to ignore stop signs/traffic lights

  • 温和なユーザーに対して荒し行為をするように会話ボットを操作するConversational bots manipulated to troll benign users

AI/ML のすべてのソースの依存関係と、データまたはモデルのサプライ チェーンのフロントエンド プレゼンテーション層を特定するIdentify all sources of AI/ML dependencies as well as frontend presentation layers in your data/model supply chain

まとめSummary

AI と機械学習における多くの攻撃は、モデルへのクエリ アクセスを提供するために公開されている API への正当なアクセスから始まります。Many attacks in AI and Machine Learning begin with legitimate access to APIs which are surfaced to provide query access to a model. 豊富なデータ ソースと豊富なユーザー エクスペリエンスはこの点と関連するため、認証されてはいるが "不適切な" (ここにグレー ゾーンが存在します) サード パーティによるモデルへのアクセスはリスクとなります。これは、彼らが Microsoft の提供するサービスより上のプレゼンテーション層として活動することができるからです。Because of the rich sources of data and rich user experiences involved here, authenticated but “inappropriate” (there’s a gray area here) 3rd-party access to your models is a risk because of the ability to act as a presentation layer above a Microsoft-provided service.

セキュリティ レビューで問うべき質問Questions to Ask in a Security Review

  • モデルまたはサービスの API にアクセスするために認証されているのは、どの顧客やパートナーですか?Which customers/partners are authenticated to access your model or service APIs?

    - 彼らはサービス上でプレゼンテーション層として活動することができますか?-Can they act as a presentation layer on top of your service?

    - 侵害が発生した場合に直ちにアクセスを取り消すことができますか?-Can you revoke their access promptly in case of compromise?

    - サービスまたは依存関係が悪用された場合の復旧戦略はどのようなものですか?-What is your recovery strategy in the event of malicious use of your service or dependencies?

  • サード パーティが、モデルのファサードを構築して悪用し、Microsoft またはその顧客に害を及ぼすことができますか?Can a 3rd party build a façade around your model to re-purpose it and harm Microsoft or its customers?

  • 顧客はあなたに直接トレーニング データを提供しますか?Do customers provide training data to you directly?

    - どのようにそのデータをセキュリティで保護しますか?-How do you secure that data?

    - そのデータに悪意があり、サービスがターゲットである場合はどうなりますか?-What if it’s malicious and your service is the target?

  • この場合の偽陽性とはどのようなものですか?What does a false-positive look like here? 偽陰性の影響はどのようなものですか?What is the impact of a false-negative?

  • 複数のモデル間の真陽性と偽陽性の比率の偏差を追跡して測定できますか?Can you track and measure deviation of True Positive vs False Positive rates across multiple models?

  • モデル出力の信頼性を顧客に証明するために、どのような種類のテレメトリが必要ですか?What kind of telemetry do you need to prove the trustworthiness of your model output to your customers?

  • ML またはトレーニング データ サプライ チェーン (オープン ソース ソフトウェアだけでなく、データ プロバイダーも含む) におけるサード パーティの依存関係をすべて特定しますIdentify all 3rd party dependencies in your ML/Training data supply chain – not just open source software, but data providers as well

    - サード パーティを使用する理由は何ですか? また、その信頼性はどのように確認しますか?-Why are you using them and how do you verify their trustworthiness?

  • サード パーティの事前構築済みモデルを使用していますか? また、サード パーティの MLaaS プロバイダーにトレーニング データを提出していますか?Are you using pre-built models from 3rd parties or submitting training data to 3rd party MLaaS providers?

  • 類似の製品やサービスに対する攻撃に関するニュース記事の一覧表を作成します。Inventory news stories about attacks on similar products/services. 多くの AI/ML の脅威はモデルの種類間で転移することを理解したうえで、これらの攻撃がご自身の製品に与える影響はどのようなものですか?Understanding that many AI/ML threats transfer between model types, what impact would these attacks have on your own products?

  • ニューラル ネットワークの再プログラミングNeural Net Reprogramming

  • 物理ドメインにおける敵対的な例Adversarial Examples in the physical domain

  • 悪意ある ML プロバイダーによるトレーニング データの復旧Malicious ML Providers Recovering Training Data

  • ML サプライ チェーンへの攻撃Attacking the ML Supply Chain

  • モデルに対するバックドア攻撃Backdoored Model

  • ML 固有の依存関係の侵害Compromised ML-specific dependencies

攻撃の例Example Attacks

  • 悪意のある MLaaS プロバイダーが特定のバイパスを使用してモデルにトロイの木馬を仕掛けるMalicious MLaaS provider trojans your model with a specific bypass

  • 敵対者な顧客が、使用中の一般的な OSS 依存関係の脆弱性を見つけ、作成したトレーニング データ ペイロードをアップロードしてサービスを侵害するAdversary customer finds vulnerability in common OSS dependency you use, uploads crafted training data payload to compromise your service

  • 悪質なパートナーが顔認識 API を使用し、サービス上でプレゼンテーション層を作成してディープ フェイクを生成する。Unscrupulous partner uses facial recognition APIs and creates a presentation layer over your service to produce Deep Fakes.

AI/ML 固有の脅威とその軽減策AI/ML-specific Threats and their Mitigations

#1: 敵対的摂動#1: Adversarial Perturbation

説明Description

摂動スタイルの攻撃では、攻撃者は、密かにクエリを変更して、運用環境に展開されているモデルから目的の応答を引き出します [1]。In perturbation-style attacks, the attacker stealthily modifies the query to get a desired response from a production-deployed model[1]. これはモデルの入力の整合性を侵害するため、ファジー スタイルの攻撃につながります。最終的な結果は必ずしもアクセス違反または EOP というわけではありませんが、代わりにモデルの分類のパフォーマンスを低下させます。This is a breach of model input integrity which leads to fuzzing-style attacks where the end result isn’t necessarily an access violation or EOP, but instead compromises the model’s classification performance. また、これは、AI が禁止するような方法で特定のターゲット単語を使用した荒し行為として現れることもあります。これにより、"禁止されている" 単語に一致する名前を持つ正当なユーザーが事実上サービスから拒否されてしまいます。This can also be manifested by trolls using certain target words in a way that the AI will ban them, effectively denying service to legitimate users with a name matching a “banned” word.

[24][24]

バリアント #1a: 標的型誤分類Variant #1a: Targeted misclassification

この場合、攻撃者は、対象となる分類子の入力クラスに含まれないが、その特定の入力クラスとしてモデルによって分類されているサンプルを生成します。In this case attackers generate a sample that is not in the input class of the target classifier but gets classified by the model as that particular input class. 敵対的サンプルは人間の目にはランダムなノイズのように見えますが、攻撃者は、標的となる機械学習システムについての知識を持っているため、ランダムではなく、対象モデルの特定の側面を悪用するホワイト ノイズを生成することができます。The adversarial sample can appear like random noise to human eyes but attackers have some knowledge of the target machine learning system to generate a white noise that is not random but is exploiting some specific aspects of the target model. 敵対者が正当ではない入力サンプルを提供しても、ターゲット システムはこれを正当なクラスとして分類します。The adversary gives an input sample that is not a legitimate sample, but the target system classifies it as a legitimate class.

Examples

[6][6]

軽減策Mitigations

  • 対敵トレーニングによって誘導されるモデルの信頼度を使用した対敵堅牢性の補強 [19]: 筆者たちは、高信頼性ニアネイバー (HCNN) というフレームワークを提案しています。これは、信用情報とニアレストネイバー検索を組み合わせて、基本モデルの対敵堅牢性を高めます。Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training [19]: The authors propose Highly Confident Near Neighbor (HCNN), a framework that combines confidence information and nearest neighbor search, to reinforce adversarial robustness of a base model. これは、基になるトレーニング分布からサンプリングされたポイントの近隣部分で、適切なモデル予測と間違ったモデル予測を識別するのに役立ちます。This can help distinguish between right and wrong model predictions in a neighborhood of a point sampled from the underlying training distribution.

  • 属性駆動型の原因分析 [20]: 筆者たちは、敵対的摂動に対する回復力と、機械学習モデルによって生成される個々の決定の属性ベースの説明との間のつながりを調べています。Attribution-driven Causal Analysis [20]: The authors study the connection between the resilience to adversarial perturbations and the attribution-based explanation of individual decisions generated by machine learning models. 彼らは、敵対的入力が属性空間では堅牢ではないことを報告しています。つまり、いくつかの特徴を高い属性でマスキングすると、敵対的サンプルに対する機械学習モデルの優柔不断さが変化します。They report that adversarial inputs are not robust in attribution space, that is, masking a few features with high attribution leads to change indecision of the machine learning model on the adversarial examples. 対照的に、自然な入力は属性空間において堅牢です。In contrast, the natural inputs are robust in attribution space.

    [20][20]

これらのアプローチでは、悪意のある攻撃に対する機械学習モデルの回復力を強化できます。これは、この 2 層の認識システムを欺くには、元のモデルを攻撃するだけでなく、敵対的なサンプルに対して生成される属性と元のサンプルの類似性を確保する必要もあるからです。These approaches can make machine learning models more resilient to adversarial attacks because fooling this two-layer cognition system requires not only attacking the original model but also ensuring that the attribution generated for the adversarial example is similar to the original examples. 悪意のある攻撃を成功させるには、両方のシステムを同時に侵害する必要があります。Both the systems must be simultaneously compromised for a successful adversarial attack.

同時に行われることが多い攻撃Traditional Parallels

攻撃者がモデルを制御できるようになった後の、リモートからの特権の昇格Remote Elevation of Privilege since attacker is now in control of your model

重大度Severity

CriticalCritical

バリアント #1b: ソースまたはターゲットの誤分類Variant #1b: Source/Target misclassification

これは、特定の入力に対して目的のラベルを返すようにモデルを操作しようとする攻撃者の試みとして特徴付けられます。This is characterized as an attempt by an attacker to get a model to return their desired label for a given input. 通常、これによってモデルからは擬陽性または偽陰性が返されます。This usually forces a model to return a false positive or false negative. 最終的にモデルの分類精度がわずかに乗っ取られるため、攻撃者は自由に特定のバイパスを誘導することができます。The end result is a subtle takeover of the model’s classification accuracy, whereby an attacker can induce specific bypasses at will.

この攻撃は分類の精度に大きな悪影響を与えますが、攻撃者は正しくラベル付けされないようにソース データを操作するだけではなく、目的とする不正なラベルで明確にラベル付けする必要もあるため、実行には非常に時間がかかります。While this attack has a significant detrimental impact to classification accuracy, it can also be more time-intensive to carry out given that an adversary must not only manipulate the source data so that it is no longer labeled correctly, but also labeled specifically with the desired fraudulent label. 多くの場合、これらの攻撃では複数の手順や試行を使用して、誤分類を強制します [3]。These attacks often involve multiple steps/attempts to force misclassification [3]. モデルが標的型誤分類を強制する転移学習攻撃を受けやすい場合、攻撃の調査はオフラインでしか実行できないため、攻撃者の識別可能なトラフィックの痕跡が見つからない可能性があります。If the model is susceptible to transfer learning attacks which force targeted misclassification, there may be no discernable attacker traffic footprint as the probing attacks can be carried out offline.

Examples

害のないメールを強制的にスパムとして分類したり、敵対的なサンプルが検出されないようにしたりします。Forcing benign emails to be classified as spam or causing a malicious example to go undetected. これらは、モデル回避攻撃やモデル擬態攻撃とも呼ばれます。These are also known as model evasion or mimicry attacks.

軽減策Mitigations

事後対応型または防御型検出アクションReactive/Defensive Detection Actions

  • 分類の結果を提供する API への呼び出し間に最小時間しきい値を実装します。Implement a minimum time threshold between calls to the API providing classification results. これにより、成功摂動を見つけるために必要な全体的な時間を増やすことで、複数の手順から成る攻撃テストの速度を鈍化させます。This slows down multi-step attack testing by increasing the overall amount of time required to find a success perturbation.

事前対応型または保護アクションProactive/Protective Actions

  • 特徴のノイズ除去による対敵堅牢性の向上 [22]: 筆者たちは、特徴のノイズ除去を実行して、対敵堅牢性を高める新しいネットワーク アーキテクチャを開発しています。Feature Denoising for Improving Adversarial Robustness [22]: The authors develop a new network architecture that increase adversarial robustness by performing feature denoising. 具体的には、このネットワークには、非ローカルの手段またはその他のフィルターを使用して特徴からノイズを除去するブロックが含まれています。これにより、ネットワーク全体がエンド ツー エンドでトレーニングされます。Specifically, the networks contain blocks that denoise the features using non-local means or other filters; the entire networks are trained end-to-end. 特徴からノイズを除去したネットワークを対敵トレーニングと組み合わせることで、ホワイトボックスとブラックボックスの両方の攻撃設定において、最新の対敵堅牢性が大幅に向上します。When combined with adversarial training, the feature denoising networks substantially improve the state-of-the-art in adversarial robustness in both white-box and black-box attack settings.

  • 対敵トレーニングと正則化: 既知の敵対的サンプルでトレーニングして、悪意のある入力に対して回復力と堅牢性を強化します。Adversarial Training and Regularization: Train with known adversarial samples to build resilience and robustness against malicious inputs. これは正則化の一形式と考えることもできます。正則化では、入力勾配のノルムの大きさにペナルティーを科し、分類子の予測機能をより滑らかにします (入力限界を増やします)。This can also be seen as a form of regularization, which penalizes the norm of input gradients and makes the prediction function of the classifier smoother (increasing the input margin). これには、低信頼度を使用した正しい分類が含まれます。This includes correct classifications with lower confidence rates.

単調な特徴を選択することによる、単調な分類の開発に投資します。Invest in developing monotonic classification with selection of monotonic features. これにより、敵対者は、負のクラスから特徴を埋め込むだけでは分類子を回避できなくなります [13]。This ensures that the adversary will not be able to evade the classifier by simply padding features from the negative class [13].

  • 特徴の絞り出し [18] を使用すると、敵対的なサンプルを検出することで DNN モデルを強化できます。Feature squeezing [18] can be used to harden DNN models by detecting adversarial examples. これにより、元の空間のさまざまな特徴ベクトルに対応するサンプルを単一のサンプルに融合することで、敵対者が使用できる検索領域を減らします。It reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. 元の入力に対する DNN モデルの予測と、絞り出された入力に対する予測を比較することによって、特徴の絞り出しが敵対的なサンプルの検出に役立ちます。By comparing a DNN model’s prediction on the original input with that on the squeezed input, feature squeezing can help detect adversarial examples. 元のサンプルと絞り出されたサンプルでモデルから生成される出力が大幅に異なる場合は、入力が敵対的である可能性があります。If the original and squeezed examples produce substantially different outputs from the model, the input is likely to be adversarial. システムは予測間の不一致を測定し、しきい値を選択することによって、正当なサンプルに対する正しい予測を出力し、敵対的入力を拒否することができます。By measuring the disagreement among predictions and selecting a threshold value, system can output the correct prediction for legitimate examples and rejects adversarial inputs.

    [18][18]

  • 敵対的サンプルに対する認定された防御 [22]: 筆者たちは、特定のネットワークとテスト入力について、いかなる攻撃もエラーが一定の値を超えることを強制できないという証明書を出力する、半限定的な応力緩和に基づく方法を提案しています。Certified Defenses against Adversarial Examples [22]: The authors propose a method based on a semi-definite relaxation that outputs a certificate that for a given network and test input, no attack can force the error to exceed a certain value. 次に、この証明書は弁別可能であるため、筆者たちは合同でネットワーク パラメーターを使用して最適化を行い、すべての攻撃に対する堅牢性を促進するアダプティブな正則化を提供しています。Second, as this certificate is differentiable, authors jointly optimize it with the network parameters, providing an adaptive regularizer that encourages robustness against all attacks.

対応アクションResponse Actions

  • 分類子の間の不一致が大きい (特に 1 人のユーザーまたは少数ユーザーのグループについて不一致が大きい) 分類結果に対してアラートを発行します。Issue alerts on classification results with high variance between classifiers, especially if from a single user or small group of users.

同時に行われることが多い攻撃Traditional Parallels

リモートからの特権の昇格Remote Elevation of Privilege

重大度Severity

CriticalCritical

バリアント #1c: ランダムな誤分類Variant #1c: Random misclassification

これは、攻撃者が正当なソース分類以外のあらゆる分類をターゲットにできる特殊なバリエーションです。This is a special variation where the attacker’s target classification can be anything other than the legitimate source classification. 一般的に、攻撃者は分類済みソース データにランダムにノイズを挿入することで、今後適切な分類が使用される可能性を低下させます [3]。The attack generally involves injection of noise randomly into the source data being classified to reduce the likelihood of the correct classification being used in the future [3].

Examples

軽減策Mitigations

バリアント 1a と同じです。Same as Variant 1a.

同時に行われることが多い攻撃Traditional Parallels

非永続的なサービス拒否Non-persistent denial of service

重大度Severity

重要Important

バリアント #1d: 信頼の低下Variant #1d: Confidence Reduction

特に重要度の高いシナリオで、攻撃者が入力を巧妙に操作して、適切な分類の信頼度レベルを下げます。An attacker can craft inputs to reduce the confidence level of correct classification, especially in high-consequence scenarios. また、これは、正当なアラートと区別できない不正なアラートによって管理者や監視システムを圧倒することを意図した、膨大な数の偽陽性という形を取ることもあります [3]。This can also take the form of a large number of false positives meant to overwhelm administrators or monitoring systems with fraudulent alerts indistinguishable from legitimate alerts [3].

Examples

軽減策Mitigations
  • バリアント #1a で説明されているアクションに加え、イベント調整を使用して 1 つのソースからのアラートの量を減らすことができます。In addition to the actions covered in Variant #1a, event throttling can be employed to reduce the volume of alerts from a single source.
同時に行われることが多い攻撃Traditional Parallels

非永続的なサービス拒否Non-persistent denial of service

重大度Severity

重要Important

#2a 標的型データ ポイズニング#2a Targeted Data Poisoning

説明Description

攻撃者の目標は、トレーニング フェーズで生成されたマシン モデルを汚染し、テスト フェーズにおいて新しいデータに基づく予測を改変することです [1]。The goal of the attacker is to contaminate the machine model generated in the training phase, so that predictions on new data will be modified in the testing phase[1]. 標的型ポイズニング攻撃では、攻撃者の目的は特定のサンプルの分類を誤らせ、特定のアクションを誘発したり、特定のアクションを怠らせたりします。In targeted poisoning attacks, the attacker wants to misclassify specific examples to cause specific actions to be taken or omitted.

Examples

AV ソフトウェアをマルウェアとして送信して、誤分類を悪意のあるものとして強制し、クライアント システムで対象の AV ソフトウェアを使用できないようにします。Submitting AV software as malware to force its misclassification as malicious and eliminate the use of targeted AV software on client systems.

軽減策Mitigations
  • 異常センサーを定義して、データ分布を毎日確認し、バリエーションが見つかったらアラートを表示しますDefine anomaly sensors to look at data distribution on day to day basis and alert on variations

    - トレーニング データのバリエーションを毎日測定し、非対称や誤差のテレメトリを確認します-Measure training data variation on daily basis, telemetry for skew/drift

  • 入力の検証 (サニタイズと整合性チェックの両方)Input validation, both sanitization and integrity checking

  • ポイズニングによって、範囲外のトレーニング サンプルが挿入されます。Poisoning injects outlying training samples. この脅威に反撃するには、主に次の 2 つの戦略があります。Two main strategies for countering this threat:

    - データのサニタイズおよび検証: トレーニング データからのポイズニング サンプルの削除 - バギングを使用したポイズニング攻撃への反撃 [14]-Data Sanitization/ validation: remove poisoning samples from training data -Bagging for fighting poisoning attacks [14]

    - 否定的影響に対する拒否 (RONI) による防御 [15]-Reject-on-Negative-Impact (RONI) defense [15]

    - 堅牢な学習: ポイズニング サンプルが存在していても堅牢な学習アルゴリズムを選択します。-Robust Learning: Pick learning algorithms that are robust in the presence of poisoning samples.

    - このようなアプローチについては [21] で説明されています。筆者たちは、次の 2 つの手順でデータ ポイズニングの問題に対処しています。1) 斬新で堅牢な行列の因数分解方法を導入して、真のサブ空間を回復し、2) 手順 (1) で回復されたベースに基づいて、斬新で堅牢な主成分分析回帰によって敵対的インスタンスを取り除きます。-One such approach is described in [21] where authors address the problem of data poisoning in two steps: 1) introducing a novel robust matrix factorization method to recover the true subspace, and 2) novel robust principle component regression to prune adversarial instances based on the basis recovered in step (1). 彼らは、真のサブ空間を正常に復旧するために必要十分な条件を特徴付け、グラウンド トゥルースと比較した場合に予期される予測損失の境界を示しています。They characterize necessary and sufficient conditions for successfully recovering the true subspace and present a bound on expected prediction loss compared to ground truth.

同時に行われることが多い攻撃Traditional Parallels

トロイの木馬を忍ばせることで、攻撃者が長期間ネットワーク上に存在します。Trojaned host whereby attacker persists on the network. トレーニング データまたは構成データが侵害され、モデルを作成する際に取り込まれたり、信頼されたりします。Training or config data is compromised and being ingested/trusted for model creation.

重大度Severity

CriticalCritical

#2b 無差別のデータ ポイズニング#2b Indiscriminate Data Poisoning

説明Description

目標は、攻撃対象のデータ セットの品質または整合性を損なうことです。Goal is to ruin the quality/integrity of the data set being attacked. 多くのデータセットは公開されており、信頼されておらず、選別もされていないため、この攻撃によって、まずこのようなデータ整合性違反を特定する能力に関する懸念が増大します。Many datasets are public/untrusted/uncurated, so this creates additional concerns around the ability to spot such data integrity violations in the first place. 気付かないうちに侵害されたデータを使用してトレーニングを行うことは、"ゴミを入れるとゴミが出てくる" 状況となります。Training on unknowingly compromised data is a garbage-in/garbage-out situation. 検出された場合、トリアージによって、侵害されてるデータの範囲を確定し、検疫および再トレーニングする必要があります。Once detected, triage needs to determine the extent of data that has been breached and quarantine/retrain.

Examples

ある企業はモデルをトレーニングするために、信頼できる有名 Web サイトで原油の先物データを収集しています。A company scrapes a well-known and trusted website for oil futures data to train their models. そのデータ プロバイダーの Web サイトが、その後 SQL インジェクション攻撃によって侵害されます。The data provider’s website is subsequently compromised via SQL Injection attack. 攻撃者はデータセットを自由に汚染することができ、トレーニングされるモデルにはデータが汚染されている兆候は見えません。The attacker can poison the dataset at will and the model being trained has no notion that the data is tainted.

軽減策Mitigations

バリアント 2a と同じです。Same as variant 2a.

同時に行われることが多い攻撃Traditional Parallels

高価値資産に対する認証済みのサービス拒否攻撃Authenticated Denial of service against a high-value asset

重大度Severity

重要Important

#3 モデル反転攻撃#3 Model Inversion Attacks

説明Description

機械学習モデルで使用されるプライベートな特徴を復元することができます [1]。The private features used in machine learning models can be recovered [1]. これには、攻撃者がアクセスできないプライベートなトレーニング データの再構築が含まれます。This includes reconstructing private training data that the attacker does not have access to. 生体認証コミュニティでは、ヒル クライム攻撃とも呼ばれています [16、17]。これは、返される信頼度レベルを最大化する入力を見つけることで達成されますが、ターゲットに一致する分類によって左右されます [4]。Also known as hill climbing attacks in the biometric community [16, 17] This is accomplished by finding the input which maximizes the confidence level returned, subject to the classification matching the target [4].

Examples

[4][4]

軽減策Mitigations
  • 機密データでトレーニングされたモデルへのインターフェイスには、強力なアクセス制御が必要です。Interfaces to models trained from sensitive data need strong access control.

  • モデルで許可されるクエリ数を制限しますRate-limit queries allowed by model

  • 提示されたすべてのクエリに対して入力の検証を実行し、ユーザーまたは呼び出し元と実際のモデルとの間にゲートを実装します。これにより、モデルの入力の正しさの定義に合致しないクエリをすべて拒否し、有用であるために必要な最小限の情報のみを返すようにします。Implement gates between users/callers and the actual model by performing input validation on all proposed queries, rejecting anything not meeting the model’s definition of input correctness and returning only the minimum amount of information needed to be useful.

同時に行われることが多い攻撃Traditional Parallels

標的型攻撃、隠れた情報漏えいTargeted, covert Information Disclosure

重大度Severity

標準の SDL バグ バーに従えば既定で "重要" ですが、機密データや個人を特定できるデータが抽出される場合は、"クリティカル" になります。This defaults to important per the standard SDL bug bar, but sensitive or personally identifiable data being extracted would raise this to critical.

#4 メンバーシップ推論攻撃#4 Membership Inference Attack

説明Description

攻撃者は、特定のデータ レコードがそのモデルのトレーニング データセットに含まれていたかどうかを判別できます [1]。The attacker can determine whether a given data record was part of the model’s training dataset or not[1]. 研究者は、患者の主要な治療内容 (例: 患者が受けてきた外科手術) について、属性 (例: 年齢、性別、病院) に基づいて予測することができました [1]。Researchers were able to predict a patient’s main procedure (e.g: Surgery the patient went through) based on the attributes (e.g: age, gender, hospital) [1].

[12][12]

軽減策Mitigations

この攻撃の実行可能性を論証する研究論文では、差分プライバシー [4、9] が効果的な軽減策であることが示されています。Research papers demonstrating the viability of this attack indicate Differential Privacy [4, 9] would be an effective mitigation. これは Microsoft にとって新たな分野であるため、AETHER セキュリティ エンジニアリングではこの領域の研究に投資を行い専門知識を高めることを推奨しています。This is still a nascent field at Microsoft and AETHER Security Engineering recommends building expertise with research investments in this space. この研究では、差分プライバシーの機能を列挙し、その軽減策としての実際的な有効性を評価した後、(Visual Studio でコードをコンパイルすると、開発者とユーザーには透過的にセキュリティが既定で有効になるのと同じように)、これらの防御がオンライン サービス プラットフォームで透過的に継承されるように設計する必要があります。This research would need to enumerate Differential Privacy capabilities and evaluate their practical effectiveness as mitigations, then design ways for these defenses to be inherited transparently on our online services platforms, similar to how compiling code in Visual Studio gives you on-by-default security protections which are transparent to the developer and users.

ニューロン ドロップアウトとモデル スタッキングを使用することで、ある程度は効果的に軽減することができます。The usage of neuron dropout and model stacking can be effective mitigations to an extent. ニューロン ドロップアウトを使用すると、この攻撃に対するニューラル ネットワークの回復力が向上するだけでなく、モデルのパフォーマンスを向上させることもできます [4]。Using neuron dropout not only increases resilience of a neural net to this attack, but also increases model performance [4].

同時に行われることが多い攻撃Traditional Parallels

データのプライバシー。Data Privacy. トレーニング セットにデータ ポイントが含まれるかどうかについての推論は行われますが、トレーニング データ自体が漏えいすることはありませんInferences are being made about a data point’s inclusion in the training set but the training data itself is not being disclosed

重大度Severity

これはプライバシーの問題であり、セキュリティ上の問題ではありません。This is a privacy issue, not a security issue. この問題については脅威のモデル化のガイダンスで取り上げられています。領域は重なっていますが、ガイダンスではセキュリティではなくプライバシーの観点から回答が行われています。It is addressed in threat modeling guidance because the domains overlap, but any response here would be driven by Privacy, not Security.

#5 モデルの盗難#5 Model Stealing

説明Description

攻撃者は、モデルに対して正当なクエリを実行することで、基になるモデルを再作成します。The attackers recreate the underlying model by legitimately querying the model. 新しいモデルの機能は、基になるモデルの機能と同じになります [1]。The functionality of the new model is same as that of the underlying model[1]. モデルを再作成すると、逆に特徴情報を復旧したり、トレーニング データに対して推論を行ったりすることができるようになります。Once the model is recreated, it can be inverted to recover feature information or make inferences on training data. 

  • 式を解く - API 出力を使用してクラスの確率を返すモデルの場合、攻撃者はモデル内の不明な変数を特定するクエリを作成できます。Equation solving – For a model that returns class probabilities via API output, an attacker can craft queries to determine unknown variables in a model.

  • パスを見つける - API の特殊性を悪用して、入力を分類する際にツリーによって取得された "決定" を抽出する攻撃 [7]。Path Finding – an attack that exploits API particularities to extract the ‘decisions’ taken by a tree when classifying an input [7].

  • 転移可能性攻撃 - 敵対者は、標的のモデルに予測クエリを発行することで、ローカル モデルをトレーニングし、そのモデルを使用して標的のモデルに転送する敵対的サンプルを作成することができます [8]。Transferability attack - An adversary can train a local model—possibly by issuing prediction queries to the targeted model - and use it to craft adversarial examples that transfer to the target model [8]. モデルを抽出し、敵対的入力タイプの攻撃に対して脆弱であることが判明した場合、モデルのコピーを抽出した攻撃者は、運用環境に配置されているモデルに対する新しい攻撃を完全にオフラインの状態で開発できます。If your model is extracted and discovered vulnerable to a type of adversarial input, new attacks against your production-deployed model can be developed entirely offline by the attacker who extracted a copy of your model.

Examples

スパムの識別、マルウェアの分類、ネットワークの異常検出など、敵対的動作を検出するために ML モデルを役立たせる設定では、モデルを抽出することによってこれらを回避する攻撃が容易になります [7]。In settings where an ML model serves to detect adversarial behavior, such as identification of spam, malware classification, and network anomaly detection, model extraction can facilitate evasion attacks [7].

軽減策Mitigations

事前対応型または保護アクションProactive/Protective Actions

  • 予測 API で返される詳細情報を最小限に抑えたり難読化したりしながらも、その有用性を "誠実な" アプリケーションと言えるレベルに維持します [7]。Minimize or obfuscate the details returned in prediction APIs while still maintaining their usefulness to “honest” applications [7].

  • モデル入力に対して整形式のクエリを定義し、その形式に一致する完全に整形式の入力にのみ応答する結果を返します。Define a well-formed query for your model inputs and only return results in response to completed, well-formed inputs matching that format.

  • 丸められた信頼度値を返します。Return rounded confidence values. 大部分の正当な呼び出し元には、小数第 2 位以上の精度は不要です。Most legitimate callers do not need multiple decimal places of precision.

同時に行われることが多い攻撃Traditional Parallels

価値の高い情報の漏えいを目的とした、システム データに対する認証されていない読み取り専用の改ざん。Unauthenticated, read-only tampering of system data, targeted high-value information disclosure?

重大度Severity

セキュリティが重視されるモデルでは "重要"、それ以外の場合は "中程度"Important in security-sensitive models, Moderate otherwise

#6 ニューラル ネットワークの再プログラミング#6 Neural Net Reprogramming

説明Description

敵対者によって特別に作成されたクエリを使用することで、機械学習システムを作成者の本来の目的から逸脱したタスクに再プログラミングできます [1]。By means of a specially crafted query from an adversary, Machine learning systems can be reprogrammed to a task that deviates from the creator’s original intent [1].

Examples

顔認識 API のアクセス制御が脆弱な場合、サード パーティが Microsoft の顧客に害を与えるように設計されたアプリ (ディープ フェイク ジェネレーターなど) に組み込むことができます。Weak access controls on a facial recognition API enabling 3rd parties to incorporate into apps designed to harm Microsoft customers, such as a deep fakes generator.

軽減策Mitigations
  • クライアント<->とサーバー間の相互認証およびモデル インターフェイスへのアクセス制御を強化するStrong client<->server mutual authentication and access control to model interfaces

  • 問題のあるアカウントを停止します。Takedown of the offending accounts.

  • API のサービス レベル アグリーメントを特定して適用します。Identify and enforce a service-level agreement for your APIs. 報告された問題の修正に許容できる時間を決定し、SLA の有効期限が切れた時点で問題が再現されないことを確認します。Determine the acceptable time-to-fix for an issue once reported and ensure the issue no longer repros once SLA expires.

同時に行われることが多い攻撃Traditional Parallels

これは不正使用のシナリオです。This is an abuse scenario. 違反者のアカウントを無効にするだけで、セキュリティ インシデントが発生する可能性は低くなります。You're less likely to open a security incident on this than you are to simply disable the offender’s account.

重大度Severity

"重要" から "クリティカル"Important to Critical

#7 物理ドメインにおける敵対的サンプル (ビット -> アトム)#7 Adversarial Example in the Physical domain (bits->atoms)

説明Description

敵対的サンプルとは、機械学習システムをミスリードするという唯一の目的で、悪意のあるエンティティから送信された入力やクエリのことです [1]An adversarial example is an input/query from a malicious entity sent with the sole aim of misleading the machine learning system [1]

Examples

これらのサンプルは、物理ドメインで発生する可能性があります。たとえば、特定の色の信号灯 (敵対的入力) が一時停止の標識で点灯しており、画像認識システムが停止標識を停止標識として認識できなくなっているため、自己運転車が騙されて停止の標識を無視して走行する場合が考えられます。These examples can manifest in the physical domain, like a self-driving car being tricked into running a stop sign because of a certain color of light (the adversarial input) being shone on the stop sign, forcing the image recognition system to no longer see the stop sign as a stop sign.  

同時に行われることが多い攻撃Traditional Parallels

特権の昇格、リモートでのコード実行Elevation of Privilege, remote code execution

軽減策Mitigations

これらの攻撃は、機械学習レイヤー (AI 駆動型の意思決定の下にあるデータ & アルゴリズム レイヤー) の問題が軽減されなかったために発生します。These attacks manifest themselves because issues in the machine learning layer (the data & algorithm layer below AI-driven decisionmaking) were not mitigated. 他のソフトウェア *または* 物理システムと同様に、標的の下にあるレイヤーは、常に従来のベクトルを通じて攻撃を受ける可能性があります。As with any other software *or* physical system, the layer below the target can always be attacked through traditional vectors. このため、従来のセキュリティ プラクティスはかつてないほど重要になっています。特に、脆弱性が軽減されていないレイヤー (データまたはアルゴリズム レイヤー) が、AI と従来のソフトウェアの間で使用されている場合は重要です。Because of this, traditional security practices are more important than ever, especially with the layer of unmitigated vulnerabilities (the data/algo layer) being used between AI and traditional software.

重大度Severity

CriticalCritical

#8 トレーニング データを復旧できる悪意のある ML プロバイダー#8 Malicious ML providers who can recover training data 

説明Description

悪意のあるプロバイダーがバックドア アルゴリズムを提供し、そこから非公開のトレーニング データが再生されます。A malicious provider presents a backdoored algorithm, wherein the private training data is recovered. 彼らはモデルを与えられるだけで、顔とテキストを再構築できました。 They were able to reconstruct faces and texts, given the model alone.

同時に行われることが多い攻撃Traditional Parallels

標的型情報漏えいTargeted information disclosure

軽減策Mitigations

この攻撃の実行可能性を論証する研究論文では、準同型暗号化が効果的な軽減策であることが示されています。Research papers demonstrating the viability of this attack indicate Homomorphic Encryption would be an effective mitigation. これは現在 Microsoft ではほとんど投資が行われていない分野であるため、AETHER セキュリティ エンジニアリングではこの領域の研究に投資を行い専門知識を高めることを推奨しています。This is an area with little current investment at Microsoft and AETHER Security Engineering recommends building expertise with research investments in this space. この研究では、準同型暗号化の原則を列挙し、悪意のある "サービスとしての ML" プロバイダーに対する軽減策として、それらが実際にどの程度有効であるかを評価する必要があります。This research would need to enumerate Homomorphic Encryption tenets and evaluate their practical effectiveness as mitigations in the face of malicious ML-as-a-Service providers.

重大度Severity

データが PII の場合は "重要"、それ以外の場合は "中程度"Important if data is PII, Moderate otherwise

#9 ML サプライ チェーンへの攻撃#9 Attacking the ML Supply Chain

説明Description

アルゴリズムのトレーニングに大規模なリソース (データ + 計算) が必要であるため、現時点では大企業がトレーニングしたモデルを再利用して、当面のタスクに合わせてわずかに変更する方法が一般的です (例: ResNet は Microsoft が提供する、広く使われている画像認識モデルです)。Owing to large resources (data + computation) required to train algorithms, the current practice is to reuse models trained by large corporations and modify them slightly for task at hand (e.g: ResNet is a popular image recognition model from Microsoft). これらのモデルは、Model Zoo によって厳選されたものです (Caffe は人気の画像認識モデルをホストしています)。These models are curated in a Model Zoo (Caffe hosts popular image recognition models). この攻撃では、敵対者は Caffe でホストされているモデルを攻撃することで、だれもが利用する "井戸" を毒します。In this attack, the adversary attacks the models hosted in Caffe, thereby poisoning the well for anyone else. [1] [1]

同時に行われることが多い攻撃Traditional Parallels
  • サード パーティが提供する、セキュリティ関連以外の依存関係が侵害されるCompromise of third-party non-security dependency

  • 知らないうちにアプリ ストアがマルウェアをホストしているApp store unknowingly hosting malware

軽減策Mitigations
  • モデルとデータについては、サード パーティとの依存関係を可能な限り最小限に抑えます。Minimize 3rd-party dependencies for models and data where possible.

  • これらの依存関係を脅威のモデル化のプロセスに組み込みます。Incorporate these dependencies into your threat modeling process.

  • ファースト パーティ システムとサード パーティシ ステムの間で、強力な認証、アクセス制御、暗号化を活用します。Leverage strong authentication, access control and encryption between 1st/3rd-party systems.

重大度Severity

CriticalCritical

#10 バックドア機械学習#10 Backdoor Machine Learning

説明Description

トレーニング データを改ざんし、トロイの木馬モデルを供給する悪意のあるサード パーティにトレーニング プロセスが外注されます。このモデルは、特定のウイルスを悪意のないものとして分類するなど、対象に誤分類を強制します [1]。The training process is outsourced to a malicious 3rd party who tampers with training data and delivered a trojaned model which forces targeted mis-classifications, such as classifying a certain virus as non-malicious[1]. これは、"サービスとしての ML" によるモデル生成シナリオにおけるリスクです。This is a risk in ML-as-a-Service model-generation scenarios.

[12][12]

同時に行われることが多い攻撃Traditional Parallels
  • サード パーティが提供する、セキュリティ関連の依存関係が侵害されるCompromise of third-party security dependency

  • ソフトウェア更新メカニズムの侵害Compromised Software Update mechanism

  • 証明機関の侵害Certificate Authority compromise

軽減策Mitigations
事後対応型または防御型検出アクションReactive/Defensive Detection Actions
  • この脅威が発見された時点で、既に被害が及んでいます。そのため、悪意のあるプロバイダーによって提供されるモデルとトレーニング データを信頼することはできません。The damage is already done once this threat has been discovered, so the model and any training data provided by the malicious provider cannot be trusted.
事前対応型または保護アクションProactive/Protective Actions
  • 機密性の高いモデルはすべて社内でトレーニングするTrain all sensitive models in-house

  • トレーニング データをカタログにする、またはトレーニング データが強力なセキュリティ プラクティスを備えた信頼できるサード パーティから提供されていることを確認するCatalog training data or ensure it comes from a trusted third party with strong security practices

  • MLaaS プロバイダーと自身のシステムの間のやり取りにおける脅威をモデル化するThreat model the interaction between the MLaaS provider and your own systems

対応アクションResponse Actions
  • 外部依存関係の侵害の場合と同じSame as for compromise of external dependency
重大度Severity

CriticalCritical

#11 ML システムのソフトウェアの依存関係の悪用#11 Exploit software dependencies of the ML system

説明Description

この攻撃では、攻撃者はアルゴリズムの操作は行いません。In this attack, the attacker does NOT manipulate the algorithms. 代わりに、バッファー オーバーフローやクロスサイト スクリプティングなどのソフトウェアの脆弱性を悪用します [1]。Instead, exploits software vulnerabilities such as buffer overflows or cross-site scripting[1]. AI/ML の下にあるソフトウェア レイヤーを侵害するのは、学習レイヤーを直接攻撃するよりも容易です。したがって、セキュリティ開発ライフサイクルで詳細に説明されている従来のセキュリティ脅威軽減策がきわめて重要です。It is still easier to compromise software layers beneath AI/ML than attack the learning layer directly, so traditional security threat mitigation practices detailed in the Security Development Lifecycle are essential.

同時に行われることが多い攻撃Traditional Parallels
  • オープンソース ソフトウェアの依存関係の侵害Compromised Open Source Software Dependency

  • Web サーバーの脆弱性 (XSS、CSRF、API の入力検証エラー)Web server vulnerability (XSS, CSRF, API input validation failure)

軽減策Mitigations

セキュリティ チームと協力して、セキュリティ開発ライフサイクルや運用セキュリティ アシュアランスで適用可能なベスト プラクティスに従います。Work with your security team to follow applicable Security Development Lifecycle/Operational Security Assurance best practices.

重大度Severity

従来のソフトウェアの脆弱性の種類によってさまざまに異なります。Variable; Up to Critical depending on the type of traditional software vulnerability.

参考文献Bibliography

[1] 「Failure Modes in Machine Learning (機械学習の障害モード)」、Ram Shankar Siva Kumar、David O'Brien、Kendra Albert、Salome Viljoen、Jeffrey Snover、/security/failure-modes-in-machine-learning[1] Failure Modes in Machine Learning, Ram Shankar Siva Kumar, David O’Brien, Kendra Albert, Salome Viljoen, and Jeffrey Snover, /security/failure-modes-in-machine-learning

[2] AETHER セキュリティ エンジニアリング ワークストリーム、「Data Provenance/Lineage (データの来歴と系列)」、v チーム[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] 「Adversarial Examples in Deep Learning:Characterization and Divergence (ディープ ラーニングにおける敵対的サンプル: 特性と分岐)」、Wei 他、https://arxiv.org/pdf/1807.00051.pdf[3] Adversarial Examples in Deep Learning: Characterization and Divergence, Wei, et al, https://arxiv.org/pdf/1807.00051.pdf

[4] 「ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models (ML の漏えい: 機械学習モデルにおけるモデルおよびデータに依存しないメンバーシップ推論攻撃と防御)」、Salem 他、https://arxiv.org/pdf/1806.01246v2.pdf[4] ML-Leaks: Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models, Salem, et al, https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson、S. Jha、T. Ristenpart、「Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures (信用情報を悪用したモデル反転攻撃と基本的対抗手段)」。コンピューターと通信のセキュリティ (CCS) に関する 2015 年の ACM SIGSAC カンファレンスの議事録より。[5] M. Fredrikson, S. Jha, and T. Ristenpart, “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures,” in Proceedings of the 2015 ACM SIGSAC Conference on Computer and Communications Security (CCS).

[6] Nicolas Pagenot、Patrick McDaniel、「Adversarial Examples in Machine Learning (機械学習における敵対的サンプル)」、AIWTB 2017[6] Nicolas Papernot & Patrick McDaniel- Adversarial Examples in Machine Learning AIWTB 2017

[7] 「Stealing Machine Learning Models via Prediction APIs (予測 API を介した機械学習モデルの盗用)」、Florian Tramèr (スイス連邦工科大学ローザンヌ校 (EPFL))、Fan Zhang (コーネル大学)、Ari Juels (コーネル テック)、Michael K. Reiter (ノースカロライナ大学チャペルヒル校)、Thomas Ristenpart (コーネル テック)[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] 「The Space of Transferable Adversarial Examples (転送可能な敵対的サンプルの領域)」、Florian Tramèr、Nicolas Papernot、Ian Goodfellow、Dan Boneh、Patrick McDaniel[8] The Space of Transferable Adversarial Examples, Florian Tramèr , Nicolas Papernot , Ian Goodfellow , Dan Boneh , and Patrick McDaniel

[9] 「Understanding Membership Inferences on Well-Generalized Learning Models (適切に生成された学習モデルでのメンバーシップの推論について)」、Yunhui Long 1、Vincent Bindschaedler 1、Lei Wang 2、Diyue Bu 2、Xiaofeng Wang 2、Haixu Tang 2、Carl A. Gunter 1、Kai Chen 3、4[9] Understanding Membership Inferences on Well-Generalized Learning Models Yunhui Long1 , Vincent Bindschaedler1 , Lei Wang2 , Diyue Bu2 , Xiaofeng Wang2 , Haixu Tang2 , Carl A. Gunter1 , and Kai Chen3,4

[10] Simon-Gabriel 他、「Adversarial vulnerability of neural networks increases with input dimension (ニューラルネット ワークの敵対的脆弱性は入力ディメンションが増えると共に増える)」、ArXiv 2018[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu 他、「A unified gradient regularization family for adversarial examples (敵対的サンプルの統一された勾配正則化ファミリ)」、ICDM 2015[11] Lyu et al., A unified gradient regularization family for adversarial examples, ICDM 2015

[12] 「Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning (ワイルドなパターン: 敵対的機械学習の出現からの 10 年)」、NeCS 2019 Battista Biggioa、Fabio Roli[12] Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning - NeCS 2019 Battista Biggioa, Fabio Roli

[13] 「Adversarially Robust Malware Detection Using Monotonic Classification (単調な分類を使用した、対敵堅牢性を備えたマルウェア検出機能)」、Inigo Incer 他。[13] Adversarially Robust Malware Detection UsingMonotonic Classification Inigo Incer et al.

[14] Battista Biggio、Igino Corona、Giorgio Fumera、Giorgio Giacinto、Fabio Roli。[14] Battista Biggio, Igino Corona, Giorgio Fumera, Giorgio Giacinto, and Fabio Roli. 「Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks (分類子のバギングによる、敵対的分類タスクでのポイズニング攻撃への反撃)」Bagging Classifiers for Fighting Poisoning Attacks in Adversarial Classification Tasks

[15] 「An Improved Reject on Negative Impact Defense (否定的影響に対する拒否による防御の強化)」、Hongjiang Li、Patrick P.K.[15] An Improved Reject on Negative Impact Defense Hongjiang Li and Patrick P.K. ChanChan

[16] Adler、[16] Adler. 「Vulnerabilities in biometric encryption systems (生体暗号化システムの脆弱性)」。Vulnerabilities in biometric encryption systems. 第 5 回国際会議。5th Int’l Conf. AVBPA、2005AVBPA, 2005

[17] Galbally、McCool、Fierrez、Marcel、Ortega-Garcia、[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. 「On the vulnerability of face verification systems to hill-climbing attacks (ヒルクライム攻撃に対する顔検証システムの脆弱性)」。On the vulnerability of face verification systems to hill-climbing attacks. Patt.Patt. Rec、2010Rec., 2010

[18] Weilin Xu、David Evans、Yanjun Qi。[18] Weilin Xu, David Evans, Yanjun Qi. 「Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks (特徴の絞り出し: ディープ ニューラル ネットワークにおける敵対的サンプルの検出)」。Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks. 2018 年開催のネットワークおよび分散システムのセキュリティに関するシンポジウム。2018 Network and Distributed System Security Symposium. 2 月 18 日から 21 日。18-21 February.

[19] 「Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training (対敵トレーニングによって誘導されるモデルの信頼度を使用した対敵堅牢性の補強)」、Xi Wu、Uyeong Jang、Jiefeng Chen、Lingjiao Chen、Somesh Jha[19] Reinforcing Adversarial Robustness using Model Confidence Induced by Adversarial Training - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] 「Attribution-driven Causal Analysis for Detection of Adversarial Examples (敵対的サンプルを検出するための属性駆動型の原因分析)」、Susmit Jha、Sunny Raj、Steven Fernandes、Sumit Kumar Jha、Somesh Jha、Gunjan Verma、Brian Jalaian、Ananthram Swami[20] Attribution-driven Causal Analysis for Detection of Adversarial Examples, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] 「Robust Linear Regression Against Training Data Poisoning (トレーニング データのポイズニングに対する堅牢な線形回帰)」、Chang Liu 他。[21] Robust Linear Regression Against Training Data Poisoning – Chang Liu et al.

[22] 「Feature Denoising for Improving Adversarial Robustness (特徴のノイズ除去による対敵堅牢性の向上)」、Cihang Xie、Yuxin Wu、Laurens van der Maaten、Alan Yuille、Kaiming He[22] Feature Denoising for Improving Adversarial Robustness, Cihang Xie, Yuxin Wu, Laurens van der Maaten, Alan Yuille, Kaiming He

[23] 「Certified Defenses against Adversarial Examples (敵対的サンプルに対する認定された防御)」、Aditi Raghunathan、Jacob Steinhardt、Percy Liang[23] Certified Defenses against Adversarial Examples - Aditi Raghunathan, Jacob Steinhardt, Percy Liang