Microsoft での人工知能と機械学習の未来の保護

Andrew Marshall、Raul Rojas、Jay Stokes、Donald Brinkman

Mark Cartwright と Graham Calladine に感謝します

概要

人工知能 (AI) と Machine ラーニング (ML) は、人々の仕事、交流、生活に大きな影響を与えています。 AI/MLを使用して構築された製品とサービスの使用が増えるにつれて、顧客とそのデータを保護するだけでなく、AI とアルゴリズムを不正使用、荒らし、抽出からも保護するために、特殊な操作を行う必要があります。 このドキュメントでは、AI 上に構築された製品の設計とオンライン サービスの運用から学んだ Microsoftのセキュリティに関する教訓をいくつか紹介します。 この領域がどのように展開されるかを予測することは困難ですが、現在対処する必要がある実行可能な問題があると結論付けました。 さらに、顧客の長期的な安全とデータのセキュリティを確保するために、テクノロジ業界が先手を打つ必要のある戦略的な問題があることがわかりました。

このドキュメントでは、AI ベースの攻撃や、人間の敵対者によって活用される AI については説明しません。 代わりに、個々のトロールまたはオオカミパック全体によって実行されるかにかかわらず、高度な創造的で悪意のある攻撃から AI ベースの製品とサービスを保護するために、Microsoft と業界のパートナーが対処する必要がある問題に重点を置いています。

このドキュメントでは、AI/ML 空間に固有のセキュリティ エンジニアリングの問題に完全に焦点を当てていますが、InfoSec do の広範な性質によりメインここで説明した問題と結果は、プライバシーと倫理の doメイン と重複していることがわかります。 このドキュメントでは、テクノロジ業界において戦略的に重要な課題を取り上げています。このドキュメントの対象読者は、業界全体のセキュリティ エンジニアリング リーダーです。

初期の調査結果では、次のことが示唆されています。

  • このドキュメントで説明しているセキュリティの問題のタイプを軽減するには、既存のセキュリティ プラクティスに対する AI/ML 固有のピボットが必要です。

  • 機械学習モデルでは、悪意のある入力と無害な異常データをほぼ区別できません。 トレーニング データの重要なソースは、3つの rd-party コントリビューションで開かれている、評価されていない、モデレートされていないパブリック データセットから派生します。 攻撃者が自由に自分に貢献できる場合、データセットを侵害する必要はありません。 時間の経過と同時に、データ構造/書式設定が正しければ、信頼度の低い悪意のあるデータメイン信頼できるデータになります。

  • ディープ ラーニング モデルで使用できる非表示の分類子/ニューロンの層の数が多いと、AI/ML の意思決定プロセスとアルゴリズムの出力に対して、これらの決定がどのように達したかを重大に理解することなく、あまりにも多くの信頼が得られます。 この難読化により、"自分の作業内容を示す" ことができなくなり、疑われたときに AI/MLの結果を実証可能な方法で防御することが難しくなります。

  • AI/ML は、間違った決定が重大な負傷や死亡につながる可能性のある医療やその他の業界での価値の高い意思決定プロセスのサポートで使用されることが増えています。 AI/ML には科学捜査レポート機能がないので、このような価値の高い結論を裁判所および世論という法廷の両方で擁護することはできません。

このドキュメントの目的は、(1) AI/ML 空間に固有のセキュリティ エンジニアリングの問題を強調すること、(2) 新たな脅威に関するいくつかの最初の考えと観察を明らかにすること、(3) 潜在的な修復に関する早期の考えを共有することです。 このドキュメントの課題のいくつかは、業界が今後2年間に先手を打つ必要がある問題であり、その他の問題は既に今すぐ対処せざるを得ない問題です。 このドキュメントで取り上げる領域について詳しく調べなければ、将来の AI が、数学的レベルで AI の意思決定プロセスを信頼または理解 (および必要に応じて変更) できないことによってブラック ボックスになるリスクがあります [7]。 セキュリティの観点からは、これは実質的に制御の喪失と、人工知能に関する Microsoft の基本原則からの逸脱を意味します [3, 7]。

新しいセキュリティ エンジニアリングの課題

従来のソフトウェア攻撃ベクトルは依然として対処するために重要ですが、AI/ML の脅威の状況では十分な範囲を提供しません。 テクノロジ業界では、新しいフレームワークを構築し、AI/ML ベースのサービスの設計と運用のギャップに対処する新しいアプローチを採用することにより、前世代のソリューションで次世代の問題に対抗するのを回避する必要があります。

  1. 以下で説明するように、AI とその制御化にあるデータを保護する際には、セキュリティで保護された開発と運用の基盤に回復力と慎重さの概念を組み込む必要があります。 認証、職務の分離、入力の検証、サービス拒否の軽減の領域には、AI 固有のピボットが必要です。 これらの分野への投資がなければ、AI/ML サービスは、すべてのスキル レベルの敵対者との上り坂の戦いを続けます。

  2. AI は、人間との対話で偏見を持つことなく、他者の偏見を認識できる必要があります。 これを実現するには、偏見、ステレオタイプ、専門用語、その他の文化的な構成要素を総合的かつ発展的に理解する必要があります。 このような理解は、ソーシャル エンジニアリングやデータセット改ざん攻撃から AI を保護するのに役立ちます。 適切に実装されたシステムは、実際にはこのような攻撃からより強くなり、その拡大した理解を他の UI と共有することができます。

  3. マシンラーニングアルゴリズムは、結果に悪影響を与えるトレーニング データを拒否することで、悪意のある "Black Swan" イベント [1] から悪意を持って導入されたデータを識別できる必要があります。 それ以外の場合、学習モデルは常に攻撃者やトロールによるゲームの影響を受けやすくなります。

  4. AI には、組み込みの科学捜査機能が必要です。 これにより、企業は AI の透明性と説明責任を顧客に提供し、そのアクションが検証可能なだけでなく、法的に防御可能であることを確認できます。 これらの機能は、"AI 侵入検出"の初期の形式としても機能します。これにより、エンジニアは、分類子によって意思決定が行われた正確な時点、影響を受けるデータ、およびデータが信頼できるかどうかを判断できます。 この分野のデータ視覚化機能は急速に進歩しており、エンジニアがこれらの複雑な問題の根本原因を特定して解決するのに役立つという約束を示しています [10]。

  5. AI は、人間がそれとは認識していない場合でも機密情報を認識し、保護する必要があります。 AIの充実したユーザー エクスペリエンスには、トレーニングする生データが大量に必要であるため、顧客による "過剰な共有" に対する計画が必要です。

脅威や潜在的な軽減策などを含むこれらの各領域については、以下で詳しく説明します。

AI では、従来のセキュリティで保護された設計およびセキュリティで保護された運用モデルへの新しいピボットが必要: 回復力と慎重さの導入

AI デザイナーは、機密データの機密性、整合性、可用性を確保し、AI システムに既知の脆弱性がないことを確認し、システムまたはユーザーのデータに対する悪意のある動作に対する保護、検出、対応を制御する必要があります。

悪意のある攻撃から防御する従来の方法では、音声/ビデオ/画像ベースの攻撃が現在のフィルターと防御を回避できるこの新しいパラダイムでは、同じカバレッジが提供されません。 新たな不正利用者によって AI が悪用されないように、新しい脅威のモデル化の側面を調査する必要があります。 これは、ファジー処理または入力操作によって従来の攻撃対象領域を識別するだけではありません (これらの攻撃にも、独自の AI 固有のピボットがあります)。 AI/ML 領域に固有のシナリオを組み込む必要があります。 これらのうち重要なのは、音声、ビデオ、ジェスチャなどの AI ユーザー エクスペリエンスです。 これらのエクスペリエンスに関連する脅威は、従来モデル化されていません。 たとえば、ビデオ コンテンツは、物理的な効果を誘発するように調整されています。 さらに、研究では、オーディオベースの攻撃コマンドを作成できることを示しています [9]。

犯罪者、敵対者、荒らしの予測不能性、創造性、および悪意により、AI に回復力慎重さの価値を組み込むことが必要になります。

回復力: システムは、異常な動作を特定し、AI システムと特定のタスクに関して許容される動作の通常の境界を超えた操作や強制を防止できなければなりません。 これらは、AI/ML 領域に固有の新しい種類の攻撃です。 システムは、コミュニティとその作成者が有する地域の法律、倫理、および価値観と競合する可能性がある入力に抵抗するように設計されている必要があります。 これは、対話が 「台本からそれた」 ときに、それを特定する機能をAI に提供することを意味します。 これは次の方法で実現できます。

  1. 似たユーザーのさまざまな大規模なクラスターによって設定された基準から逸脱した個々のユーザーを特定します。たとえば、入力速度が速すぎる、応答が速すぎる、スリープしない、他のユーザーがいないシステムの一部をトリガーするユーザーなどです。

  2. 悪意のある意図でのプローブ攻撃と、ネットワーク侵入強制終了チェーンの開始のインジケーターとして知られる動作のパターンを特定します。

  3. 複数のユーザーが調整された方法で行動する場合はいつでも認識します。たとえば、複数のユーザーが、すべて同じ原因不明で意図的に作成されたクエリを発行したり、ユーザーの数が急激に急増したり、AI システムの特定の部分のアクティブ化が急激に急増したりします。

この種類の攻撃は、サービス拒否攻撃と同等に考慮する必要があります。これは、同じテクニックに再び当てはまらないようにするために、AI でバグ修正と再トレーニングが必要になる可能性があるためです。 重要なのは、感情分析 API [4] を打ち負かすために使用される対策など、悪意のある意図を特定する機能です。

裁量: AI は、アクセスできるあらゆる情報の責任ある信頼できる管理者である必要があります。 人間として、私たちは間違いなく AI 関係に一定レベルの信頼を割り当てます。 これらのエージェントは、ある時点で他のエージェントまたは他の人間とやり取りします。 他のエージェントがタスクを完了できるように私たちについて共有する必要がある情報を、制限された形式でのみ共有するために、十分な慎重さが AI システムにあることを信頼できる必要があります。 さらに、私たちの代わりに個人データを操作する複数のエージェントは、それぞれにグローバルアクセスを必要としてはなりません。 複数の AI またはボット エージェントが関係するデータ アクセス シナリオでは、アクセスの有効期間を必要最小限に抑える必要があります。 また、現在 Web ブラウザーでサイトのブロックが許可されているのと同じように、ユーザーはデータを拒否し、特定の企業や地域からのエージェントの認証を拒否できる必要があります。 この問題を解決するには、クラウド コンピューティングの当初数年に行われたクラウドベースのユーザー認証への投資のような、エージェント間の認証とデータ アクセス特権に関する新たな思考が必要です。

AI は、それ自体が偏見を持つことなく、他者の偏見を認識できる必要がある

AI は、特定の個人グループや有効な結果を選り好みすることなく公平かつ包括的である必要がありますが、これを実現するには偏見について本質的に理解している必要があります。 バイアス、トローリング、または皮肉を認識するようにトレーニングされていないと、AI は、最高の状態で安い笑いを求める人によって重複している可能性があり、最悪の場合は顧客に損害を与える可能性があります。

このような認識レベルを実現するには、事実上、文化的偏見を包括的かつ発展的に理解する必要があるため、"善良な人が AI に悪いことを教える" 必要があります。 AI は、過去に否定的なやり取りをしたユーザーを認識し、親が見知らぬ人を警戒するように子供に教えるのと同様に、適切な注意を払う必要があります。 これに取り組む最善の方法は、制御、モデレート、制限された方法で AIを荒らしに注意深く公開することです。 これにより、AI は、"製品を調べている" 無害なユーザーと実際の悪意のある行為や荒らしとの違いを学習できます。 荒らしは AI に貴重なトレーニング データのストリームを提供し、将来の攻撃に対する回復力を高めます。

AI は、トレーニング対象のデータセット内の偏りも認識できる必要があります。 これには、特定のユーザー グループによって使用されている用語など、文化的または地域的なものや、あるグループにとって関心のあるトピックまたは視点があります。 悪意を持って導入されたトレーニング データと同様に、AI は、このデータが独自の推論と推論に及ぼす影響に対する回復性を備えている必要があります。 中核となるのは、境界チェックに似た高度な入力検証の問題です。 バッファーの長さとオフセットを処理するのではなく、バッファーと境界のチェックは、さまざまなソースからの赤いフラグが付いた要注意単語です。 単語が使用される会話の履歴とコンテキストも重要です。 多層防御のプラクティスを使用して従来の Web サービス API フロントエンド上で保護をレイヤー化するのと同じように、複数レイヤーの保護を偏りの認識および回避手法で活用する必要があります。

マシン ラーニング アルゴリズムは、悪意を持って導入されたデータを無害な "Black Swan" イベントから識別できる必要があります

ML モデル/分類子の改ざんと抽出/盗難の理論上の可能性に関する多数のホワイトペーパーが公開されています。攻撃者はトレーニング データ セットと、使用中のモデルに関する情報に基づいた理解の両方にアクセスできます [2, 3, 6, 7]。 ここでの過剰な問題は、トレーニング セット データを制御する攻撃者によって、すべての ML 分類子がだまされる可能性があるということです。 攻撃者は、既存のトレーニング セット データを変更できる必要はなく、それに追加できるだけでよく、ML 分類子が悪意のあるデータと本物の異常データを区別できないことを利用して、時間の経過と共に自分の入力が "信頼" されるようにします。

このトレーニング データ サプライ チェーンの問題により、"決定の整合性"の概念が導入されます。これは、分類子の動作に悪影響が及ぶ前に、悪意を持って導入されたトレーニング データまたはユーザー入力を識別して拒否する機能です。 ここでの根拠は、信頼できるトレーニング データが、信頼できる結果/決定を生成する確率が高いということです。 トレーニングを行い、信頼されていないデータに対して回復性を持たせることが依然として重要ですが、そのデータの悪意のある性質は、トレーニング データの信頼度の高い本文の一部になる前に分析する必要があります。 このようなメジャーがないと、AI は荒らしに過剰に反応せざるを得ず、正当なユーザーへのサービスを拒否する可能性があります。

これは、教師なし学習アルゴリズムを、選別されていない、または信頼されていないデータセットでトレーニングする場合に特に問題になります。 つまり攻撃者は、形式が有効で、アルゴリズムがトレーニングされていれば、必要な任意のデータを導入することができ、事実上そのデータ ポイントはトレーニング セットの残りの部分と同様に信頼されます。 攻撃者からの十分な細工がされた入力により、トレーニング アルゴリズムは、ノイズや異常値と信頼性の高いデータを区別する能力を失います。

この脅威の例として、すべての言語での世界中の通行止め標識のデータベースを想像してください。 これは、関係するイメージと言語の数が原因で、キュレーションがきわめて困難です。 自動運転車が通行止め標識を認識しなくなるまで、たいていはそのデータセットに対する悪意のある投稿は気付かれません。 データの回復性と意思決定の整合性の軽減策は、学習モデルの中核となる部分になることを防ぐために、悪意のあるデータによって行われたトレーニングの損害を特定して排除するために、ここで手を取り合う必要があります。

AI には、透明性とアカウンタビリティを提供するために、組み込みの科学捜査とセキュリティ ログが必要

AI は、最終的にはエージェントとしての専門能力で動作できるようになるので、私たちは影響力の高い意思決定によって支援されます。 その例として、金融取引の処理に役立つ AI が考えられます。 AI が悪用され、トランザクションが何らかの方法で操作された場合、結果は個人から全身に及ぼす可能性があります。 価値の高いシナリオでは、AI には、整合性、透明性、アカウンタビリティを提供するための適切なフォレンジックとセキュリティのログ記録が必要であり、場合によっては、市民的または刑事責任が生じる可能性がある証拠が必要です。

重要な AI サービスには、アルゴリズム レベルで監査/イベント トレース機能が必要です。これにより、開発者は特定の分類子の記録された状態を調べることができます。これにより、不正確な決定につながった可能性があります。 この機能は、AI によって生成された決定が疑問視されるたびに、その正確性と透明性を実証するために業界全体に必要です。

イベント トレース機能は、次のような基本的な意思決定情報の相関関係から開始できます。

  1. 最後のトレーニング イベントが発生した期間

  2. トレーニングされた最新のデータセット エントリのタイムスタンプ

  3. 影響の大きい決定に到達するために使用された主要分類子の重みと信頼レベル

  4. 決定に関係した分類子またはコンポーネント

  5. アルゴリズムが到達した最終的な高価値の決定

このようなトレースは、ほとんどのアルゴリズム支援による意思決定には過剰です。 ただし、特定の結果につながるデータ ポイントとアルゴリズム メタデータを識別する機能を持つことは、価値の高い意思決定において大きなメリットがあります。 このような機能は、アルゴリズムの "作業を示す" 機能を通じて信頼性と整合性を示すだけでなく、このデータを微調整にも使用できます。

AI/ML に必要なもう1つの科学捜査機能は、改ざんの検出です。 AI が偏りを認識し、その影響を受けないようにする必要があるのと同様に、このような攻撃を検出して対応するエンジニアを支援するための科学捜査機能を用意する必要があります。 このようなフォレンジック機能は、データ視覚化手法 [10] と組み合わせて、アルゴリズムの監査、デバッグ、チューニングを行って、より効果的な結果を得られるようにすると、非常に価値があります。

AI は、人間がそうしない場合でも機密情報を保護する必要がある

充実したエクスペリエンスには、豊富なデータが必要です。 人間は、MLのトレーニングを行うための大量のデータを既に自発的に提供しています。 これは、平凡なビデオ ストリーミング キューの内容から、不正行為の検出に使用されるクレジット カード購入/取引履歴の傾向まで多岐にわたります。 AI は、ユーザー データの処理に関しては、偏った裁量感を持つ必要があり、過剰な共有のパブリックによって自由にボランティア活動を行った場合でも、常に保護するために行動する必要があります。

AI は、複雑なタスクを遂行するために対話する "ピア"の認証済みグループを持つことができるため、これらのピアと共有するデータを制限する必要性も認識する必要があります。

AIのセキュリティの問題への対処に関する早期の観察

このプロジェクトの新しい状態にもかかわらず、これまでにコンパイルされた証拠は、以下の各分野をより深く調査することが、より信頼できる安全な AI/ML 製品/サービスに向けて業界を動かす上で重要であると考えています。 この領域で期待されることについての早期の観察と考察を次に示します。

  1. AI/ML に重点を置いた侵入テストとセキュリティ レビューの団体を設立して、将来の AI が価値を共有し、アシロマ AI 原則に合わせて調整されるようにすることができます。

    1. このようなグループでは、AI/ML ベースのサービスのセキュリティ保護をサポートする際に業界全体で使用できるツールとフレームワークを開発することもできます。
    2. この専門知識は、過去 10年間にわたる従来のセキュリティの専門知識と同様に、時間の経過と共にエンジニアリング グループ内で有機的に拡大していきます。
  2. このドキュメントで説明されている課題を軽減しながら AIを民主化するなどの目標を企業が達成できるようにするトレーニングを開発することができます。

    1. AI 固有のセキュリティ トレーニングにより、エンジニアは、AI とリソースもたらされるリスクを随意に認識することができます。 この資料は、顧客データの保護に関する現在のトレーニングと共に提供する必要があります。
    2. これは、すべてのデータ科学者がセキュリティの専門家になることを必要とせずに実現できます。代わりに、AI ユース ケースに適用される回復力と慎重さについて開発者を教育することに重点が置かれます。
    3. 開発者は、企業全体で再利用される AI サービスのセキュリティで保護された "構成要素" を理解する必要があります。 サブシステムを使用したフォールト トレラントな設計に重点を置く必要があります。サブシステムは、簡単にオフにすることができます (画像プロセッサ、テキスト パーサーなど)。
  3. ML 分類子およびその基盤となるアルゴリズムを強化し、現在使用されている有効なトレーニング データを汚染したり、結果をゆがめたりすることなく、悪意のあるトレーニング データを検出できるようにすることができます。

    1. 否定入力の拒否 [5] などの手法では、調査に研究者サイクルが必要です。

    2. この作業には、数学的な検証、コード内の概念実証、および悪意のあるデータと無害な異常データの両方に対するテストが含まれます。

    3. ここでは、統計的異常が存在する場合には特に、人間によるスポットチェックやモデレーションが有益である可能性があります。

    4. "監督分類子"を構築して、複数の AI にわたる脅威をより普遍的に理解することができます。 これにより、攻撃者が特定のモデルからデータを抜き取ることができなくなるため、システムのセキュリティが大幅に向上します。

    5. AIを相互にリンクして、相互のシステム内の脅威を識別できます

  4. AIの透明性と信頼性の標準を確立する、一元化された ML 監査または科学捜査ライブラリを構築できます。

    1. AI によるビジネスへの影響が大きい決定の監査および再構築用にクエリ機能を構築することもできます。
  5. 荒らしや皮肉などを検出して対応するために、さまざまなカルチャ グループやソーシャル メディアで敵対者によって使用されている用語をAI によって継続的にインベントリおよび分析することができます。

    1. AI は、技術、地域、またはフォーラム固有のいずれであるかを問わず、あらゆる種類の用語に対して回復性を必要とします。

    2. この知識の本文は、コンテンツのフィルター処理、ラベル付け、ブロックの自動化で使用して、モデレーターのスケーラビリティの問題に対処することもできます。

    3. この用語のグローバル データベースは、開発ライブラリにホストしたり、別の AI で再利用するためにクラウド サービス APIを介して公開したりすることができます。これにより、統合された以前のものの英知を新しい AI で利用できます。

  6. エンジニアが AIのテスト トレーニング セットにさまざまな種類の攻撃を注入して評価できるようにする "機械学習ファジー フレームワーク"を作成できます。

    1. これは、テキスト記述だけでなく、画像、音声、ジェスチャデータ、およびそれらのデータ型の順列にも焦点を当てることができました。

まとめ

アシロマ AI 原則は、人間に一貫してメリットをもたらす方法で AIを実現することの複雑さを示しています。 将来の UI は、他の UI と対話して、リッチで説得力のあるユーザー エクスペリエンスを提供する必要があります。 つまり、セキュリティの観点 から「AI を正しく行う」には、Microsoft では不十分です。世界 はそうする必要があります。 デジタルジュネーブ条約の世界的な推進に似た方法で、このドキュメントの問題に対する可視性を高める業界の連携とコラボレーションが必要です [8]。 ここで示した問題に対処することにより、AI が真に民主化され、すべての人間のインテリジェンスを補強する道筋に、お客様と業界のパートナーを導き始めることができます。

Bibliography

[1] Taleb、Nassim Nicholas (2007)、『The Black Swan: The Impact of the Highly Improbable』(ブラック・スワン―不確実性とリスクの本質)、Random House、ISBN 978-1400063512

[2] Florian Tramèr、Fan Zhang、Ari Juels、Michael K. Reiter、Thomas Ristenpart予測 APIを介した機械学習モデルの盗用

[3] サティア・ナデラ:未来のパートナーシップ

[4] クラバーン、Thomas:Google のトロール破壊 AI は入力ミスに対処できない

[5] マルコ・バレノ、ブレイン・ネルソン、アンソニー・D・ジョセフ、J.D.ティガー:機械学習のセキュリティ

[6] ウォルチオーバー、ナタリー:この人工知能のパイオニアは、いくつかの懸念を持っています

[7] Conn, Ariel:人工知能を人間の価値とどのように整合させるのか?

[8] スミス、ブラッド:人々をオンラインで安全に保つための緊急の集団行動の必要性:先週のサイバー攻撃からの教訓

[9] Nicholas Carlini、Pratyush Mishra、Tavish Vaidya、Yuankai、Micah Sherr、Clay Shields、David Wagner、Wenchao Zhou:Hidden Voice Commands

[10] フェルナンダ・ヴィエガス、マーティン・ワテンバーグ、ダニエル・スミルコフ、ジェームズ・ウェクスラー、ジムボ・ヴィルソン、ニキル・ソラト、チャールズ・ニコルソン、Google Research:Big Picture