近年、人工知能(AI)技術の急速な発展に伴い、その脆弱性や悪用の可能性が注目を集めています。その中でも特に懸念されているのが「データポイズニング」と呼ばれる攻撃手法です。この手法は、AIモデルの学習データを意図的に操作することで、モデルの動作を妨害したり、誤った結果を導き出させたりするものです。本記事では、このデータポイズニングについて詳しく解説し、その仕組みやリスクについて探っていきます。

アクトのサイバーセキュリティサービス

データポイズニングとは

データポイズニングとは、AIモデルの学習データに意図的に不正確または有害なデータを混入させることで、モデルの性能や出力を操作する攻撃手法です。この手法は、主に機械学習モデルを標的としており、モデルの判断基準や予測能力を歪めることを目的としています。

例えば、画像認識AIに対するデータポイズニングでは、特定の物体を誤って認識させるように細工された画像を学習データに混ぜ込むことがあります。これにより、AIは正常な画像でも誤った判断をするようになる可能性があります。データポイズニングの特徴として、攻撃の検出が困難であることが挙げられます。通常の学習データと見分けがつきにくいため、モデルの開発者や運用者が気づかないうちに攻撃が成功してしまう可能性があります。

データポイズニングの仕組み

データポイズニングは主に以下の3つの方法で行われます。それぞれの手法について詳しく解説していきます。

データの改ざん

データの改ざんは、既存の学習データを意図的に変更することで行われます。例えば、画像認識AIの場合、正常な画像に微小な変更を加えることで、人間の目には違いがわからないにもかかわらず、AIには全く異なるものとして認識させることができます。この手法は、「敵対的サンプル」と呼ばれる特殊な入力データを作成することで実現されます。敵対的サンプルは、AIモデルの脆弱性を突いて設計されており、モデルの判断を誤らせる効果があります。

例えば、停止標識の画像に特定のノイズを加えることで、AIに「進入禁止」標識と誤認識させるといったことが可能です。データの改ざんによるポイズニングは、モデルの精度を低下させるだけでなく、特定の条件下で意図的な誤動作を引き起こすことができるため、特に危険性が高いとされています。

データの取得

データの取得は、AIモデルの学習に使用されるデータソースに直接アクセスし、そこに不正なデータを挿入する手法です。これは、オープンソースのデータセットや公開APIを利用しているAIシステムに対して特に有効です。例えば、画像分類タスクのために公開されているデータセットに、意図的に誤ったラベル付けをした画像を大量に追加することで、モデルの分類精度を低下させることができます。また、自然言語処理タスクでは、特定のバイアスや誤った情報を含むテキストデータを大量に投入することで、AIの言語理解や生成能力を歪めることが可能です。

この手法の危険性は、攻撃者が直接データソースを操作できるため、大規模かつ持続的な影響を与えられる点にあります。また、多くのAIモデルが同じデータソースを利用している場合、一度の攻撃で複数のシステムに影響を及ぼす可能性があります。

データの削除

データの削除は、AIモデルの学習に必要な重要なデータを意図的に除外することで、モデルの性能や判断基準を操作する手法です。この方法は、特定のカテゴリーや特徴に関する情報をモデルから取り除くことで、モデルの認識や判断に偏りを生じさせます。例えば、顔認識AIのトレーニングデータから特定の人種や年齢層のデータを削除することで、そのグループに対する認識精度を低下させることができます。また、テキスト生成AIの学習データから特定のトピックに関する情報を削除することで、そのトピックに関する生成能力を制限することも可能です。

データの削除による攻撃の危険性は、その影響が気づきにくい点にあります。モデルは単に特定の情報を「知らない」状態になるため、明らかな誤動作ではなく、特定の状況下での性能低下という形で現れます。これは、モデルの公平性や包括性に深刻な影響を与える可能性があります。

データポイズニングのリスク

データポイズニングは、AIシステムの信頼性と安全性に深刻な影響を与える可能性があります。以下に、主なリスクを詳しく解説します。

  1. 誤った判断や予測:
    ポイズニングされたAIモデルは、重要な場面で誤った判断や予測を行う可能性があります。例えば、医療診断AIが特定の症状を見逃したり、自動運転システムが道路標識を誤認識したりする危険性があります。これらの誤動作は、人命に関わる重大な事故につながる可能性があります。
  2. セキュリティの脆弱性:
    データポイズニングは、AIシステムのセキュリティホールとなる可能性があります。例えば、顔認証システムが特定の人物を誤って認識するよう操作されれば、不正アクセスのリスクが高まります。また、スパム検出AIが特定のパターンを見逃すよう訓練されれば、悪意のある通信が検出を免れる可能性があります。
  3. 公平性と倫理の問題:
    ポイズニングされたAIモデルは、特定のグループや個人に対して偏った判断を下す可能性があります。これは、採用や融資、刑事司法などの重要な意思決定プロセスで使用される場合、深刻な差別や不平等を生み出す恐れがあります
  4. 経済的損失:
    企業や組織がポイズニングされたAIモデルを使用した場合、誤った業務判断や予測により大きな経済的損失を被る可能性があります。例えば、株価予測AIが意図的に操作されれば、誤った投資判断を導き、大規模な金融損失につながる恐れがあります
  5. 信頼性の低下:
    データポイズニング攻撃が明らかになった場合、AIシステム全体に対する社会の信頼が大きく損なわれる可能性があります。これは、AI技術の普及や発展を妨げ、潜在的な利益を社会が享受できなくなるリスクをもたらします

これらのリスクに対処するためには、データの品質管理、モデルの定期的な監査、攻撃検出技術の開発など、多層的な防御策が必要となります。また、AIシステムの開発者や運用者は、常にデータポイズニングの脅威を意識し、セキュリティ対策を講じる必要があります。

アクトのサイバーセキュリティ対策支援

アクトはSentinelOneとMSSP契約を持つ正式パートナーかつ、国内唯一のIRパートナーであり、 平常時からインシデント対応までお客さま負担をかけることなく、最高レベルのサイバーセキュリティをご提供します。また、IT導入補助金を活用して導入することも可能です。
ご興味がございましたらお気軽にお問い合わせください。

Sentinelone