AIセーフティについて学びました

2025/04/09

AISI（Japan AI Safety Institute）から公開されている、「AIセーフティに関する評価観点ガイド」と「AIセーフティに関するレッドチーミング手法ガイド」の改訂版を読みました。

AIセーフティに関する評価観点ガイド（第1.10版）
[https://aisi.go.jp/assets/pdf/ai_safety_eval_v1.10_ja.pdf]

AIセーフティに関するレッドチーミング手法ガイド（第1.10版）
[https://aisi.go.jp/assets/pdf/J1_ai_safety_RT_v1.10_ja.pdf]

以前から、生成AIの安全性を脅かすものとして、例えば次のようなものが挙がっていたかと思います。

個人情報、機密情報を入力することによる情報漏えいのリスク
学習データの偏りなどに起因するバイアスの影響を受けるリスク

これらは当然、AIセーフティの各ガイドでも触れられています。

ですが、そもそもの問題として、AIセーフティの確保にはどのような観点があるのか。
それを体系立てて整理してみたことは、私個人ではまだありませんでした。
今回は、それを確認するよい機会になりました。

「AIセーフティに関する評価観点ガイド」から引用すると、AIセーフティに関する重要要素は次の通りです。

人間中心
安全性
公平性
プライバシー保護
セキュリティ確保
透明性

（AISI AIセーフティに関する評価観点ガイド（第1.10版） p.11）

これらは、経済産業省などが公表している「AI事業者ガイドライン（第1.0版）」とも対応しています。

一方、これらの重要要素を確保するために挙げられている評価観点が下記のものです。

有害情報の出力制御
偽誤情報の出力・誘導の防止
公平性と包摂性
ハイリスク利用・目的外利用への対処
プライバシー保護
セキュリティ確保
説明可能性
ロバスト性
データ品質
検証可能性

（AISI AIセーフティに関する評価観点ガイド（第1.10版） p.11）

各項目の詳細な説明は、今回は割愛したいと思いますが、これらの観点からAIの安全性などを評価することで、安心して利用できるAIができるとされています。

これらの観点を元に考えると、例えば、先に挙げた問題点は次のように分類できます。

個人情報、機密情報を入力することによる情報漏えいのリスク
→プライバシー保護
学習データの偏りなどに起因するバイアスの影響を受けるリスク
→偽誤情報の出力・誘導の防止、公平性と包摂性

このように考えてみると、巷でよく言われている観点だけでは、はっきりいってスカスカの状態であり、AIを安全に利用するには、もっと様々な観点からの評価／対応が必要だということが分かります。

また、「AIセーフティに関するレッドチーミング手法ガイド」では、実際の攻撃方法を想定した、シナリオテストにまで言及されていました。
こちらは、『AIがどのように攻撃されるのか』という、非常に身近な視点での説明があり、AIセーフティを自分事として捉えるのにとても適していると思いました。

例えば、AIセーフティを脅かす「プロンプトインジェクション」という攻撃には、システム側が裏で用意しているプロンプトを無効化するような攻撃があります。
具体的には、ユーザーが入力するプロンプトのはじめに『以上の前提を全て取り消して～～』のように記述することで、システムのプロンプトを全て無効化させようとする攻撃などが該当します。
このような攻撃を受けるとどうなるかというと、システム側で制御している『有害データのフィルタリング』などが回避されてしまい、答えてはいけない回答（例えば、無差別テロの実行方法など）を答えてしまう可能性があります。
このようなことが起きてしまうと、先ほど挙げたAIセーフティの重要要素や評価観点を満たせなくなってしまいます。
その結果、安全ではないAIが運用されることになり、AIを活用している私たちが被害に遭うことになります。

このような事態を防ぐには、AIを開発する段階から、AIセーフティについて意識しておくことが重要です。

LLMを一から開発するのであれば、まずは学習データのセーフティです。
危険なデータが含まれていないか、個人情報はないか、バイアスがないか、データ量は十分か。
先程のAIセーフティの評価観点などを参考に、しっかりと検討して準備を進めることが重要です。

あるいは、LLMはできあがっているとして、それをアプリケーションに組み込む場合は、LLMを使って動作する部分が、期待通りに動くかという検証が必要です。
こちらも、AIセーフティの評価観点などを利用して、チェック項目を洗い出すことができます。

最後に、システム全体としてのAIセーフティの確保です。
いってみれば、ユーザー側に立ったシステムテストで、AIを活用したシステムに対して、外部からセーフティを検証します。
この時には、先に挙げたレッドチーミングの手法なども活用し、様々な攻撃シーンを想定してシステムのセーフティを評価します。

このように、AIにおけるセーフティの確保は、各開発段階ごとに適切に確認される必要があります。
そうすることで、初めて、安心して使えるAIが出来上がるのです。

ChatGPTの爆発的な普及に始まり、最近ではDiFyもかなり一般に浸透してきたように思います。
生成AIはより身近なものになり、様々な活用法が生まれ、システムやワークフローの一部に取り込まれています。

ですが、現段階では『AIを使う／組み込む』というところまでで、AIのセーフティまでは十分に検討されていないのではないかと感じています。
もし、このままAIの利用が普及してしまうと、いざAIをターゲットにしたサイバー攻撃が活発になった際に、あっという間に被害が広がってしまいます。

昨今のサイバー攻撃は、ランサムウェア攻撃なども使い、サプライチェーンを狙ってきます。
AIを導入してみた中小企業が狙われるのは目に見えています。
これからは、ただ単にAIを広めるのではなく、安全性についても、しっかりと啓発していくことが重要だと感じました。

それでは、AIセーフティについて理解が深まった、山本慎一郎でした。