飛行船通信MLの主催者(few01)が気になった事を記録するWIKI

午後、Anomaly Detectionについて調査をしていた。

Anomaly Detectionは、「異常検出」「異常抽出」「例外検出」などと呼ばれるコンピュータ用語で、コンピュータシステムへのクラッキングを検出する手法を表すために使われることが多い。

コンピュータシステムで動作しているアプリケーションの通常の振る舞いを、セキュリティシステムが記憶していて、それと違う振る舞いをアプリケーションがしだしたら、警告を与える、というものだ。振る舞いをすべて記憶しているわけにはいかないし、すべての振る舞いと照合をするのは現実的でないので、振る舞いを抽象的に表現したプロファイルを作成し、それと現在の振る舞いを比較して、異常を検出する。

異常検出そのものはもっと一般的な概念で、セキュリティに限らず様々な分野で使われる。私が調べていたのも、もっと一般的な手法として調査していた。

異常検出の目的は、通常と異なる事例を検出するということだ。

さて、では「通常」とは何か? いいかえると「ふつう」とは何か?

これが難しい。

上述のセキュリティシステムでのAnomaly Detectionの例だと、特にシステムに悪影響がなくても、登録されているプロファイルと違う振る舞いをすれば、それはすべて「異常」として警告が発せられる。

人間社会で考えると、「ふつうの市民」というプロファイルがあって、それから少しでも逸脱すると捕まってしまうようなポリシーである。一般的には厳しすぎる。

もっとも素朴な異常検出の方法は、多数の「ふつう」とされている物から離れているかどうか、というものだ(距離による検出)。例えば、赤いりんごが20個ある中に、青いりんごが1個あると、青いりんごは異常となる。

ところが、真っ赤なりんごが20個ある中に、少しオレンジ色っぽいりんごが1個あると、今度は、このオレンジ色っぽいりんごが異常となる。

これを検出するためには、単に離れている、のでなくて、ふつうの物のバリエーションの広がりを考慮して、離れているかどうかを考えることになる(密度による検出)。

日本人は「ふつう」であるかどうかを「異常」に気にする民族のようだが、これは日本人ばかりの中にいるからだ。まぁみんな似たりよったりなので、ちょっとした違いが気になる。これが、同じテーブルを囲むのが中国人、フランス人、ケニア人、ペルー人、アメリカ人、アラスカ人、日本人だったら、民族の違いが「ふつう」となる。

さて、男の子が20人の中に、女の子が一人だけいるクラスを考えてみよう。

そのクラスの中では、女の子は普通ではないことになるだろう。ここまでは上述と同じだが、もし女の子の身長が140cmで、残りの男の子19人も同じ140cm、だが、一人の男の子は180cmだったとすると、立場が変わってしまう。目立つという意味では、180cmの男の子の方がずっと普通でなくなる。

また同じ140cmの身長の男が20人いるクラスで、その中の一人だけが40歳で、残りが小学生だと、40歳の男性はこのクラスでは普通でない。

つまり、隠された属性があると、何がふつうで何が異常なのかわからなくなってしまう。

Anomaly Detectionをする場合に、異常性を判定する属性がすべて明らかになっている、といつも言えるとは限らない。

もっと日常的な状況を想定すると、問題はさらに難しくなってくる。

例えば、先ほどの180cmの男の子は、さきほどのクラスでは普通ではなかったけれど、学校全体で考えた場合はどうだろう。さらに、日本中の男の子全員の中で考えるとどうだろう。世界中では。男の子がふつうなのかそうでないのかは、どこまで大きな集団で考えるかで変わってくる。もし真の異常があるとすれば、世界中の男の子を調べて、そこでふつうとは違うことを示さなければならない。

この調査は大変だ。身長ぐらいならば、すでに世界中で調査はなされているだろうが、調査がなされていない項目の場合は、莫大な調査が必要となり、実際には不可能になる。なので、サンプリングをすることになるのだが、さて、どの程度サンプリングをすれば良いのかという問題が発生する。

統計をかじったことがあればわかる通り、どういう確率分布なのかで、この数は変わってくる。身長に関しては正規分布に近いことがわかっているが、分布がわかっているというのは珍しい場合で、一般的には分布を想定できない。

Anomaly Detectionは、当然ながら、主観にも影響される。つまり誰が考える異常なのか、ということだ。検出する対象の持つ属性は一杯ある。人間の場合ならば、身長、体重、視力、肌の色、髪の色、髪の長さなどの身体的特徴から始まって、学力、成績、性格、くせなどなど、どこを見て「ふつう」と考えるか、は、当然人によって違う。

あなたの考える「ふつう」と、私の考える「ふつう」は違う。なぜなら見ている所が違うからだ。

コメントをかく


「http://」を含む投稿は禁止されています。

利用規約をご確認のうえご記入下さい

このWIKI内で検索

編集にはIDが必要です