Amazon Sagemakerで時系列データの異常検知を比較検証

概要

Amazon SageMakerのビルトインアルゴリズムをいくつか使用して教師なしでの数値データの異常を分析し、結果を比較してみました。

ビルトインアルゴリズムは、Amazon SageMakerが提供する、一般的な機械学習タスクに対応するための最適化されたアルゴリズムのことを指します。これらのアルゴリズムは、高度なデータサイエンティストが利用するための機能から、初心者が機械学習を始めるための手順まで、幅広いニーズに対応しています。

1. 簡単に利用できる：機械学習の専門知識がなくても、高品質なモデルを作成することが可能です。

2. 最適化されたアルゴリズム：ビルトインアルゴリズムは、Amazonの広範なデータと経験に基づいて設計され、最適化されています。

3. スケーラブル：ビルトインアルゴリズムは、大量のデータを効率的に処理することができます。

Amazon SageMakerのビルトインアルゴリズムは、機械学習の専門知識がない人でも、高品質なモデルを簡単に作成することを可能にします。これらは最適化されており、さまざまなニーズに対応するための強力なツールです。

今回は以下の3つのビルトインアルゴリズムを使用して検証しました。

この3つを選んだ理由は、今回は教師なしでの数値データの異常分析を前提として検証を始めたので、教師なしに分類されている中で数値データの異常検知に適しているRCFとK-Meansを採用しました。また擬似的に教師なしで検証できそうだということでK-NNも採用しました。

それぞれの詳細な説明はリンク先記事にて紹介しています。

アンサンブル学習の一形態であり、異常検出やデータのランダム性を利用した異常検出などのタスクに用いられる、ランダムなカットを使用する森（forest）ベースのアルゴリズム

新しいデータポイントを、距離の近いk個の既存のデータポイントの多数決に基づいて分類または予測するための分類・回帰アルゴリズム

データを事前に指定されたクラスタ数に分割するための非階層型のクラスタリングアルゴリズム

次のようなデータを使用してスパイク異常を検知できるか検証を行いました。

乱数データと比例データは学習データ10000、テストデータ1000で実施しています。

周期データに関しては実際に会社のオフィスの温度を測って用意しました。

計測中特に異常気象は発生しなかったためテスト用の周期データの一部を人為的にスパイクさせています。

今回はそれぞれのアルゴリズムに関して以下の手順で検証を実施しました

○：異常検知できた(適切に閾値を設定することでおおよそ100%判定可能)
×：異常検知できなかった

	メリット	デメリット
RCF	今回検証した全てのデータを検知可能	モデルサイズが大きい
K-NN	モデルサイズが小さい	異常のないデータでの教師あり学習が必須
K-Means	モデルサイズが小さいデータの規模に結果が左右されづらい	手動で設定した初期値に結果が大きく左右される今回の検証では実用に耐えうる精度ではなかった