データアナリティクス事業本部の貞松です。
時系列予測のマネージドサービスであるAmazon Forecastに時系列データセットの欠損値自動補完オプションが追加されました。 これにより、予測のターゲットとなる時系列データ、およびターゲットデータに関連する任意の時系列データについて、欠損しているデータを設定したルールに基づいて自動で補完した上で予測子の作成(予測モデルの学習)を実行することができるようになりました。
欠損値データが補完されるデータセットタイプはTARGET_TIME_SERIES(予測対象の時系列データ)とRELATED_TIME_SERIES(予測対象に関連する時系列データ)で、それぞれのデータセットで設定可能な補完ルールは下表の通りです。
| データセットタイプ | 補完方法 | 使用可能な補完ルール | デフォルト値 | | :- | :- | :- | :- | | TARGET_TIME_SERIES | Middle fill Back fill | zero - 0で補完 value - Integerもしくはfloat nan - 値無しのまま mean - 時系列データの平均値 median - 時系列データの中央値 min - 時系列データの最小値 max - 時系列データの最大値 | zero | | RELATED_TIME_SERIES | Middle fill Back fill Future fill | zero - 0で補完 value - Integerもしくはfloat mean - 時系列データの平均値 median - 時系列データの中央値 min - 時系列データの最小値 max - 時系列データの最大値 | デフォルトでは補完設定なし |
補完方法によって、データのどの部分の欠損値が補完されるかは下図を参照してください。
画像引用元:https://docs.aws.amazon.com/ja_jp/forecast/latest/dg/howitworks-missing-values.html
AWSコンソール上でForecastを使用して時系列予測を作成する手順は以下の記事を参照してください。
ここでは欠損値補完の設定部分を抜粋して解説します。
Train Predictorのページ(新しい予測子の作成)で、Advanced configurations→FeaturizationsにJSON形式で設定を記述します。
#aws #機械学習 #amazon forecast