MRTPM (version 2)
MRTPM (Multi Regression Time Prediction Model): 重回帰分析を用いたタイム予測モデル
各馬に対して、過去レースの結果をもとに重回帰モデルを作り、次のレースのタイムを予測する。
*Version 2では、予測精度を上げるために前処理にデータを標準化するプロセスを追加した。
使用するデータ
各馬に対して、過去レースの以下のデータを利用する。
- 天気
- コースタイプ: ダート or 芝
- 距離
- 馬場
- 場所
- 騎手
- 調教師
- 枠番
- 馬番
- 年齢
- 負担体重
- 馬体重
Version 2では、Version 1の利用できるデータはなるべく全て利用するという方針は踏襲し、データを標準化するプロセスを追加した。
データによってスケールが異なるとモデルの精度が落ちるため、標準化してスケールを揃えることで予測精度の向上が期待できる。
結果を比較するために、Version 1と並列で稼働する。
*ただし、外挿に該当するデータが存在すれば、そのデータは利用しない。
予測対象
各馬のタイムを予測する。
→各馬のタイムから順位を予想する
*ただし、以下の条件のいずれかに該当する場合は、予測精度が低いと判断し、予測は行わない。
- 有効な過去データが5つ未満である。
- 外挿に該当して「距離」が除外されている。
→ 1頭でも条件を満たさない馬が存在したら予測を中断し、記事の更新は行わない。
データがある程度存在しないと、回帰モデルは精度が低くなるため、閾値として有効な過去レースが5つ以上存在することを条件に入れます。
また、予測に最も影響するデータは距離であり、これが外挿として除外されると精度が著しく低下してしまうため、距離が外挿で除外された場合も予測は行いません。
全ての馬がこれらの条件を満たした場合にのみ、予測が有効であると判断して、記事の更新を行います。