「芝」と「ダート」、荒れやすいのはどちらか【2021年の中央競馬データで検証】
「芝」と「ダート」ではどちらが荒れやすいのか?
今回はこの疑問を解消するためにデータをみていきます。
他サイトを色々みていると、どうも芝の方が荒れやすいとの意見が多いように感じます(あくまで管理人がみた限りですが)。
実際のところはどうなのかというのを本記事で探っていきます。
データは2021年の中央競馬のデータを使う
まずはデータの準備ですが、今回は2021年のデータを使って検証していきます。
さらに中央競馬のレースに絞ってみていこうと思います。
該当するレースは3,456レースです。
ここからさらに距離で絞ります。
最もレース数の多かった距離の上位5つ(多い順に1,800、1,200、1,400、1,600、 2,000)で絞りました。
該当レースは2,666レースです。
単勝オッズで比較する
荒れるレースの定義というのはなかなか難しいのですが、ここでは単勝オッズで判断します。
単勝オッズの高い馬が勝利すれば番狂わせが起きた、ということで荒れたレースと捉えることができます。
データ全体を確認する
まずは全体をみていきます。
1着になった馬の単勝オッズを集計した結果、データ数としては全部で2,673個ありました。
レース数より多いのは、同着で1着になっているレースが存在するためです。
平均オッズは約9.85で、中央値は4.7でした。
第一四分位は2.8、第三四分位は9.3と、だいたい全体の75%はオッズ10倍未満に収まっていることがわかります。
ちなみに標準偏差は17.95、最小値は1.1、最大値は299.5です。
外れ値を除外する
オッズデータを見ると、極端に高い値が散見されます。
こういったデータがあると結果に悪影響を及ぼすため、比較前に外れ値の除外を行います。
オッズのヒストグラムで表すと、概ね対数正規分布であることが確認できます。
*こちらのグラフは横軸が対数になっています。
これを利用して、オッズの対数を計算し、その平均値(μ)と標準偏差(σ)から外れ値を除外するための閾値を算出します。
閾値は μ±2σ とし、これを計算すると、オッズの有効範囲は0.86〜36.03となり、この範囲に収まらないデータは外れ値として除外します。
外れ値を除外した結果、有効データ数は2,551個となりました。
元データは2,673個だったので、122個のデータが外れ値として除外されたことになります。
この結果、平均オッズは6.84、中央値は4.5、標準偏差は6.43と、かなりばらつきが小さくなりました。
最小値は1.1、最大値は35.9、第一四分位は2.75、第三四分位は8.3です。
芝とダートでデータを比較する
これで、データはある程度はきれいになったので、データの比較をしていきます。
全体では芝の方がややオッズが高い
まずは全データを対象に芝とダートでオッズに差があるのかをみてみます。
コースタイプ | 平均オッズ | 中央値 | 標準偏差 | データ数 |
---|---|---|---|---|
ダート | 6.75 | 4.4 | 6.23 | 1232 |
芝 | 6.98 | 4.6 | 6.61 | 1319 |
結果を見ると、芝のオッズがやや高いことがわかります。
平均値でも中央値でも芝のオッズが高い傾向にあります。
このことから、芝のほうがレースは荒れやすいといえるかと思います。
また、標準偏差をみても芝の方が大きい数値となっていてデータのばらつきも大きいことから、波乱要素が大きいように見えます。
距離ごとで比較する
次に距離別に比較してみます。
距離 | コースタイプ | 平均オッズ | 中央値 | 標準偏差 | データ数 |
---|---|---|---|---|---|
1200 | ダート | 7.02 | 4.40 | 6.69 | 358 |
1200 | 芝 | 8.37 | 5.20 | 7.75 | 295 |
1400 | ダート | 6.88 | 4.85 | 5.88 | 254 |
1400 | 芝 | 7.48 | 5.30 | 6.29 | 146 |
1600 | ダート |
6.45 | 4.60 | 5.63 | 107 |
1600 | 芝 | 6.45 | 3.90 | 6.36 | 268 |
1800 | ダート |
6.66 | 4.25 | 6.30 | 486 |
1800 | 芝 | 6.23 | 4.05 | 6.00 | 288 |
2000 | ダート |
4.55 | 4.00 | 3.09 | 27 |
2000 | 芝 | 6.57 | 4.40 | 6.16 | 322 |
結果を見ると、概ね芝のオッズが高い傾向にあることがわかります。
特に、距離の短い1200や1400では大きな差があることがわかります。
1600と1800では大きな差は見られません。
2000は大きな差が見られますが、ダートのデータ数が少ないので信憑性が怪しいところです。
距離が長くなると偶発的な波乱は起こりにくくなるのかもしれません。
この結果から、距離が短い芝コースの方が荒れる可能性が高いと言えるのではないでしょうか。
まとめ
本記事では、「芝」と「ダート」ではどちらが荒れやすいのか?という疑問についてデータ検証してみました。
検証の結果、芝の方が荒れやすいという結果を得ることができました。
特に、短距離の場合は波乱要素がさらに大きいような結果を確認することができました。
競馬予想で大きな利益をあげるためには、こういった荒れたレースを当てることが必要になってきます。
そういった意味では、芝レースの際には少し思い切った勝負に出てみるのも面白いかもしれません。