予想の
作り方
むずかしい言葉は使わない。中学生でも読める分量で、ぜんぶ正直に書く。
1. このサイトはどうやって予想してる?
過去のレース数十万件をコンピューターに読ませて、 「こういう選手・こういうコース・こういう天気のときは、誰が来やすいか」を学習させている。 人間の予想師の「勘」を、機械が数字でやる、と思ってもらえれば十分。
さらに、舟券の種類(単勝・複勝・3連単など)ごとに得意な機械が違うので、賭け方ごとに最適な機械を使い分ける仕組み。 最終的に出てくるのは、各艇の「当たる確率」と、それを倍率に掛けた「100円賭けたら何円戻りそうか」という数字だけ。
2. 「100円→XX円」と言える根拠
予想のうまさを測るのに、当サイトでは 「100円賭けたらいくら戻ってくるか」 だけを見る。これが一番ウソをつきにくい数字。
ただし、ここで 2つの大事なルール を守っている:
- 練習に使ってないレースだけで測る。 人間でも、テスト前に答えを見たら100点取れるのは当たり前。機械も同じで、「練習に使ったレース」で成績を測ると、いくらでも数字を盛れてしまう。
- 未来の情報をうっかり混ぜない。 「レースが終わってから分かる情報」を予想に使ったら、ズル。当サイトは、予想を出した瞬間に確実に分かっていた情報だけを使っている。
3. 他サイトとの違い
「回収率200%!」「的中率90%!」と書いてある予想サイトを見たことはないか。その数字、ほぼ確実に信用できない。理由は3つ:
- 練習に使ったレースで測ってる: 「テスト前に答えを見た」状態。当然いい数字が出るが、新しいレースには通用しない。
- 未来の情報をこっそり混ぜてる: レース直前にしか確定しない情報を、過去の予想に混ぜて計算してる。実際にはそのタイミングで使えない情報なので、見せかけだけの数字。
- 都合の良いレースだけ切り出してる: 「Aさんが本命だったレース 100件のうち、当たった30件だけを見せる」というやり方。実際にぜんぶ買うと、数字は半分くらいに落ちることが多い。
当サイトでは、この3つを 全部排除 した数字を出している。儲かる予想を売っているのではなく、本当の実力を見せている。
4. 数字のブレ幅
数字には 「ブレ幅」 がある。 たとえばサイコロを 10回振って 6 が 3回出たら、勝率30%に見えるけど、本当は 1/6(約17%) しかない。少ない回数だと、たまたまの結果が出やすい。
これは予想でも同じで、数十回の的中だと「たまたま当たっただけ」のことがある。なので当サイトは、すべての成績に 「だいたいこの範囲に収まる」 という幅も併記している。
5. Bootstrap信頼区間の中身
少し技術的な話になるが、 当サイトの 「ブレ幅」 はBootstrapという統計手法で計算しておる。 手順は以下の通りで御座る:
- 過去の的中・外れデータが手元に1,000件あるとする
- そこから 「重複OKでランダム1,000件抽出」 して、新しいデータセットを作る
- そのデータセットで ROI を計算 → ROI₁ を得る
- これを 1,000〜10,000回繰り返す → ROI₁, ROI₂, ..., ROI₁₀₀₀₀
- 得られた ROI 値の 下から2.5%〜97.5% の範囲 が95% 信頼区間
このやり方なら、 「真のROIはたぶん0.85〜1.15の間」 という信頼できる範囲が出せる。 サンプル数が増えるほど範囲が狭くなり、 数字の信頼度が上がる。
6. 確率校正(カリブレーション)
AIが「30%で当たる」と言ったとき、 本当に30%当たっているか — これを 「確率校正(カリブレーション)」 と呼ぶ。
校正がズレていると、 賭ける判断が全部狂う。 たとえば AIが「40%で当たる、 オッズ3倍だから期待値1.2倍」と言ったレースで、 本当は25%しか当たらないなら、 期待値は0.75で大赤字。
当サイトでは Reliability Diagram という図で校正度を視覚化し、 ズレが大きい場合は Isotonic Regression や Platt Scaling で 事後的に補正 する。 これにより、 「確率と実際の的中率」が一致するモデルだけを採用しておる。
7. 使っているAIアルゴリズム
当サイトのAI予想は、 以下のような技術スタックで構築しておる:
- XGBoost — 勾配ブースティング決定木。 表形式データで業界標準
- CatBoost — XGBoostの派生で、 カテゴリカル変数に強い
- LightGBM — 高速で大規模データに向く
- Ensemble — 上記3モデルの予測を組み合わせ、 精度を上げる
- Isotonic Regression — 確率校正の補正
- Bootstrap — 信頼区間の計算
賭式(単勝・複勝・3連単・3連複)ごとに、 独立したモデル を学習・運用している。 同じアルゴリズムでも、 賭式が違えば最適なハイパーパラメータが違うため。
8. 特徴量(モデルが見ている情報)
AIが予想を出すために使う「情報の粒」 を 特徴量(feature) と呼ぶ。 当サイトは数十種類の特徴量を組み合わせておる:
- 全国勝率・当地勝率
- 連対率・3連対率
- 平均ST・F数・L数
- 級別ランク(A1=4, B2=1)
- 支部・所属場
- モーター2連率
- 新エンジン期フラグ
- ボート2連率
- 展示タイム
- 過去の機力推移
- 場コード(24場)
- 水質(淡水/海水/汽水)
- 気温・気圧(取得日のみ)
- 風速・風向き
- 潮位(汽水場のみ)
- R番号(1〜12)
- レース種別(予選/準優/優勝戦)
- グレード(SG/G1/G2/G3/一般戦)
- 女子戦フラグ
- 季節・月