正直予想
METHODOLOGY中身を全部公開

予想の
作り方

むずかしい言葉は使わない。中学生でも読める分量で、ぜんぶ正直に書く。

1. このサイトはどうやって予想してる?

過去のレース数十万件をコンピューターに読ませて、 「こういう選手・こういうコース・こういう天気のときは、誰が来やすいか」を学習させている。 人間の予想師の「勘」を、機械が数字でやる、と思ってもらえれば十分。

さらに、舟券の種類(単勝・複勝・3連単など)ごとに得意な機械が違うので、賭け方ごとに最適な機械を使い分ける仕組み。 最終的に出てくるのは、各艇の「当たる確率」と、それを倍率に掛けた「100円賭けたら何円戻りそうか」という数字だけ。

2. 「100円→XX円」と言える根拠

予想のうまさを測るのに、当サイトでは 「100円賭けたらいくら戻ってくるか」 だけを見る。これが一番ウソをつきにくい数字。

ただし、ここで 2つの大事なルール を守っている:

  1. 練習に使ってないレースだけで測る。 人間でも、テスト前に答えを見たら100点取れるのは当たり前。機械も同じで、「練習に使ったレース」で成績を測ると、いくらでも数字を盛れてしまう。
  2. 未来の情報をうっかり混ぜない。 「レースが終わってから分かる情報」を予想に使ったら、ズル。当サイトは、予想を出した瞬間に確実に分かっていた情報だけを使っている。

3. 他サイトとの違い

「回収率200%!」「的中率90%!」と書いてある予想サイトを見たことはないか。その数字、ほぼ確実に信用できない。理由は3つ:

  1. 練習に使ったレースで測ってる: 「テスト前に答えを見た」状態。当然いい数字が出るが、新しいレースには通用しない。
  2. 未来の情報をこっそり混ぜてる: レース直前にしか確定しない情報を、過去の予想に混ぜて計算してる。実際にはそのタイミングで使えない情報なので、見せかけだけの数字。
  3. 都合の良いレースだけ切り出してる: 「Aさんが本命だったレース 100件のうち、当たった30件だけを見せる」というやり方。実際にぜんぶ買うと、数字は半分くらいに落ちることが多い。

当サイトでは、この3つを 全部排除 した数字を出している。儲かる予想を売っているのではなく、本当の実力を見せている。

4. 数字のブレ幅

数字には 「ブレ幅」 がある。 たとえばサイコロを 10回振って 6 が 3回出たら、勝率30%に見えるけど、本当は 1/6(約17%) しかない。少ない回数だと、たまたまの結果が出やすい。

これは予想でも同じで、数十回の的中だと「たまたま当たっただけ」のことがある。なので当サイトは、すべての成績に 「だいたいこの範囲に収まる」 という幅も併記している。

例: 「100円→105円、ただしブレ幅は 85〜130円」と書いてあったら、「85円かもしれぬし 130円かもしれぬ」と読んで欲しい。幅の下が 100円を切ってる場合、本当は赤字の可能性もある。

5. Bootstrap信頼区間の中身

少し技術的な話になるが、 当サイトの 「ブレ幅」 はBootstrapという統計手法で計算しておる。 手順は以下の通りで御座る:

  1. 過去の的中・外れデータが手元に1,000件あるとする
  2. そこから 「重複OKでランダム1,000件抽出」 して、新しいデータセットを作る
  3. そのデータセットで ROI を計算 → ROI₁ を得る
  4. これを 1,000〜10,000回繰り返す → ROI₁, ROI₂, ..., ROI₁₀₀₀₀
  5. 得られた ROI 値の 下から2.5%〜97.5% の範囲 が95% 信頼区間

このやり方なら、 「真のROIはたぶん0.85〜1.15の間」 という信頼できる範囲が出せる。 サンプル数が増えるほど範囲が狭くなり、 数字の信頼度が上がる。

6. 確率校正(カリブレーション)

AIが「30%で当たる」と言ったとき、 本当に30%当たっているか — これを 「確率校正(カリブレーション)」 と呼ぶ。

校正がズレていると、 賭ける判断が全部狂う。 たとえば AIが「40%で当たる、 オッズ3倍だから期待値1.2倍」と言ったレースで、 本当は25%しか当たらないなら、 期待値は0.75で大赤字。

当サイトでは Reliability Diagram という図で校正度を視覚化し、 ズレが大きい場合は Isotonic Regression や Platt Scaling で 事後的に補正 する。 これにより、 「確率と実際の的中率」が一致するモデルだけを採用しておる。

現状: 複勝モデルは校正済みで実弾基準(hold-out 1.05倍)クリア。 一方、 3連複モデルは校正がズレており、 修正作業中。 詳しくは /performance/ 参照。

7. 使っているAIアルゴリズム

当サイトのAI予想は、 以下のような技術スタックで構築しておる:

  • XGBoost — 勾配ブースティング決定木。 表形式データで業界標準
  • CatBoost — XGBoostの派生で、 カテゴリカル変数に強い
  • LightGBM — 高速で大規模データに向く
  • Ensemble — 上記3モデルの予測を組み合わせ、 精度を上げる
  • Isotonic Regression — 確率校正の補正
  • Bootstrap — 信頼区間の計算

賭式(単勝・複勝・3連単・3連複)ごとに、 独立したモデル を学習・運用している。 同じアルゴリズムでも、 賭式が違えば最適なハイパーパラメータが違うため。

8. 特徴量(モデルが見ている情報)

AIが予想を出すために使う「情報の粒」 を 特徴量(feature) と呼ぶ。 当サイトは数十種類の特徴量を組み合わせておる:

選手データ
  • 全国勝率・当地勝率
  • 連対率・3連対率
  • 平均ST・F数・L数
  • 級別ランク(A1=4, B2=1)
  • 支部・所属場
機材データ
  • モーター2連率
  • 新エンジン期フラグ
  • ボート2連率
  • 展示タイム
  • 過去の機力推移
場・コンディション
  • 場コード(24場)
  • 水質(淡水/海水/汽水)
  • 気温・気圧(取得日のみ)
  • 風速・風向き
  • 潮位(汽水場のみ)
レース構造
  • R番号(1〜12)
  • レース種別(予選/準優/優勝戦)
  • グレード(SG/G1/G2/G3/一般戦)
  • 女子戦フラグ
  • 季節・月

9. 賭けていいタイミング

運営者がリアルで賭けて良いと判断するのは、以下を 全部 満たしたときだけ:

  • 練習に使ってないレースで、100円→105円以上戻ってくる
  • ブレ幅の下が 100円を切らない
  • サンプル数が 200以上(少ないと運の影響が大きい)
  • 「都合の良いレースだけ切り出した分」の嵩上げが小さい
  • 1日の最大損失額を必ず決め、超えたら自動で停止する仕組みを動かしている

この条件を満たさない買い目はサイトに表示はするが、運営者は実弾を入れない。 読者諸兄も、自己責任の原則の下、慎重な御判断を御願い申し上げ候。