2026世界杯夺冠概率模型:方法论与数据来源 (v1.2)
FYT体育2026世界杯夺冠概率模型 v1.2。沿用 v1.0 五维加权评分 + 新增 Elo 驱动的小组赛蒙特卡洛模拟,附 2022 世界杯历史回测。
模型概述
FYT体育世界杯夺冠概率模型 v1.2 由两层组成:
- 夺冠评分(沿用 v1.0) — 基于五项加权因子的 Power Score,归一化为 48 队夺冠概率。
- 小组赛蒙特卡洛(v1.2 新增) — 用 Elo 胜率预期模拟每场小组赛,跑 10,000 次得到每队的小组排名分布与晋级概率。
夺冠概率层回答「谁是最强」,小组赛模拟层回答「谁能出线」。两者使用同一份输入数据(data/worldcup_2026/team-inputs.yaml + matches.yaml),但服务于不同的读者问题。
请注意定义边界:
- 公开数据输入:eloratings.net、FBref、Transfermarkt、FIFA
- FYT 模型输出:因子选择、权重、归一化、模拟流程、和率校准、版本管理与可复现性
模型输出仅作辅助参考,不涉及任何投注建议。
第一层:夺冠评分(v1.0 沿用)
评分公式
夺冠概率_i = Power Score_i / Σ(Power Score) × 100%
流程:
- 各因子做 Min-Max 归一化到 0–1
- 加权求和得到 Team Power Score
- 48 队 Power Score 直接归一化为 100%
五项因子与权重
| 因子 | 权重 | 数据来源 | 说明 |
|---|---|---|---|
| Elo 实力指标 | 30% | eloratings.net | 归一化范围 1200–2200 |
| xG/90 进攻效率 | 25% | FBref | 归一化范围 0.3–3.5 |
| xGA/90 防守效率 | 20% | FBref | 归一化范围 0.3–3.5(反向,失球越少得分越高) |
| 世界杯经验 | 15% | 历史数据 | 0–100 评分(参赛次数 + 近年战绩) |
| 阵容年龄适配度 | 10% | Transfermarkt | 0–100 评分(核心球员处于黄金年龄的比例) |
已知局限:夺冠概率过度平坦
这套归一化把全部「实力」摊平在 48 队之间,最强球队也只有约 3% 夺冠概率,与博彩共识(10–15% 量级)不符。v1.2 维持此层的原因是:真正符合赛制的夺冠概率应当从淘汰赛模拟反推,而非用数学校准强行拉伸。v1.3 将通过淘汰赛蒙特卡洛重新派生夺冠概率,届时 win_probability_pct 字段会从「直接归一化」切换为「冠军模拟频率」。
在 v1.3 之前,建议读者关注小组赛模拟层的晋级概率(10–99% 范围分布合理),而非夺冠概率字段。
第二层:小组赛蒙特卡洛(v1.2 新增)
每场比赛的胜/平/负概率
对每场小组赛,根据双方 Elo 评分计算:
P(B 胜) = (1 − expected_a) × (1 − P(平))
P(平) = max(0.05, 0.30 × exp(−|Elo差| / 500))
expected_a = 1 / (1 + 10−(Elo_a − Elo_b)/400)
- 胜率预期 使用经典 Elo 公式(200 分差大约对应 76% 胜率预期)
- 和率 与实力差距挂钩:实力相近约 30%,差距 500 分以上落至 5% 下限。比起恒定 26% 历史均值,缝隙感知模型能更好地体现「西班牙 vs 库拉索几乎不会握手言和」的现实
比分采样(用于并列规则)
得知胜/平/负后,再独立采样一个比分:
- 平局:0-0 / 1-1 / 2-2 / 3-3 按 28 / 36 / 24 / 12 的权重抽样
- 胜负:胜方进球 = 输方进球 + 净胜球;净胜球以「Elo差/200」为均值的正态分布抽样后取整到 [1, 5];输方进球 0/1/2 按 40/40/20 抽样
比分仅用于积分差与进球数的并列裁决,不作为预测每场具体比分发布。
蒙特卡洛流程
for sim in range(10,000):
模拟全部 72 场小组赛
统计每队的积分、净胜球、进球数
各小组内按 [积分 → 净胜球 → 进球数 → 抽签] 排名
所有小组的小组第三按同一规则跨组对比,取前 8 晋级 R32
汇总 10,000 次模拟,得到每队的:
- 小组第一 / 第二 / 第三 / 第四 概率
- 晋级 R32 概率(小组前二 + 最佳第三)
- 预期积分、预期净胜球、预期进球数
输出字段(predictions.json)
每支球队的 group_stage 块包含:
| 字段 | 类型 | 说明 |
|---|---|---|
p_group_winner | 0–1 | 小组第一概率 |
p_runner_up | 0–1 | 小组第二概率 |
p_third | 0–1 | 小组第三概率 |
p_fourth | 0–1 | 小组垫底概率 |
p_advance_ko | 0–1 | 晋级 R32 概率(前二 + 最佳第三) |
p_eliminated | 0–1 | 小组赛被淘汰概率 |
exp_points | 0–9 | 三场小组赛预期积分 |
exp_gd | float | 预期净胜球 |
exp_gf | float | 预期进球数 |
数据来源(2026-05-17 更新)
| 来源 | 截止日期 | 链接 |
|---|---|---|
| eloratings.net | 2026-05-17 | eloratings.net |
| FBref Expected Goals | 2026-04-30 | fbref.com |
| Transfermarkt Squad Data | 2026-04-30 | transfermarkt.com |
| FIFA World Rankings | 2026-04-30 | fifa.com/fifa-world-ranking |
2026-05-17 数据洗牌
v1.0 输入 team-inputs.yaml 在 2026-02 已写入,部分球队(含意大利)当时标注 projected。资格赛于 2026-04 全部结束,11 支当时入选的球队未能正赛,11 支新球队取而代之:
- 移除:意大利、丹麦、塞尔维亚、波兰、乌克兰、威尔士、喀麦隆、尼日利亚、牙买加、哥斯达黎加、洪都拉斯
- 新增:捷克、瑞典、苏格兰、波黑、巴拿马、海地、库拉索、约旦、加纳、佛得角、民主刚果
11 支新球队的 Elo 已用 eloratings.net 当前值填入;xG、世界杯经验、阵容年龄适配度仍为首轮估算(confidence_note 字段标识),下一周期 cron 前会刷新到 FBref 与 Transfermarkt 的最新数据。
历史回测:2022 世界杯小组赛
详细报告:doc/wc-model-backtest-2022.md
| 指标 | v1.2 小组赛模拟 | Elo 排名硬选基线 | 全部 50/50 基线 |
|---|---|---|---|
| Brier 评分(晋级概率) ↓ | 0.185 | 0.313 | 0.250 |
| 小组第一命中(8 组) | 6 / 8 | — | — |
| 前 16 晋级集(按概率排序) | 11 / 16 | — | — |
解读
- 0.8–1.0 概率区间(5 队):实际晋级率 100%(5/5)。高置信度预测全部命中
- 0.0–0.2 概率区间(5 队):实际晋级率 0%(0/5)。低置信度淘汰预测全部命中
- 0.4–0.7 中间区间:受 2022 三大爆冷(日本击败西班牙+德国、摩洛哥击败比利时、阿根廷小组首战不敌沙特)影响,命中率约 40–56%
Elo 类模型本身的局限:无法预测临场战术革命与黄金一代陨落。这是任何赛前统计模型的天花板。
最大偏差
| 球队 | 模型预测晋级概率 | 实际结果 | 偏差 |
|---|---|---|---|
| 澳大利亚(AUS) | 29.5% | 晋级 | −0.71 |
| 乌拉圭(URU) | 68.0% | 出局 | +0.68 |
| 比利时(BEL) | 66.7% | 出局 | +0.67 |
| 德国(GER) | 66.2% | 出局 | +0.66 |
| 塞内加尔(SEN) | 34.2% | 晋级 | −0.66 |
模型元数据与可复现性
每次运行计算一组追踪字段:
model_version— 模型版本号(当前 1.2)run_date— UTC 运行时间source_snapshot— SHA-256 指纹,覆盖team-inputs.yaml+matches.yaml+ 权重 + 版本号group_sim— 蒙特卡洛元数据(sim 次数、和率模型参数)
蒙特卡洛的随机种子由 source_snapshot 派生,意味着同一份输入永远产生相同的模拟结果。任何输入变更都会改变指纹与种子。
输出落地三处:
data/worldcup_2026/predictions.json— 当前最新输出(Hugo 构建使用)data/worldcup_2026/snapshots/predictions-YYYY-MM-DD.json— 周快照存档- Postgres
model_runs/season_predictions表 — 供审计与回测查询(v1.2 仅写入 v1.0 字段;小组赛字段待 v1.3 加入列)
模型迭代日志
| 版本 | 发布日期 | 核心改动 | 顶级球队夺冠概率 | 顶级球队晋级 R32 概率 |
|---|---|---|---|---|
| v1.0 | 2026-02-19 | 五因子加权评分 + 直接归一化为夺冠概率 | ~3.3% | — |
| v1.2 | 2026-05-17 | 沿用 v1.0 评分;新增 Elo 驱动小组赛蒙特卡洛(10,000 次);输入数据按资格赛结果更新(11 队替换) | ~3.1%(待 v1.3 重派生) | 95–99% |
v1.2 改动理由
- 保留 v1.0 评分结构 — 因子选择经过两年沉淀,未发现需要重构的硬证据。修复夺冠概率「太平坦」的正确路径是引入赛制结构(淘汰赛模拟),而非用数学校准强行拉伸
- 新增小组赛蒙特卡洛 — 真正回答读者「谁能出线」的问题。10,000 次模拟约 1.4 秒,可天天跑
- Elo 驱动而非 xG 驱动 — Elo 是国际足坛标准评分,eloratings.net 公开数据稳定可用;国际队 xG 在头部 20 名外覆盖率显著下降,长期数据可持续性较差
- 缝隙感知和率 — 和率随实力差距衰减(30% 实力相近 → 5% 巨大悬殊),比恒定 26% 更贴近实际比赛分布
v1.3 路线图
- 淘汰赛蒙特卡洛:从小组赛模拟结果派生 R32 对阵,模拟单场淘汰(加时 + 点球大战),输出基于赛制的真正夺冠概率,替代 v1.0 的归一化字段
- 主办国效应:把
home_advantage应用于美/加/墨在本国场地的小组赛 Elo 加成 - DB schema 扩展:
season_predictions表新增p_group_winner/p_advance_ko/exp_group_points列,让小组赛模拟数据也进入查询层
已知局限
- 夺冠概率仍过度平坦 — 当前
win_probability_pct字段是 v1.0 归一化输出,最强球队也只有约 3%。建议参考group_stage.p_advance_ko与p_group_winner字段。v1.3 淘汰赛模拟落地后此字段语义会改变 - 不含伤病、停赛、临场调整
- 新晋级球队首轮估算 — 11 支新球队的 xG / 经验 / 年龄字段为粗估,下一周期 cron 前校准
- 主办国效应未应用 — 输入文件保留
home_advantage字段但 v1.2 未在模拟中读取,留给 v1.3 - 比分采样不构成预测 — 模拟比分仅用于积分差/进球数的并列规则,不代表预测每场比分
免责声明
本页面仅供参考,不构成任何投注建议。模型概率基于历史数据与统计推算,不保证预测准确性。

