FYT体育 · 数据驱动的中文体育报道 📩 订阅
2026世界杯倒计时 限量球衣抽奖 · 资源全套免费下载 免费订阅 › ×

2026世界杯夺冠概率模型:方法论与数据来源 (v1.2)

2026-02-19 00:00 · 3032字 · 阅7分钟

FYT体育2026世界杯夺冠概率模型 v1.2。沿用 v1.0 五维加权评分 + 新增 Elo 驱动的小组赛蒙特卡洛模拟,附 2022 世界杯历史回测。

模型概述

FYT体育世界杯夺冠概率模型 v1.2 由两层组成:

  1. 夺冠评分(沿用 v1.0) — 基于五项加权因子的 Power Score,归一化为 48 队夺冠概率。
  2. 小组赛蒙特卡洛(v1.2 新增) — 用 Elo 胜率预期模拟每场小组赛,跑 10,000 次得到每队的小组排名分布与晋级概率。

夺冠概率层回答「谁是最强」,小组赛模拟层回答「谁能出线」。两者使用同一份输入数据(data/worldcup_2026/team-inputs.yaml + matches.yaml),但服务于不同的读者问题。

请注意定义边界:

  • 公开数据输入:eloratings.net、FBref、Transfermarkt、FIFA
  • FYT 模型输出:因子选择、权重、归一化、模拟流程、和率校准、版本管理与可复现性

模型输出仅作辅助参考,不涉及任何投注建议。


第一层:夺冠评分(v1.0 沿用)

评分公式

Power Score_i = Σ(权重 × 归一化因子)
夺冠概率_i = Power Score_i / Σ(Power Score) × 100%

流程:

  1. 各因子做 Min-Max 归一化到 0–1
  2. 加权求和得到 Team Power Score
  3. 48 队 Power Score 直接归一化为 100%

五项因子与权重

因子权重数据来源说明
Elo 实力指标30%eloratings.net归一化范围 1200–2200
xG/90 进攻效率25%FBref归一化范围 0.3–3.5
xGA/90 防守效率20%FBref归一化范围 0.3–3.5(反向,失球越少得分越高)
世界杯经验15%历史数据0–100 评分(参赛次数 + 近年战绩)
阵容年龄适配度10%Transfermarkt0–100 评分(核心球员处于黄金年龄的比例)

已知局限:夺冠概率过度平坦

这套归一化把全部「实力」摊平在 48 队之间,最强球队也只有约 3% 夺冠概率,与博彩共识(10–15% 量级)不符。v1.2 维持此层的原因是:真正符合赛制的夺冠概率应当从淘汰赛模拟反推,而非用数学校准强行拉伸。v1.3 将通过淘汰赛蒙特卡洛重新派生夺冠概率,届时 win_probability_pct 字段会从「直接归一化」切换为「冠军模拟频率」。

在 v1.3 之前,建议读者关注小组赛模拟层的晋级概率(10–99% 范围分布合理),而非夺冠概率字段。


第二层:小组赛蒙特卡洛(v1.2 新增)

每场比赛的胜/平/负概率

对每场小组赛,根据双方 Elo 评分计算:

P(A 胜) = expected_a × (1 − P(平))
P(B 胜) = (1 − expected_a) × (1 − P(平))
P(平) = max(0.05, 0.30 × exp(−|Elo差| / 500))
expected_a = 1 / (1 + 10−(Elo_a − Elo_b)/400)
  • 胜率预期 使用经典 Elo 公式(200 分差大约对应 76% 胜率预期)
  • 和率 与实力差距挂钩:实力相近约 30%,差距 500 分以上落至 5% 下限。比起恒定 26% 历史均值,缝隙感知模型能更好地体现「西班牙 vs 库拉索几乎不会握手言和」的现实

比分采样(用于并列规则)

得知胜/平/负后,再独立采样一个比分:

  • 平局:0-0 / 1-1 / 2-2 / 3-3 按 28 / 36 / 24 / 12 的权重抽样
  • 胜负:胜方进球 = 输方进球 + 净胜球;净胜球以「Elo差/200」为均值的正态分布抽样后取整到 [1, 5];输方进球 0/1/2 按 40/40/20 抽样

比分仅用于积分差与进球数的并列裁决,不作为预测每场具体比分发布

蒙特卡洛流程

for sim in range(10,000):
    模拟全部 72 场小组赛
    统计每队的积分、净胜球、进球数
    各小组内按 [积分 → 净胜球 → 进球数 → 抽签] 排名
    所有小组的小组第三按同一规则跨组对比,取前 8 晋级 R32

汇总 10,000 次模拟,得到每队的:
    - 小组第一 / 第二 / 第三 / 第四 概率
    - 晋级 R32 概率(小组前二 + 最佳第三)
    - 预期积分、预期净胜球、预期进球数

输出字段(predictions.json

每支球队的 group_stage 块包含:

字段类型说明
p_group_winner0–1小组第一概率
p_runner_up0–1小组第二概率
p_third0–1小组第三概率
p_fourth0–1小组垫底概率
p_advance_ko0–1晋级 R32 概率(前二 + 最佳第三)
p_eliminated0–1小组赛被淘汰概率
exp_points0–9三场小组赛预期积分
exp_gdfloat预期净胜球
exp_gffloat预期进球数

数据来源(2026-05-17 更新)

来源截止日期链接
eloratings.net2026-05-17eloratings.net
FBref Expected Goals2026-04-30fbref.com
Transfermarkt Squad Data2026-04-30transfermarkt.com
FIFA World Rankings2026-04-30fifa.com/fifa-world-ranking

2026-05-17 数据洗牌

v1.0 输入 team-inputs.yaml 在 2026-02 已写入,部分球队(含意大利)当时标注 projected。资格赛于 2026-04 全部结束,11 支当时入选的球队未能正赛,11 支新球队取而代之:

  • 移除:意大利、丹麦、塞尔维亚、波兰、乌克兰、威尔士、喀麦隆、尼日利亚、牙买加、哥斯达黎加、洪都拉斯
  • 新增:捷克、瑞典、苏格兰、波黑、巴拿马、海地、库拉索、约旦、加纳、佛得角、民主刚果

11 支新球队的 Elo 已用 eloratings.net 当前值填入;xG、世界杯经验、阵容年龄适配度仍为首轮估算(confidence_note 字段标识),下一周期 cron 前会刷新到 FBref 与 Transfermarkt 的最新数据。


历史回测:2022 世界杯小组赛

详细报告:doc/wc-model-backtest-2022.md

指标v1.2 小组赛模拟Elo 排名硬选基线全部 50/50 基线
Brier 评分(晋级概率) ↓0.1850.3130.250
小组第一命中(8 组)6 / 8
前 16 晋级集(按概率排序)11 / 16

解读

  • 0.8–1.0 概率区间(5 队):实际晋级率 100%(5/5)。高置信度预测全部命中
  • 0.0–0.2 概率区间(5 队):实际晋级率 0%(0/5)。低置信度淘汰预测全部命中
  • 0.4–0.7 中间区间:受 2022 三大爆冷(日本击败西班牙+德国、摩洛哥击败比利时、阿根廷小组首战不敌沙特)影响,命中率约 40–56%

Elo 类模型本身的局限:无法预测临场战术革命与黄金一代陨落。这是任何赛前统计模型的天花板。

最大偏差

球队模型预测晋级概率实际结果偏差
澳大利亚(AUS)29.5%晋级−0.71
乌拉圭(URU)68.0%出局+0.68
比利时(BEL)66.7%出局+0.67
德国(GER)66.2%出局+0.66
塞内加尔(SEN)34.2%晋级−0.66

模型元数据与可复现性

每次运行计算一组追踪字段:

  • model_version — 模型版本号(当前 1.2)
  • run_date — UTC 运行时间
  • source_snapshot — SHA-256 指纹,覆盖 team-inputs.yaml + matches.yaml + 权重 + 版本号
  • group_sim — 蒙特卡洛元数据(sim 次数、和率模型参数)

蒙特卡洛的随机种子由 source_snapshot 派生,意味着同一份输入永远产生相同的模拟结果。任何输入变更都会改变指纹与种子。

输出落地三处:

  • data/worldcup_2026/predictions.json — 当前最新输出(Hugo 构建使用)
  • data/worldcup_2026/snapshots/predictions-YYYY-MM-DD.json — 周快照存档
  • Postgres model_runs / season_predictions 表 — 供审计与回测查询(v1.2 仅写入 v1.0 字段;小组赛字段待 v1.3 加入列)

模型迭代日志

版本发布日期核心改动顶级球队夺冠概率顶级球队晋级 R32 概率
v1.02026-02-19五因子加权评分 + 直接归一化为夺冠概率~3.3%
v1.22026-05-17沿用 v1.0 评分;新增 Elo 驱动小组赛蒙特卡洛(10,000 次);输入数据按资格赛结果更新(11 队替换)~3.1%(待 v1.3 重派生)95–99%

v1.2 改动理由

  • 保留 v1.0 评分结构 — 因子选择经过两年沉淀,未发现需要重构的硬证据。修复夺冠概率「太平坦」的正确路径是引入赛制结构(淘汰赛模拟),而非用数学校准强行拉伸
  • 新增小组赛蒙特卡洛 — 真正回答读者「谁能出线」的问题。10,000 次模拟约 1.4 秒,可天天跑
  • Elo 驱动而非 xG 驱动 — Elo 是国际足坛标准评分,eloratings.net 公开数据稳定可用;国际队 xG 在头部 20 名外覆盖率显著下降,长期数据可持续性较差
  • 缝隙感知和率 — 和率随实力差距衰减(30% 实力相近 → 5% 巨大悬殊),比恒定 26% 更贴近实际比赛分布

v1.3 路线图

  • 淘汰赛蒙特卡洛:从小组赛模拟结果派生 R32 对阵,模拟单场淘汰(加时 + 点球大战),输出基于赛制的真正夺冠概率,替代 v1.0 的归一化字段
  • 主办国效应:把 home_advantage 应用于美/加/墨在本国场地的小组赛 Elo 加成
  • DB schema 扩展season_predictions 表新增 p_group_winner / p_advance_ko / exp_group_points 列,让小组赛模拟数据也进入查询层

已知局限

  1. 夺冠概率仍过度平坦 — 当前 win_probability_pct 字段是 v1.0 归一化输出,最强球队也只有约 3%。建议参考 group_stage.p_advance_kop_group_winner 字段。v1.3 淘汰赛模拟落地后此字段语义会改变
  2. 不含伤病、停赛、临场调整
  3. 新晋级球队首轮估算 — 11 支新球队的 xG / 经验 / 年龄字段为粗估,下一周期 cron 前校准
  4. 主办国效应未应用 — 输入文件保留 home_advantage 字段但 v1.2 未在模拟中读取,留给 v1.3
  5. 比分采样不构成预测 — 模拟比分仅用于积分差/进球数的并列规则,不代表预测每场比分

免责声明

本页面仅供参考,不构成任何投注建议。模型概率基于历史数据与统计推算,不保证预测准确性。

FAQ

常见问题

10 题
Q01 v1.2 模型基于哪些数据?
模型分两层。第一层(夺冠评分)使用五项加权因子:Elo 实力指标(30%)、xG/90 进攻效率(25%)、xGA/90 防守效率(20%)、世界杯经验(15%)、阵容年龄适配度(10%)。第二层(小组赛模拟)以每队的 Elo 评分驱动:根据 Elo 胜率预期与缝隙感知的和率,模拟每场小组赛的胜/平/负与比分。
Q02 数据来源是什么?
Elo 评分取自 eloratings.net(每周刷新);xG/xGA 来自 FBref;阵容年龄分布来自 Transfermarkt;FIFA 世界排名作为辅助参考。每次更新时各来源截止日期同步标注。
Q03 模型多久更新一次?
每周日凌晨自动运行(cronManager 调度任务 fytpress–wc-prediction-model)。遇重大赛事或资格赛结果尘埃落定时执行临时重算。每次更新对应明确的模型版本、运行时间与 source_snapshot 指纹。
Q04 小组赛模拟具体是怎么算的?
对 12 个小组的 72 场小组赛各计算一次胜/平/负概率(Elo 胜率预期 × 比赛和率)。和率使用与 Elo 差值挂钩的衰减模型:实力相近时约 30%,差距 500 分以上时降至 5% 下限。再独立采样比赛比分用于积分差/进球数的并列规则。整轮模拟跑 10,000 次,统计每队成为小组第一、小组第二、最佳小组第三(晋级 R32 的额外 8 席)、被淘汰的频率,以及预期积分、预期净胜球。
Q05 模型结果可以复现吗?
是。每次运行计算 source_snapshot(SHA-256 指纹,覆盖 team-inputs.yaml + matches.yaml + 权重 + 版本号)。蒙特卡洛的随机种子从 snapshot 派生,意味着同一份输入永远产生相同的模拟结果。任何输入变更都会生成新的指纹与不同的输出。
Q06 模型在历史世界杯上的表现如何?
在 2022 世界杯小组赛回测上(32 队 × 8 组 × 前 2 出线的旧赛制),v1.2 的小组赛模拟达到 Brier 评分 0.185,明显优于「按 Elo 硬选前 16」的 0.313 与「全部 50/50」的 0.250 两个基线。8 个小组第一中预测对 6 个(日本击败西班牙、摩洛哥击败比利时的两大爆冷是任何赛前数据模型都难以预知的)。完整回测报告见 doc/wc-model-backtest-2022.md
Q07 v1.0 和 v1.2 有什么区别?
v1.0(2026-02-19)输出 48 队夺冠概率,归一化方式使最强队也只有约 3% 概率,无法反映赛制结构对晋级路径的影响。v1.2(2026-05-17)在 v1.0 评分基础上新增小组赛蒙特卡洛模拟,让读者直接看到每队小组出线、晋级 R32 的概率(顶级球队 95%+,弱队 10–20%)。夺冠概率维持 v1.0 的归一化输出,待 v1.3 引入淘汰赛模拟后再用赛制重新派生。
Q08 为什么 v1.2 几乎没有「预计晋级」标签了?
2026-04 资格赛全部尘埃落定。v1.0 时期标记为 projected 的球队(如意大利、丹麦、塞尔维亚、波兰、乌克兰等)大多未能晋级,已从输入中移除。新晋级的 11 支球队(捷克、瑞典、苏格兰、波黑、巴拿马、海地、库拉索、约旦、加纳、佛得角、民主刚果)以首轮估算值进入,下一轮 cron 前会校准 xG/经验/年龄数据。
Q09 模型有哪些已知局限?
(1) 当前夺冠概率为 v1.0 直接归一化,过度平坦;正确的赛制驱动夺冠概率将在 v1.3 通过淘汰赛蒙特卡洛输出。(2) 不含伤病、停赛、临场调整等动态因素。(3) 11 支新入正赛的球队 xG/经验/年龄数据为首轮估算,下一周期前优化。(4) 主办国效应(home_advantage)目前未在模拟中应用,待 v1.3 加入。(5) 比分采样使用 Elo 差值合成,仅用于并列规则,不代表预测每场比分。
Q10 这个模型可以用于投注吗?
不可以。模型输出仅作辅助参考,不涉及任何投注建议。概率基于历史数据与统计推算,不保证预测准确性。