v1.2 模型基于哪些数据？

模型分两层。第一层（夺冠评分）使用五项加权因子：Elo 实力指标（30%）、xG/90 进攻效率（25%）、xGA/90 防守效率（20%）、世界杯经验（15%）、阵容年龄适配度（10%）。第二层（小组赛模拟）以每队的 Elo 评分驱动：根据 Elo 胜率预期与缝隙感知的和率，模拟每场小组赛的胜/平/负与比分。

数据来源是什么？

Elo 评分取自 eloratings.net（每周刷新）；xG/xGA 来自 FBref；阵容年龄分布来自 Transfermarkt；FIFA 世界排名作为辅助参考。每次更新时各来源截止日期同步标注。

模型多久更新一次？

每周日凌晨自动运行（cronManager 调度任务 fytpress--wc-prediction-model）。遇重大赛事或资格赛结果尘埃落定时执行临时重算。每次更新对应明确的模型版本、运行时间与 source_snapshot 指纹。

小组赛模拟具体是怎么算的？

对 12 个小组的 72 场小组赛各计算一次胜/平/负概率（Elo 胜率预期 × 比赛和率）。和率使用与 Elo 差值挂钩的衰减模型：实力相近时约 30%，差距 500 分以上时降至 5% 下限。再独立采样比赛比分用于积分差/进球数的并列规则。整轮模拟跑 10,000 次，统计每队成为小组第一、小组第二、最佳小组第三（晋级 R32 的额外 8 席）、被淘汰的频率，以及预期积分、预期净胜球。

模型结果可以复现吗？

是。每次运行计算 source_snapshot（SHA-256 指纹，覆盖 team-inputs.yaml + matches.yaml + 权重 + 版本号）。蒙特卡洛的随机种子从 snapshot 派生，意味着同一份输入永远产生相同的模拟结果。任何输入变更都会生成新的指纹与不同的输出。

模型在历史世界杯上的表现如何？

在 2022 世界杯小组赛回测上（32 队 × 8 组 × 前 2 出线的旧赛制），v1.2 的小组赛模拟达到 Brier 评分 0.228，优于「全部 50/50」的 0.250 与「按 Elo 硬选前 16」的 0.375 两个基线。8 个小组第一中预测对 6 个（日本击败西班牙、摩洛哥击败比利时的两大爆冷是任何赛前数据模型都难以预知的）。完整回测可通过 `scripts/predictions/backtest.py` 复现（同 `scripts/predictions/README.md`）。

v1.0 和 v1.2 有什么区别？

v1.0（2026-02-19）输出 48 队夺冠概率，归一化方式使最强队也只有约 3% 概率，无法反映赛制结构对晋级路径的影响。v1.2（2026-05-17）在 v1.0 评分基础上新增小组赛蒙特卡洛模拟，让读者直接看到每队小组出线、晋级 R32 的概率（顶级球队 95%+，弱队 10–20%）。夺冠概率维持 v1.0 的归一化输出，待 v1.3 引入淘汰赛模拟后再用赛制重新派生。

为什么 v1.2 几乎没有「预计晋级」标签了？

2026-04 资格赛全部尘埃落定。v1.0 时期标记为 projected 的球队（如意大利、丹麦、塞尔维亚、波兰、乌克兰等）大多未能晋级，已从输入中移除。新晋级的 11 支球队（捷克、瑞典、苏格兰、波黑、巴拿马、海地、库拉索、约旦、加纳、佛得角、民主刚果）以首轮估算值进入，下一轮 cron 前会校准 xG/经验/年龄数据。

模型有哪些已知局限？

(1) 当前夺冠概率为 v1.0 直接归一化，过度平坦；正确的赛制驱动夺冠概率将在 v1.3 通过淘汰赛蒙特卡洛输出。(2) 不含伤病、停赛、临场调整等动态因素。(3) 11 支新入正赛的球队 xG/经验/年龄数据为首轮估算，下一周期前优化。(4) 主办国效应（home_advantage）目前未在模拟中应用，待 v1.3 加入。(5) 比分采样使用 Elo 差值合成，仅用于并列规则，不代表预测每场比分。

这个模型可以用于投注吗？

不可以。模型输出仅作辅助参考，不涉及任何投注建议。概率基于历史数据与统计推算，不保证预测准确性。

2026世界杯夺冠概率模型：方法论与数据来源 (v1.2)

2026-02-19 00:00 · 3073字 · 阅7分钟

FYT体育2026世界杯夺冠概率模型 v1.2。沿用 v1.0 五维加权评分 + 新增 Elo 驱动的小组赛蒙特卡洛模拟，附 2022 世界杯历史回测。

模型概述

FYT体育世界杯夺冠概率模型 v1.2 由两层组成：

夺冠评分（沿用 v1.0） — 基于五项加权因子的 Power Score，归一化为 48 队夺冠概率。
小组赛蒙特卡洛（v1.2 新增） — 用 Elo 胜率预期模拟每场小组赛，跑 10,000 次得到每队的小组排名分布与晋级概率。

夺冠概率层回答「谁是最强」，小组赛模拟层回答「谁能出线」。两者使用同一份输入数据（data/worldcup_2026/team-inputs.yaml + matches.yaml），但服务于不同的读者问题。

请注意定义边界：

公开数据输入：eloratings.net、FBref、Transfermarkt、FIFA
FYT 模型输出：因子选择、权重、归一化、模拟流程、和率校准、版本管理与可复现性

模型输出仅作辅助参考，不涉及任何投注建议。

第一层：夺冠评分（v1.0 沿用）

评分公式

Power Score_i = Σ(权重 × 归一化因子)
夺冠概率_i = Power Score_i / Σ(Power Score) × 100%

流程：

各因子做 Min-Max 归一化到 0–1
加权求和得到 Team Power Score
48 队 Power Score 直接归一化为 100%

五项因子与权重

因子	权重	数据来源	说明
Elo 实力指标	30%	eloratings.net	归一化范围 1200–2200
xG/90 进攻效率	25%	FBref	归一化范围 0.3–3.5
xGA/90 防守效率	20%	FBref	归一化范围 0.3–3.5（反向，失球越少得分越高）
世界杯经验	15%	历史数据	0–100 评分（参赛次数 + 近年战绩）
阵容年龄适配度	10%	Transfermarkt	0–100 评分（核心球员处于黄金年龄的比例）

已知局限：夺冠概率过度平坦

这套归一化把全部「实力」摊平在 48 队之间，最强球队也只有约 3% 夺冠概率，与博彩共识（10–15% 量级）不符。v1.2 维持此层的原因是：真正符合赛制的夺冠概率应当从淘汰赛模拟反推，而非用数学校准强行拉伸。v1.3 将通过淘汰赛蒙特卡洛重新派生夺冠概率，届时 win_probability_pct 字段会从「直接归一化」切换为「冠军模拟频率」。

在 v1.3 之前，建议读者关注小组赛模拟层的晋级概率（10–99% 范围分布合理），而非夺冠概率字段。

第二层：小组赛蒙特卡洛（v1.2 新增）

每场比赛的胜/平/负概率

对每场小组赛，根据双方 Elo 评分计算：

P(A 胜) = expected_a × (1 − P(平))
P(B 胜) = (1 − expected_a) × (1 − P(平))
P(平) = max(0.05, 0.30 × exp(−|Elo差| / 500))
expected_a = 1 / (1 + 10^{−(Elo_a − Elo_b)/400})

胜率预期 使用经典 Elo 公式（200 分差大约对应 76% 胜率预期）
和率与实力差距挂钩：实力相近约 30%，差距 500 分以上落至 5% 下限。比起恒定 26% 历史均值，缝隙感知模型能更好地体现「西班牙 vs 库拉索几乎不会握手言和」的现实

比分采样（用于并列规则）

得知胜/平/负后，再独立采样一个比分：

平局：0-0 / 1-1 / 2-2 / 3-3 按 28 / 36 / 24 / 12 的权重抽样
胜负：胜方进球 = 输方进球 + 净胜球；净胜球以「Elo差/200」为均值的正态分布抽样后取整到 [1, 5]；输方进球 0/1/2 按 40/40/20 抽样

比分仅用于积分差与进球数的并列裁决，不作为预测每场具体比分发布。

蒙特卡洛流程

for sim in range(10,000):
    模拟全部 72 场小组赛
    统计每队的积分、净胜球、进球数
    各小组内按 [积分 → 净胜球 → 进球数 → 抽签] 排名
    所有小组的小组第三按同一规则跨组对比，取前 8 晋级 R32

汇总 10,000 次模拟，得到每队的：
    - 小组第一 / 第二 / 第三 / 第四 概率
    - 晋级 R32 概率（小组前二 + 最佳第三）
    - 预期积分、预期净胜球、预期进球数

输出字段（`predictions.json`）

每支球队的 group_stage 块包含：

字段	类型	说明
`p_group_winner`	0–1	小组第一概率
`p_runner_up`	0–1	小组第二概率
`p_third`	0–1	小组第三概率
`p_fourth`	0–1	小组垫底概率
`p_advance_ko`	0–1	晋级 R32 概率（前二 + 最佳第三）
`p_eliminated`	0–1	小组赛被淘汰概率
`exp_points`	0–9	三场小组赛预期积分
`exp_gd`	float	预期净胜球
`exp_gf`	float	预期进球数

数据来源（2026-05-17 更新）

来源	截止日期	链接
eloratings.net	2026-05-17	eloratings.net
FBref Expected Goals	2026-04-30	fbref.com
Transfermarkt Squad Data	2026-04-30	transfermarkt.com
FIFA World Rankings	2026-04-30	fifa.com/fifa-world-ranking

2026-05-17 数据洗牌

v1.0 输入 team-inputs.yaml 在 2026-02 已写入，部分球队（含意大利）当时标注 projected。资格赛于 2026-04 全部结束，11 支当时入选的球队未能正赛，11 支新球队取而代之：

移除：意大利、丹麦、塞尔维亚、波兰、乌克兰、威尔士、喀麦隆、尼日利亚、牙买加、哥斯达黎加、洪都拉斯
新增：捷克、瑞典、苏格兰、波黑、巴拿马、海地、库拉索、约旦、加纳、佛得角、民主刚果

11 支新球队的 Elo 已用 eloratings.net 当前值填入；xG、世界杯经验、阵容年龄适配度仍为首轮估算（confidence_note 字段标识），下一周期 cron 前会刷新到 FBref 与 Transfermarkt 的最新数据。

历史回测：2022 世界杯小组赛

可复现：python3 scripts/predictions/backtest.py（详见 scripts/predictions/README.md）

指标	v1.2 小组赛模拟	Elo 排名硬选基线	全部 50/50 基线
Brier 评分（晋级概率） ↓	0.228	0.375	0.250
小组第一命中（8 组）	6 / 8	—	—
前 16 晋级集（按概率排序）	10 / 16	—	—

解读

0.8–1.0 概率区间（5 队）：实际晋级率 100%（5/5）。高置信度预测全部命中
0.0–0.2 概率区间（5 队）：实际晋级率 0%（0/5）。低置信度淘汰预测全部命中
0.4–0.7 中间区间：受 2022 三大爆冷（日本击败西班牙+德国、摩洛哥击败比利时、阿根廷小组首战不敌沙特）影响，命中率约 40–56%

Elo 类模型本身的局限：无法预测临场战术革命与黄金一代陨落。这是任何赛前统计模型的天花板。

最大偏差

球队	模型预测晋级概率	实际结果	偏差
澳大利亚（AUS）	29.5%	晋级	−0.71
乌拉圭（URU）	68.0%	出局	+0.68
比利时（BEL）	66.7%	出局	+0.67
德国（GER）	66.2%	出局	+0.66
塞内加尔（SEN）	34.2%	晋级	−0.66

模型元数据与可复现性

每次运行计算一组追踪字段：

model_version — 模型版本号（当前 1.2）
run_date — UTC 运行时间
source_snapshot — SHA-256 指纹，覆盖 team-inputs.yaml + matches.yaml + 权重 + 版本号
group_sim — 蒙特卡洛元数据（sim 次数、和率模型参数）

蒙特卡洛的随机种子由 source_snapshot 派生，意味着同一份输入永远产生相同的模拟结果。任何输入变更都会改变指纹与种子。

输出落地三处：

data/worldcup_2026/predictions.json — 当前最新输出（Hugo 构建使用）
data/worldcup_2026/snapshots/predictions-YYYY-MM-DD.json — 周快照存档
Postgres model_runs / season_predictions 表 — 供审计与回测查询（v1.2 仅写入 v1.0 字段；小组赛字段待 v1.3 加入列）

模型迭代日志

版本	发布日期	核心改动	顶级球队夺冠概率	顶级球队晋级 R32 概率
v1.0	2026-02-19	五因子加权评分 + 直接归一化为夺冠概率	~3.3%	—
v1.2	2026-05-17	沿用 v1.0 评分；新增 Elo 驱动小组赛蒙特卡洛（10,000 次）；输入数据按资格赛结果更新（11 队替换）	~3.1%（待 v1.3 重派生）	95–99%

v1.2 改动理由

保留 v1.0 评分结构 — 因子选择经过两年沉淀，未发现需要重构的硬证据。修复夺冠概率「太平坦」的正确路径是引入赛制结构（淘汰赛模拟），而非用数学校准强行拉伸
新增小组赛蒙特卡洛 — 真正回答读者「谁能出线」的问题。10,000 次模拟约 1.4 秒，可天天跑
Elo 驱动而非 xG 驱动 — Elo 是国际足坛标准评分，eloratings.net 公开数据稳定可用；国际队 xG 在头部 20 名外覆盖率显著下降，长期数据可持续性较差
缝隙感知和率 — 和率随实力差距衰减（30% 实力相近 → 5% 巨大悬殊），比恒定 26% 更贴近实际比赛分布

v1.3 路线图

淘汰赛蒙特卡洛：从小组赛模拟结果派生 R32 对阵，模拟单场淘汰（加时 + 点球大战），输出基于赛制的真正夺冠概率，替代 v1.0 的归一化字段
主办国效应：把 home_advantage 应用于美/加/墨在本国场地的小组赛 Elo 加成
DB schema 扩展：season_predictions 表新增 p_group_winner / p_advance_ko / exp_group_points 列，让小组赛模拟数据也进入查询层

已知局限

夺冠概率仍过度平坦 — 当前 win_probability_pct 字段是 v1.0 归一化输出，最强球队也只有约 3%。建议参考 group_stage.p_advance_ko 与 p_group_winner 字段。v1.3 淘汰赛模拟落地后此字段语义会改变
不含伤病、停赛、临场调整
新晋级球队首轮估算 — 11 支新球队的 xG / 经验 / 年龄字段为粗估，下一周期 cron 前校准
主办国效应未应用 — 输入文件保留 home_advantage 字段但 v1.2 未在模拟中读取，留给 v1.3
比分采样不构成预测 — 模拟比分仅用于积分差/进球数的并列规则，不代表预测每场比分

免责声明

本页面仅供参考，不构成任何投注建议。模型概率基于历史数据与统计推算，不保证预测准确性。