← Retour à l’accueil

Statistiques globales

Performance agrégée du modèle Dixon-Coles sur la saison 2024-25 (Bundesliga, 504 matchs prédits).

Précision par championnat

Comparaison modèle vs marché (cotes football-data closing-avg). Validation ADR-011 : modèle dans ±3 % du marché sur les 5 championnats — confirmé en gros sur le tableau ci-dessous. Log-loss et Brier mesurent la qualité de calibration : plus bas = mieux. Référence pure-hasard sur 1X2 : log-loss ≈ 1.099, Brier ≈ 0.667.

ChampionnatNAcc. ModèleAcc. MarchéÉcartLog-lossBrier
Big 5 (toutes)306052.6%54.5%-1.9 pt0.99560.5939
Ligue 156854.9%55.6%-0.7 pt0.98640.5869
Premier League66549.8%53.4%-3.6 pt1.02060.6123
La Liga65753.1%55.6%-2.4 pt0.98150.5828
Serie A66653.5%53.3%+0.2 pt0.99120.5927
Bundesliga50451.8%54.8%-3.0 pt0.99730.5934

Calibration 1X2

Une probabilité est bien calibréesi, quand le modèle dit 70 %, l'événement arrive vraiment ~70 % du temps. Chaque point bleu représente un bin de 10 % de proba prédite ; la taille du point est proportionnelle au nombre de matchs dans ce bin (label n=...). La diagonale pointillée = calibration parfaite.

  • Au-dessus de la diagonale : modèle sous-confiant (réalité dépasse la proba prédite).
  • Sur la diagonale : calibration parfaite.
  • En-dessous : modèle sur-confiant (proba prédite plus haute que la fréquence réelle).
0%0%25%25%50%50%75%75%100%100%n=39n=201n=595n=242n=190n=120n=74n=44n=7Proba prédite par le modèleFréquence observée

Distribution des erreurs sur les matchs prédits

Pour chaque match, on calcule un score d'erreur : log-loss (= -ln de la proba modèle au résultat réel) et Brier 1X2(= somme des écarts proba/indicateur au carré). Plus le score est bas, mieux le modèle a prédit. La ligne pointillée marque le score d'un modèle pur-hasard ; tout ce qui est à gauche = mieux que le hasard.

Log-loss par match

5313611916324621pur hasard (1.10)0.001.002.003.004.00Log-loss du match

Brier 1X2 par match

7193908912425831pur hasard (0.67)0.000.501.001.502.00Brier 1X2 du match

Lecture : la queue droite (log-loss > 2 ou Brier > 1) regroupe les vraies surprises de la saison. Tu peux les trouver via le leaderboarddans la section "Le modèle s'est trompé".

Top/flop équipes prédites

Pour chaque équipe ayant joué au moins 20 matchs prédits sur la saison 2024-25, on calcule le log-loss moyen et le Brier moyen sur leurs matchs. Une équipe avec un log-loss bas est bien modélisée par Dixon-Coles ; une équipe avec un log-loss haut surperforme ou sous-performe ses fondamentaux (équipe en reconstruction, joueurs clés blessés en série, dynamique imprévue, etc.). C'est précisément le genre de signal contextuel que le baseline N1 ignore — voir les niveaux N2/N3 dans la méthodologie.

Top 5 — équipes les mieux modélisées

Log-loss moyen le plus bas. Le modèle sait à quoi s'attendre quand elles jouent.

#ÉquipeComp.NAcc.Log-lossBrier
1Bayern MunichD16177%0.7190.387
2St PauliD13155%0.9190.545
3BochumD13067%0.9240.536
4DortmundD16162%0.9240.539
5FC KolnD13148%0.9510.562

Top 5 — équipes les moins bien modélisées

Log-loss moyen le plus haut. Candidates idéales pour bénéficier du contexte N2/N3.

#ÉquipeComp.NAcc.Log-lossBrier
1HoffenheimD16141%1.1030.669
2Union BerlinD16141%1.0940.666
3MainzD16143%1.0940.664
4Werder BremenD16143%1.0730.646
5StuttgartD16152%1.0480.629

Méthode

Toutes ces métriques sont calculées out-of-sample: le modèle a été entraîné sur les saisons 2020-21 → 2023-24 et testé sur 2024-25 qu'il n'avait jamais vue. Pour la définition complète et le rationale du critère de validation, voir la page méthodologie et l'ADR-011 dans le repo.