Méthodologie

Comment FootValue calcule ses probabilités, valide son modèle, et trace ses chiffres.

La règle d'or : tout chiffre traçable

Tout nombre affiché sur FootValue est traçable à une source externe ou à un calcul transparent. Nous ne sommes pas un service de pronostics : nous ne recommandons pas de paris. Nous publions des probabilités et leurs sources, vous en faites ce que vous voulez.

Concrètement, si vous voyez sur FootValue "Paris SG : 64 % de gagner contre Marseille", vous pouvez remonter :

au modèle (dc-baseline-v1) qui a produit ce 64 % ;
au paramètre ξ de pondération temporelle utilisé ;
aux 4 saisons d'entraînement et aux ~1 800 matchs vus par le modèle ;
au CSV brut de football-data.co.uk dont il est issu.

Aucune black box. C'est notre principal différenciateur face à FotMob, SofaScore ou Flashscore.

Les 6 marchés couverts

FootValue calcule, pour chaque match, les probabilités de :

1X2 — victoire domicile / nul / victoire extérieur.
DNB (Draw No Bet) — issue 2 voies, nul remboursé.
Double Chance — 1X / 12 / X2.
Over/Under 2.5 buts — total buts ≷ 2.5.
L2M / BTTS (Les 2 Marquent / Both Teams To Score) — chaque équipe marque au moins une fois.
Score exact — top 5 des scores les plus probables.

Ces 6 marchés représentent ~95 % du volume des paris foot chez les bookmakers francophones (Winamax, Betclic, Unibet, ParionsSport). Les marchés exotiques (corners, cartons, premier buteur, mi-temps/fin de match) sont hors scope MVP.

Tous ces marchés sont dérivés du même calcul Dixon-Coles — un seul modèle, plusieurs sorties. Pas plusieurs modèles distincts.

Le modèle : Dixon-Coles (1997)

Le modèle de référence pour la prédiction de scores de football, publié par Mark Dixon et Stuart Coles en 1997. Idée centrale : modéliser les buts marqués par chaque équipe comme une loi de Poisson, dont la moyenne dépend de la force d'attaquede l'équipe et de la force de défense de l'adversaire, plus un avantage à domicile.

Pour la Ligue 1 (18 équipes en 2024-25), on estime ~38 paramètres :

une force d'attaque α par équipe (×18) ;
une force de défense β par équipe (×18) ;
un avantage à domicile γ commun (×1) ;
une correction ρ pour les scores serrés 0-0 / 1-0 / 0-1 / 1-1, où la loi de Poisson pure sous-estime la fréquence (×1).

Tous ces paramètres sont estimés par maximum de vraisemblance sur ~1 800 matchs historiques (4 saisons), avec une pondération temporelle exponentielle qui donne plus de poids aux matchs récents. Le paramètre ξ contrôle la décroissance — typiquement 0.0019 à 0.003 selon le championnat (réglage empirique, voir ADR-011).

Comment on valide le modèle

On entraîne sur 4 saisons (2020-21 → 2023-24), on teste en out-of-samplesur la 5ᵉ (2024-25). Le modèle ne voit jamais la saison test pendant l'entraînement.

Critère de validation (cf. ADR-011) : la précision 1X2 du modèle doit être dans ±3 % de la précision marché (cotes football-data closing-avg) sur chacun des 5 championnats des Big 5.

Pourquoi ce critère et pas "≥ 53 %" absolu ? Parce que la précision marché elle-même varie de 51 % (Bundesliga) à 56 % (La Liga) selon le championnat. Un seuil absolu fixe ne capture pas la qualité réelle du modèle, qui est de s'approcher du marché compte tenu des signaux contextuels que le marché intègre et que notre baseline ne voit pas (compositions, blessures, fatigue, climat presse).

Résultat empirique sur les Big 5 (saison 2024-25) :

Ligue 1 : 56.5 % modèle vs 55.2 % marché (+1.3 pt) ✓
Premier League : 52.3 % vs 55.3 % (−3.0 pt) ✓
La Liga : 54.4 % vs 55.8 % (−1.4 pt) ✓
Serie A : 53.8 % vs 53.5 % (+0.3 pt) ✓
Bundesliga : 47.9 % vs 51.2 % (−3.3 pt) ✓ (limite)

5/5 championnats validés au critère ±3 %.

Robustesse — le choix de ξ n'est pas dû à la chance

Une critique légitime du test ci-dessus : le modèle a été calibré sur une seule saison de test (2024-25). Si 2024-25 avait été inhabituelle (ex. regain Liverpool, effondrement Bayern), on aurait pu choisir unξ qui marche bien par hasardsur cette saison-là, et qui se serait écroulé sur n'importe quelle autre.

Test additionnel (cf. ADR-012) : cross-validation à 3 folds avec une fenêtre glissante (chaque fold = 2 saisons d'entraînement + 1 saison test différente). On regarde si le ξ optimal change selon la saison testée.

Résultat : à taille de train fixe, le ξ optimal est parfaitement stablesur 4 championnats sur 5 (Range = 0), et bouge d'un seul pas de grille sur le 5ᵉ (Premier League). Le choix n'est pas une chance idiosyncratique. Le regret de prendre le ξde production au lieu de l'optimum CV est inférieur à 1 point d'accuracy sur tous les championnats — sous le seuil de bruit du test.

Caveat documenté : ce CV utilise 2 saisons de train (vs 4 en production). Le ξ optimal absolu est mécaniquement plus bas avec moins de train (les vieux matchs sont récents → moins besoin de les downweighter). Donc ce test valide la méthodologie de sélection (pas de luck), pas directement les valeurs absolues. Un CV plus rigoureux à 3-train sera fait quand on aura ingéré 2025-26 (S3-S4).

On documente cette nuance plutôt que de la cacher — c'est la transparence radicale promise (ADR-004). Code reproductible : notebook 05.

Limites du modèle baseline (et la roadmap pour les dépasser)

Le modèle Dixon-Coles utilisé en MVP est volontairement baseline: il n'intègre que les statistiques quantitatives (résultats historiques + xG à venir). Il ignore par construction :

Compositions probables (titulaires, blessures, suspensions le jour J)
Calendrier dense (fatigue d'une équipe qui enchaîne LDC + championnat)
Importance du match (derby, fin de saison, qualification européenne)
Soft signals (interviews, conférences de presse, climat médiatique)

C'est exactement ces signaux que les traders bookmakersintègrent à la main, et qui expliquent les ~3 % d'écart entre le modèle baseline et le marché. La roadmap FootValue prévoit d'intégrer ces signaux par paliers (cf. VISION_LONG_TERME.md) :

N1 — actuel : baseline Dixon-Coles sur stats dures.
N2 — MVP S3-S4 : ajout du contexte structuré via API-Football.
N3 — V2 post-MVP : ajout des soft signals via NLP / analyse de sentiment LLM.

Sources de données

football-data.co.uk — historique CSV des résultats + cotes closing-average (gratuit, en place).
Understat — Expected Goals (xG), via scraping (à venir).
API-Football — fixtures live, compositions, blessures, classements (à venir, S3-S4).
The Odds API — cotes bookmakers en temps réel, multi-sources. Stratégie en cascade pour aligner sur le marché français : (1) médiane des bookmakers FR (Winamax, Unibet FR, PMU, Betclic) si ≥ 2 disponibles, (2) sinon élargi aux opérateurs UE retail (Unibet SE/NL, Tipico DE, Betsson, Nordicbet), (3) en dernier recours médiane EU large. Limitation : seuls les marchés h2h (1X2) et totals (Over/Under 2.5) sont directement ingérés. Les cotes Double Chance, Draw No Bet, Over/Under 1.5/3.5/2/3 et BTTS sont calculées analytiquement à partir du 1X2 dévigné — elles peuvent diverger de quelques décimes des cotes spécifiques affichées sur Winamax / Betclic, qui pricing ces marchés indépendamment avec leurs propres marges (souvent promotionnelles sur les flagship matches). Pour ces marchés, toujours vérifier la cote sur le site bookmaker avant pari.
Restriction des value bets identifiés— pour garantir la validité des écarts modèle/marché annoncés, FootValue restreint le calcul des value bets aux marchés directement ingérés (1X2 + Over/Under 2.5). Les marchés dérivés (Double Chance, Draw No Bet, BTTS, Over/Under 1.5/3.5/2/3) restent affichés à titre informatif dans le tableau "Toutes les cotes du marché" et dans le panneau "Issues probables", mais ne génèrent pas de value bet pour éviter les faux signaux dus à l'écart entre cote estimée mathématiquement et cote bookmaker réelle.
ClubElo — ratings Elo internationaux pour les coupes UE (à venir, S7).

Reproductibilité

Toutes les décisions techniques (choix de Dixon-Coles vs alternatives, paramètre ξpar championnat, critère de validation ±3 %, stratégie cascade des bookmakers, etc.) sont documentées sous forme d'ADR (Architecture Decision Records) — chaque chiffre affiché renvoie à l'ADR qui le justifie. Les notebooks d'exploration et de validation du modèle (backtest 5 championnats, CV temporelle, courbes de calibration) servent de référence reproductible pour la méthodologie.

Pour toute question méthodologique précise, écris à contact@footvalue.fr.