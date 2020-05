Expected goals, expected assists, packing, passes clés, PPAD, ghosting, possession value, des termes barbares qui définissent des statistiques avancées beaucoup plus complexes mais aussi plus pertinentes que celles des tirs, des corners, des pourcentages de possession de balle qui s’affichent lors de chaque match télévisé. Si les sports américains ont toujours eu un attrait pour les chiffres et les données avancées, d’autant plus après le succès de Billy Beane - directeur sportif de l’équipe de baseball des Athletics d’Oakland, qui a utilisé une approche analytique pour construire une équipe compétitive malgré l’un des budgets les plus faibles de la Ligue MLB en 2001 et dont l’histoire a été racontée dans le livre puis dans le film Moneyball (le Stratège) - le football a souvent refusé voire négligé cette approche mathématique pour évaluer et comprendre ce qui se passait sur un terrain. Mais ça, c’était avant l’émergence d’entreprises spécialisées dans les statistiques et les analyses sportives comme Opta, Prozone, Wyscout, Matchmetrics, Goalimpact ou encore Statsbomb IQ qui ont commencé à travailler avec les clubs mais aussi avec les grands médias. En Angleterre et en Allemagne, les outils statistiques sont quasiment complètement intégrés dans le processus d’optimisation des performances des clubs de l’élite mais aussi des divisions inférieures. Dans les autres pays comme la France, le changement est en marche puisque des clubs comme le PSG ou l’OM ont déjà des cellules spécialisées. Mais à quel point les statistiques ont-elles impacté le football ?

Faire du football un sport plus juste et plus objectif

Si le monde du football a commencé à changer sa perception des statistiques, c’est peut-être parce qu’il s’est rendu compte de ses limites. Avec les statistiques traditionnelles, il est facile de se faire une opinion ou un jugement erroné sur la qualité d’un joueur ou d’une équipe. Il suffit grossièrement 1) de regarder le score du match 2) de regarder le nombre de buts ou de passes décisives réalisées par tel joueur 3) de regarder le nombre de ballons touchés, de duels gagnés, de tirs tentés et concédés. De plus, les évaluations des joueurs, qui se font à l’oeil nu, donnent toujours des différences de perception. Prenez l’exemple d’un joueur qui serait noté 7/10 dans un match par un média, 2/10 par un autre, quand les téléspectateurs lui auraient donné une note de 5/10. Qui a vraiment raison dans ces cas-là ? Il ne faut pas oublier que les évaluations personnelles dépendent aussi de plusieurs facteurs extérieurs (ex: l’humeur du moment, les a priori) mais aussi de plusieurs biais psychologiques qui distordent l’analyse, comme le raconte Christoph Biermann dans son livre Big Data Foot. Parmi ces biais psychologiques, on retrouve notamment le biais de confirmation (ex: je ne retiens que les éléments qui confirment ce que je pense donc si untel rate une occasion, c’est qu’il est nul comme je le pensais, et je ne prends pas en compte toutes les bonnes choses qu’il a faites dans le match et qui ne se voit pas dans les statistiques basiques), le biais de réciprocité (ex: ce joueur a été sympa avec moi, il m’a donné une info, m’a accordé une interview, je vais le noter généreusement), le biais du résultat (ex: on prend le résultat comme point de départ et non la prestation générale), ou encore le biais de conformité (ex : tout le monde autour de moi l’a trouvé bon alors il a forcément été bon).

Se pose aussi la question de l’évaluation d’un défenseur latéral ou d’un milieu excentré dont la consigne aurait été d’assurer la couverture défensive et de ne pas se projeter vers l’avant ? Ou d’un gardien qui n’aurait fait aucun arrêt mais qui par son positionnement et sa lecture du jeu aurait empêché des occasions de se produire ? C’est justement pour rendre justice à ces joueurs mais aussi pour fournir des éléments plus objectifs pour l’analyse, et aussi pour mettre fin à certaines idées reçues dans le football (ex: avoir la possession du ballon et tirer plus au but que l’adversaire, c’est forcément dominer) que deux anciens joueurs professionnels allemands, Stefan Reinartz et Jens Hegeler, ont investi dans la conception de nouvelles données d’analyse. Parmi elles, le packing, qui permet de comptabiliser le nombre d’adversaires éliminés par match grâce à un dribble, une passe ou juste grâce à un bon positionnement à la réception du ballon. Il s’agit donc d’une manière de distinguer les joueurs qui font juste beaucoup de passes et ceux qui font vraiment la différence avec leurs passes, leurs dribbles et leur positionnement sur le terrain. De son côté, Opta a développé les expected goals (xG) en 2012, qui traduit « la probabilité qu’un tir se transforme en but, et qui est calculée en fonction des milliers de tirs précédents pris au même endroit », comme nous le précise Kevin Jeffries, data editor chez Opta. Dans le même genre, on retrouve les expected assists (xA), qui sont les passes qui auraient dû être décisives selon l’endroit où elles ont été délivrées; les passés clés, qui déterminent les passes menant à des occasions de tir mais qui n’ont pas été converties en but; les PPAD (passes par action défensive) qui donnent une idée du degré d’agressivité avec lequel une équipe sans ballon presse son adversaire dans les 60 premiers mètres; le possession value, qui permet de déterminer la contribution d’un joueur pour chaque action de son équipe. Bref, il existe aujourd’hui une trentaine de statistiques avancées élaborées par différents acteurs tandis que de nouvelles fleurissent chaque année.

De son côté, Rasmus Ankersen, président du club danois du FC Midtjylland, avait établi un “classement de la justice” pour évaluer plus justement les performances de son équipe sans prendre en compte le classement réel. « Ce modèle te permet de suivre le plan malgré le classement quand ça ne va pas, ou de tout changer même si en apparence tout roule », avait argumenté Ankersen dans So Foot. C’est ce classement de la justice qui l’avait poussé à maintenir l’entraîneur Jess Thorup malgré trois défaites de suite, qui avait placé le club à 10 points de la première place à la mi-saison 2015/2016. L’année suivante, il a fait une déclaration étonnante à la presse après un mauvais passage de son équipe : « Vous me dites que nous sommes cinquièmes mais en réalité nous sommes premiers ». Le club basé à Herning a fini par remporter le championnat danois en 2017/2018, avec Thorup toujours à sa tête, donnant raison à son président et sa politique sportive appuyée par le propriétaire anglais du club, Matthew Benham. Cet ancien parieur professionnel, est celui qui a fortement influencé la façon de faire d’Ankersen et qui a fait des deux clubs dont il est propriétaire, Midtjylland et Brentford (EFL Championship, D2 anglaise), des laboratoires pour la gestion sportive à travers les statistiques. C’est Benham, grâce à sa société Smartodds (spécialisée dans l’analyse statistique), qui a établi le “classement de la justice”, qui se base sur la production et la performance d’une équipe et non pas sur les résultats purs et durs. Dans ces deux clubs, les joueurs sont majoritairement recrutés grâce aux données statistiques, qui sont devenues un outil incontournable pour les recruteurs.

Un outil indispensable pour le recrutement

« Les statistiques avancées nous permettent d’être en avance sur la connaissance d’un joueur inconnu. Avant d’être une star, le joueur existe déjà. Il n’est juste pas connu donc il ne coûte pas cher », avait déclaré Arsène Wenger lors d’une conférence à l’USI en 2019, qui avait initié l’achat de l’entreprise américaine StatDNA en 2012 par Arsenal, afin d'avoir un avantage concurrentiel. À l’heure où une erreur de recrutement peut s’avérer fatale pour l’avenir d’un club, et inversement, l’apport des statistiques avancées est devenu indispensable pour certains clubs et leurs recruteurs. « Pour moi, les statistiques avancées sont vraiment avantageuses pour les petits clubs car les gros clubs ont les moyens d’acheter les meilleurs joueurs. Par contre, pour un club moyen ou un petit club, ces données peuvent leur permettre d’avoir un avantage considérable sur des clubs de même niveau. Les Anglais et les Allemands ont compris cela. En France, ça commence à se développer », précise Kevin Jeffries.

À l’instar de Billy Beane, qui s’était fait une spécialité de recruter des joueurs sous évalués dans le baseball, de plus en plus de clubs de foot ont adopté les mêmes méthodes avec son lot d’échecs évidemment, mais surtout son lot de bonnes affaires. Prenons l’exemple de Leicester City et de son recruteur Steve Walsh, qui avait déniché Jamie Vardy (troisième division anglaise), Riyad Mahrez (Ligue 2) ou N’Golo Kanté pour des modiques sommes (500 000 euros pour Mahrez) et en partie grâce aux stats. Quand on connaît la plus-value qu’a réalisée Leicester City sur les ventes de Mahrez (68 millions d’euros) et Kanté (36 millions d’euros), on peut constater un certain intérêt à utiliser ce type de données de plus en plus avancées. Sven Mislintat, ancien recruteur au Borussia Dortmund et à Arsenal, a notamment utilisé une fonctionnalité du logiciel de StatDNA appelée “joueurs similaires” pour trouver un joueur dont le profil se rapprochait de N’Golo Kanté. Ce qui lui a donné Lucas Torreira. Il avait procédé de façon similaire pour mettre la main sur Jadon Sancho quand il travaillait encore pour le Borussia Dortmund.

De nos jours, quasiment tous les recruteurs utilisent un logiciel de données statistiques pour confirmer ou infirmer un avis ou une intuition. Car le but des chiffres ou des statistiques avancées n’est pas de remplacer totalement le travail des hommes de terrain, qui conservent leur expertise et qui sont, au final, les seuls décisionnaires. Kevin Jeffries : « Le football, contrairement au basketball ou au baseball, n’est pas un sport de séquences. Il y a peu de temps mort donc il y a une multitude d’événements qui se produit en continu et qui reste difficile à évaluer. Il y a aussi plein de choses qu’on ne peut pas analyser avec les stats comme le mental, les problèmes relationnels, la gestion des émotionnelles, etc. » En réalité, tous les chiffres récoltés ne valent rien sans une bonne interprétation, surtout que les statistiques, elles-mêmes, sont compilées par des êtres humains qui font naturellement des erreurs

Les limites des statistiques

À Leeds, où se trouve l’un des locaux principaux d’Opta, plus d’une centaine d’analystes se réunisse chaque week-end (hors période de pandémie de Coronavirus) pour compiler les fameuses statistiques qui seront envoyées aux clubs et aux médias. En moyenne par match, chaque analyste compile plus de 2000 événements sur 90 minutes. Ce qui demande une concentration extrême mais qui n’est pas suffisante pour éviter les erreurs, dont l’origine peut simplement être due à une mauvaise interprétation. Comment distinguer clairement un tacle d’une interception, par exemple, ou un dégagement qui se transforme en passe décisive ? « Personne n’a jamais fait un score parfait, c’est pratiquement impossible sur un match entier. Globalement, certains ici sont contents avec trente erreurs. Moi au-dessus de quinze, j’ai vraiment le sentiment d’avoir raté mon match », racontait un employé d’Opta dans So Foot. Il faut dire que certaines statistiques sont imparfaites. Prenez l’exemple des expected goals, qui ne prennent pas en compte le contexte ou le nombre d’adversaires qui se trouvent entre le but et le tireur mais uniquement l’endroit où est pris le tir pour estimer la probabilité d’un but. Chaque entreprise spécialisée a même conçu son propre modèle d’expected goals, ce qui donne parfois de grandes différences de résultat.

L’autre limite des statistiques, dont certains s’évertuent à résoudre, demeure le fait qu’ils permettent d’analyser des événements passés qui n’aident pas forcément à faire des bonnes prédictions pour l’avenir. Quand un logiciel détermine qu’un joueur pourrait être intéressant pour un club, il prend en compte uniquement des événements passés sans forcément prendre en compte le contexte précis (rôle dans l’équipe, vie personnelle), le niveau des équipes qu’il a affrontées, leur style de jeu, etc. La majorité de ces outils ne prend pas en compte non plus la régularité d’un joueur, qui sur une saison peut obtenir des bonnes statistiques avancées, mais qui aurait réalisé 15 matches très mauvais contre des bonnes équipes et 15 matches excellents contre des mauvaises équipes. C’est en ce sens que Goalimpact a créé un indice qui permet de mesurer l’impact net d’un joueur pour une équipe. Mais pour être pertinent, l’outil demande un échantillon de deux saisons pleines minimum. « Je peux dire quand un joueur est bon mais je ne peux pas dire pourquoi », reconnaissait Jörg Seidel, créateur de Goalimpact, dans le livre Big Data Foot de Christoph Biermann, qui peut tout de même se targuer d’avoir prédit en 2018 que le Canadien Alphonso Davies (qui évoluait à l’époque aux Vancouver Whitecaps) serait l’un des meilleurs joueurs du monde dans les 10 années à venir, grâce à son outil. Vu le début de carrière de Davies au Bayern Munich, il y a de quoi être optimiste quant à la véracité de cette prédiction, même si l’histoire ne dit pas si Goalimpact avait prévu que Davies performe au poste de défenseur latéral et non pas d'ailier gauche, qui était son poste de prédilection en 2018.

D’autres acteurs majeurs des statistiques et de l’analyse ont investi sur des logiciels de tracking qui permettent de déterminer où se trouvent les précieux espaces à exploiter sur le terrain quand d’autres misent sur le ghosting, un outil qui permet d’analyser comment une équipe devrait attaquer ou défendre en prenant en compte les comportements des meilleures équipes dans les mêmes situations. Vous l’aurez compris, malgré l’arrivée massive des outils de statistiques ou d’analyse, le football n’est toujours pas devenu une science exacte. Il reste ce sport à score rare qui se joue principalement avec les pieds, ce qui le rend si unique, si imprévisible et si passionnant. Les chiffres n’ont donc pas fait du football un sport de stats. Du moins pas complètement. Ils nous ont juste clairement permis de mieux l’évaluer, de mieux le comprendre et donc de progresser. Et ça, c'est déjà beaucoup !