Suivre l’évolution hebdomadaire du risque épidémique avec le Baromètre Covid-19
Mathieu Moslonka-Lefebvre , PhD en épidémiologie mathématique et président de DataCovid livre une analyse de l'évolution du risque épidémique à partir des données du Baromètre Covid-19.
Avant-propos
Ce billet, à visée scientifique et didactique, illustre un cas d’usage des données du Baromètre Covid-19 avec pour objectif de mesurer l’évolution du risque épidémique dans l’espace et dans le temps.
Les analyses mises en oeuvre n'engagent que leur auteur et n’ont pas fait l’objet d’une relecture par les pairs. Les éléments rapportés sont susceptibles d’évoluer en fonction des éventuels commentaires qui seront effectués par la communauté scientifique.
Pour rappel, l’intégralité de ce billet repose sur des données de sondages en population générale qui présentent un certain nombre d’avantages, mais également des sources de biais potentiels. A titre d’exemple, et sans chercher à être exhaustif, le caractère déclaratif des données peut être source de multiples biais :
- Un exemple de biais potentiel peut être lié à la possibilité que des répondants souhaitent communiquer des informations au-delà de la fenêtre temporelle fixée pour certaines questions, par exemple une fenêtre de 24 heures pour le nombre de contacts à moins d’un mètre et le temps passé dehors. Pour les répondants concernés, ce biais peut trouver sa source dans le sentiment de contribuer à la lutte contre l'épidémie en fournissant une information inexacte, mais qu'il pensent utile. Cette situation conduirait à surestimer les valeurs réelles ;
- Un autre exemple de biais potentiel serait lié à la possibilité que des répondants se méfient et ne souhaitent pas communiquer d'information ; cela conduirait au contraire du premier biais à sous-estimer les valeurs réelles. S’il est possible que ce biais ne soit pas très grand, il est aussi possible qu'il varie dans le temps, par exemple en fonction des signaux envoyés par le gouvernement sur la prise en charge des personnes infectées.
Ce billet a vocation à être actualisé chaque semaine et enrichi par des analyses plus élaborées, notamment dans le cadre de travaux scientifiques spécifiques ultérieurs qui seront résumés sur le blog.
En matière de santé publique, il est recommandé de suivre et consulter les instructions officielles disponibles sur https://www.gouvernement.fr/info-coronavirus.
Mesurer les risques de rebonds épidémiques avec le “R zéro”
Pour évaluer le risque épidémique associé à l’épidémie de Covid 19, les épidémiologistes calculent un indicateur stratégique, le R0 (prononcé “R zéro” et aussi appelé nombre de reproduction de base). Ce nombre correspond au nombre moyen de personnes qui vont être contaminées par un individu infecté lors de sa période infectieuse. Le “zéro” du R0 signifie que ce nombre se calcule dans une population encore très largement sensible au virus, c’est à dire au début de l’épidémie lorsque le niveau d’immunité demeure négligeable[1].
Lorsque le R0 est strictement supérieur à 1 l'épidémie se déclenche et se développe. A l’opposé, lorsque le R0 à une valeur inférieure ou égale à 1, l'épidémie recule. Des mesures telles que la pratique des gestes barrières ou le confinement permettent de faire décroître le R0 et ainsi de maîtriser l'épidémie s’il atteint une valeur inférieure ou égale à 1.
Avant le confinement, la valeur du R0 a été estimée pour la France à 2,9 par une équipe de modélisateurs de l’Institut Pasteur[2]. Cette valeur est cohérente avec l’estimation antérieure proposée par autre équipe du CNRS, de l'Institut de Recherche sur le Développement et l'Université de Montpellier", avec une fourchette estimée comprise entre 2,5 et 3,5[3].
D’après les données d’hospitalisation en France, le confinement décidé le 17 mars dernier a permis, après un certain délai, de rompre les chaînes de transmission de l’épidémie en réduisant le R0 a une valeur inférieure au seuil critique de 1. Les valeurs les plus probables sont comprises entre 0,67 et 0,75 suivant les estimations des deux équipes précitées[4]. Pour la suite nous retiendrons une valeur indicative de “R0 post-confinement” de 0,7.
L’évolution à la hausse du “R zéro”, avec un risque qui semble pour l’instant limité
Les résultats de la 6ème vague d’enquête du baromètre de Datacovid rapportés par Ipsos indiquent que “dans [un] contexte d’embellie [avec un respect accru des gestes barrières et notamment du port du masque], une tendance reste préoccupante, c’est la détérioration du respect de la distanciation sociale avec le déconfinement. Le nombre de contacts proche à moins d’1 mètre au cours des dernières 24 h a encore augmenté cette semaine (7,5 personnes en moyenne contre 4,2 lors de la 1ère vague d’enquête).”[5].
L’enjeu auquel nous tentons d’apporter de premières réponses dans ce billet est de déterminer dans quelle mesure les changements de comportements constatés d’une vague à l’autre pourraient modifier le R0 à la hausse ou à la baisse.
Pour bien comprendre les facteurs qui vont jouer sur le R0, il est utile de comprendre ses composantes. Quelle que soit la complexité du modèle épidémiologique employé pour le calculer, le R0 fait presque systématiquement intervenir trois composantes[6] : la probabilité d’infection par contact notée ß, une composante notée C qui reflète l’influence de la structure, de la densité et de l’intensité des contacts sur la transmission et la durée pendant laquelle une personne porteuse du virus peut le transmettre (période infectieuse) notée D. Le R0 se calcule typiquement de la façon suivante : R0 = ß x C x D .
En lien avec les données du baromètre, on note alors que :
- L’adoption de mesures d'hygiène et de protection individuelle (se laver les mains plusieurs fois par jour, porter un masque efficace, etc.) va diminuer le R0 en réduisant la probabilité d’infection par contact ß ;
- Le respect du confinement (éviter de sortir de chez soi sauf pour des motifs impérieux, respecter une distance de sécurité d’au moins un mètre, etc.) va réduire le R0 en diminuant la composante relative aux contacts C ;
- La période infectieuse D, quant à elle, ne sera pas modifiée par des aspects comportementaux. Elle pourrait toutefois être réduite à l’avenir quand de nouveaux traitements efficaces seront proposés contre le Covid 19. Pour la suite nous prendrons comme hypothèse que D = 7 jours[7].
Dans le cas où l'on disposerait d'un vaccin, le R0 s'écrit R0_vac = ß x C x D x (1 - π) = R0 x (1 - π) où π décrit la couverture vaccinale de la population, c'est à dire la proportion des personnes vaccinées. Sans vaccin disponible, on ne peut pas réduire de façon préventive le nombre de personnes susceptibles d'être infectées pour atteindre l'immunité de groupe, c'est à dire la couverture vaccinale critique "π = π*" telle que R0_vac = 1 ; c'est à dire π* = 1 - 1/R0 = 66 % pour le Covid 19 qui a un R0 pré-confinement de 2,9.
Dans le présent billet, seule l’influence de la composante relative aux contacts C est explorée. On supposera, pour fixer les idées, que la probabilité d’infection par contact ß est stable à partir de la première vague du baromètre, soit après la date de mise en oeuvre du confinement[8]. Cette hypothèse permet de déduire la valeur de ß en prenant pour base un R0 post-confinement” de 0,7 lors de la première vague du baromètre.
Pour la suite, les nombres entre crochets représentent respectivement les estimations basses et hautes du R0 à 2,5 % et à 97,5 %. Les distributions du R0 sont obtenues par bootstrap[9] sur les observations de chaque vague (10 000 réplications par vague). Cette technique permet de “propager” les incertitudes pesant sur la composante relative aux contacts C dans le calcul R0 et ainsi de fournir un intervalle de confiance dans l’estimation.
De la 1ère à la 6e vague, le nombre moyen de contacts rapprochés au niveau national augmente de 2,3 par jour à 5,7 par jour (pour mémoire : 4,3 pour la 5e vague), soit une augmentation significative[10] à hauteur de 143 % environ. Cet effet, dans un modèle simpliste où C est donné par le nombre moyen de contacts noté <k> où <.> désigne l’opérateur “moyenne” (voir Annexe), conduirait à une augmentation potentielle du R0 dans les mêmes proportions, soit de 0,7 à 1,7 [1,6 à 1,8] ce qui serait inquiétant, car excédant le seuil épidémique.
En réalité, il convient de prendre en compte le fait que les réseaux de contacts humains sont hautement hétérogènes en termes de nombre de contacts par personne. Dans ce cas de figure plus réaliste, C est mieux capturé par le ratio <k2> / <k> (voir Annexe), aussi le R0 augmenterait de 0,7 à 0,9 [0,7 à 1,0] soit une augmentation plus modeste, inférieure à la valeur seuil de 1, avec donc une épidémie qui resterait sous contrôle.
En outre, les interactions sont non seulement hétérogènes en nombre de contacts, mais aussi en termes de durée des interactions. Dans ce cas de figure, C peut être capturé par un ratio plus complexe en faisant l’hypothèse que le réseau de contacts sous-jacent, appelé réseau pondéré en théorie des réseaux, est statique (voir Annexe). Nous prendrons ici comme base de calcul de durée des interactions le temps passé dehors par les répondants dans les dernières 24 heures. Cette quantité est passée de 66 minutes à 178 min entre la 1ère et la 6e vague (pour mémoire : 105 minutes pour la 5e vague), soit une augmentation significative[11] à hauteur de 169 % environ. Si on prend en compte le poids des interactions en sus de l'hétérogénéité des contacts, l’estimation du R0 à la 6ème vague est de 0,9 [0,8 à 1,0], avec donc un risque estimé qui devient analogue au modèle hétérogène non-pondéré en raison de la forte augmentation intervenue depuis le déconfinement sur le temps passé dehors (voir supra). Le risque ainsi estimé est inférieur au seuil épidémique situé à 1,0.
Dans le souci d’une approche prudente qui permet de mieux gérer les valeurs aberrantes en termes de nombre de contacts[12], nous retiendrons comme référence cette méthode de calcul fondée sur des réseaux hétérogènes pondérés. Les résultats sont synthétisés dans la figure ci-après.
Figure. Evolution du R0 estimé dans le cadre des vagues du baromètre Covid 19.
Clé de lecture : la ligne rouge horizontale en tirets représente le seuil épidémique (R0 > 1). La ligne bleue en pointillés représente la fin du confinement, c’est à dire le dernier jour de la 5e vague du baromètre. Le R0 a ici été estimé par la méthode du “réseau hétérogène pondéré” (voir texte).
Tableau. L’évolution hebdomadaire du risque épidémique suivant les informations prises en compte dans le baromètre.
Vague du baromètre |
R0 (hypothèse des contacts homogènes) |
R0 plus réaliste (avec contacts hétérogènes pris en compte) |
R0 plus réaliste (avec contacts hétérogènes et durées de sorties prises en compte)[13] |
Prévision du statut épidémique sous réserve des hypothèses du présent billet |
Vague 1 du au 7 au 14 avril) |
0,7 |
0,7 |
0,7 |
Épidémie qui serait sous contrôle au niveau national quel que soit l’indicateur et le modèle employé |
Vague 2 du 15 au 21 avril |
1,0 [0,9 à 1,1] |
0,8 [0,7 à 1,0] |
0,8 [0,7 à 1,0] |
Épidémie qui serait sous contrôle au niveau national pour les indicateurs les plus réalistes |
Vague 3 du 22 au 27 avril |
1,0 [0,9 à 1,0] |
0,6 [0,5 à 0,8] |
0,6 [0,5 à 0,7] |
Épidémie qui serait sous contrôle au niveau national quel que soit l’indicateur et le modèle employé |
Vague 4 du 28 avril au 4 mai |
1,1 [1,0 à 1,3] |
0,9 [0,7 à 1,0] |
0,8 [0,7 à 0,9] |
Épidémie qui serait sous contrôle au niveau national pour les indicateurs les plus réalistes |
Vague 5 du 6 au 11 mai |
1,3 [1,2 à 1,4]
|
0,9 [0,7 à 1,0] |
0,8 [0,7 à 1,0] |
Épidémie qui serait sous contrôle au niveau national pour les indicateurs les plus réalistes |
Vague 6 du 6 au 11 mai |
1,7 [1,6 à 1,8] |
0,9 [0,7 à 1,0] |
0,9 [0,8 à 1,0] |
Épidémie qui serait sous contrôle au niveau national pour les indicateurs les plus réalistes |
Vague 7 |
Résultats à venir la semaine prochaine |
Comme la taille de l’échantillon est élevée (5 000 répondants), il est possible de décliner ces analyses au niveau régional pour dégager des tendances géographiques. Ce point fera l’objet d’un billet spécifique.
Retrouvez la vague 6 du Baromètre Covid-19
Annexe : modèles et indicateurs employés.
Ce billet se focalise sur les modèles les plus simples permettant de décrire l’épidémie de COVID-19 : les modèles dits “SIR”. Par souci de simplicité, de nombreuses caractéristiques ne sont pas ici prises en compte et sont susceptibles d’influencer les résultats sur un plan quantitatif : la structure d’âge de la population ; le fait que les personnes infectées peuvent être infectieuses un à plusieurs jours avant de présenter des symptômes etc.
Les formules ici employées pour calculer les R0 sont disponibles aux équations (1a ; pour le réseau hétérogène avec mélanges) et au Tableau 2 (pour le réseau hétérogène pondéré supposé fixé) de la référence[14].
[1] Lorsque l’épidémie est installée, on ne parle plus de R0 mais de nombre de reproduction efficace noté R. Dans la mesure où la séroprévalence en France serait extrêmement faible (cf. Salje et al. 2020 Estimating the burden of SARS-CoV-2 in France. Science), et par souci de simplicité, les deux notions ne sont pas distinguées. Pour une présentation plus large des enjeux associés à la modélisation de l’épidémie de Covid-19 avec une formalisation plus complète de ces concepts, des rapports en français d’excellente qualité sont proposés par l’équipe de Samuel Alizon (CNRS, IRD, Université de Montpellier). Voir en particulier cette synthèse : http://covid-ete.ouvaton.org/Rapport7_resume.html.
[2] Cf. Salje et al. (2020) Estimating the burden of SARS-CoV-2 in France. Science.
[4] Cf. respectivement Salje et al. (2020) et http://covid-ete.ouvaton.org/Rapport5_R.html
[5] Cf. note d’analyse des résultats de la 6ème vague d’enquête du Baromètre Covid-19 rédigée par Ipsos datée du 27 mai 2020 et disponible à l’adresse : https://www.ipsos.com/fr-fr/dossier-special-coronavirus. Pour ses calculs, Ipsos se fonde sur l’assiette des personnes sorties de leur foyer (hors jardin). L’assiette du présent billet est l’ensemble des personnes mais la tendance qualitative reste analogue.
[6] Cf. Keeling and Rohani 2008 Modeling infectious diseases in humans and animals (2018) Princeton University Press.
[7] Cf. https://www.ecdc.europa.eu/en/covid-19/questions-answers : “The infectious period may begin one to two days before symptoms appear, but people are likely most infectious during the symptomatic period, even if symptoms are mild and very non-specific. The infectious period is now estimated to last for 7-12 days in moderate cases and up to two weeks on average in severe cases.”.
[8] Les données du baromètre Covid 19 pourraient utilement être mobilisées pour relier de façon fine les comportements des Français vis à vis de certains gestes barrière à la probabilité d’infection par contact.
[9] Les techniques de bootstrap sont des méthodes fondées sur une réplication des données obtenue par rééchantillonnage à partir du jeu de données étudié. En l'occurrence le tirage avec remise des observations, ici les répondants de chaque vague, permet de “propager” les incertitudes associées au R0 sur la base des valeurs de ses composantes calculées à partir du baromètre (distribution des contacts et des durées de sortie en l'occurrence).
[10] La significativité est ici appréciée dans un sens statistique, à travers un test de Wilcoxon. La probabilité que la différence ici observée est imputable au hasard (notion de “p-valeur”) est négligeable (inférieure à 2.2x10-16).
[11] La significativité est ici appréciée dans un sens statistique, à travers un test de Wilcoxon. La probabilité que la différence ici observée est imputable au hasard (notion de “p-valeur”) est négligeable (inférieure à 2.2x10-16).
[12] Si par exemple un répondant déclare 200 contacts à moins d’un mètre dans la journée, ce qui est possible mais probablement aberrant, le poids de sa réponse sera ajusté par la durée qu’il passe dehors. Cette période ne pouvant excéder 24 heures, cette méthode permet de refléter une contrainte “naturelle” qui pèse sur les interactions physiques.
[13] Version simplifiée. Pour ce type de modèles reposant sur des réseaux pondérés, l’emploi du taux de croissance (souvent noté r0) serait moins coûteux en termes d’hypothèses de calcul que le R0. Cf. Kamp et al. Epidemic spread on weighted networks (2013) PLOS Computational biology.
[14] Kamp et al. (2013) Epidemic spread on weighted networks. PLOS Computational biology.