Une étude de la revue Scientific reports a analysé des centaines de milliers de tweets et tend à démontrer qu'il était possible de trouver des signes de Covid-19 bien avant les premières alertes officielles en Europe.

L'ensemble de données pour l'étude concerne 573.298 utilisateurs et un total de 891.195 tweets (photo d'illustration).
L'ensemble de données pour l'étude concerne 573.298 utilisateurs et un total de 891.195 tweets (photo d'illustration). © AFP / Artur Widak / NurPhoto

Scientific reports, une revue scientifique du groupe Nature Publishing Group, a révélé lundi 25 janvier une étude sur l'apparition de signes du Covid-19 sur les Twitter en Europe pendant l'hiver 2019-2020, avant que les autorités locales annoncent officiellement la présence du virus sur leur territoire. La revue explique que des inquiétudes concernant des cas de pneumonie ont été soulevées dans un certain nombre de pays européens, principalement dans des régions qui se sont avérées être les principaux épicentres du virus, plusieurs semaines avant que le premier cas d'infection soit officiellement confirmé. 

Après la surveillance en laboratoire ou celle des eaux usées, l'usage des réseaux sociaux pour détecter plus rapidement des évolutions dans la propagation commencent à se démocratiser, selon Scientific reports. Des données numériques ont par exemple été utilisées au États-Unis dans certains États pour découvrir des indicateurs d'alerte précoce des variations de l'activité du virus, cite la revue scientifique.

Le mot "pneumonie" au coeur de l'étude

La revue a décidé d'utiliser le terme "pneumonie" pour ses recherches, car l'Organisation Mondiale de la Santé (OMS) a évoqué le 31 décembre 2019 des premiers "cas de pneumonie d'étiologie inconnue". "Nous avons créé une base de données unique comprenant tous les messages contenant le mot-clé 'pneumonie' dans les sept langues les plus parlées de l'Union européenne (anglais, allemand, français, italien, espagnol, polonais et néerlandais), et postés sur Twitter entre le 1er décembre 2019 et le 1er mars 2020", peut-on lire dans l'article. 

L'ensemble de données concernant les saisons d'hiver 2018-2019 et 2019-2020 comprenait 573.298 utilisateurs uniques et un total de 891.195 tweets. L'étude explique que les résultats sont moins précis après le 21 janvier 2020, à cause de la couverture médiatique massive du Covid-19 à partir de cette date-là. Les tweets citant des articles ou les comptes rassemblant beaucoup de followers ont été exclus, pour plus de précision.

Évolution des tweets liés à la pneumonie dans toute l'Europe depuis décembre 2019.
Évolution des tweets liés à la pneumonie dans toute l'Europe depuis décembre 2019. / Scientific reports

À l'exception de l'Allemagne, au cours de l'hiver 2019-2020, tous les pays européens sélectionnés ont été témoins d'une "publication excessive", par rapport aux années précédentes, de tweets liés à la pneumonie. "En Italie, par exemple, des points chauds d'infection potentiellement cachés ont été identifiés plusieurs semaines avant l'annonce de la première source locale d'une infection au Covid-19 le 20 février, à Cologne. La France a présenté un schéma similaire, tandis que l'Espagne, la Pologne et le Royaume-Uni ont connu un retard de deux semaines (cercle C). À partir du 20 février 2020, les pentes des courbes sont probablement attribuables à une augmentation généralisée de l'intérêt du public pour la menace de pandémie dans tous les pays", développe l'article.

13.000 utilisateurs parlant de "pneumonie" géolocalisés

La revue a obtenu la localisation de plus de 13.000 utilisateurs ayant cité "pneumonie", ce qui a permis d'identifier les régions européennes caractérisées par des pics anormaux de mentions. La carte montre la répartition géographique des utilisateurs  discutant de la pneumonie entre le 15 décembre 2019 et le 21 janvier 2020, après filtrage des communiqués de presse et des comptes de presse. La majorité des utilisateurs discutant de cas de pneumonie venaient de la Lombardie, Madrid, l'Île-de-France et l'Angleterre, des régions qui ont finalement signalé des cas précoces de contagion au Covid-19.

Carte des utilisateurs discutant de la pneumonie entre le 15 décembre 2019 et le 21 janvier 2020, après filtrage des communiqués de presse et des comptes de presse.
Carte des utilisateurs discutant de la pneumonie entre le 15 décembre 2019 et le 21 janvier 2020, après filtrage des communiqués de presse et des comptes de presse. / Scientific reports

Pour consolider les résultats, la même analyse a été réalisée avec le terme "toux sèche", l'un des symptômes du coronavirus, et le nombre de tweets et la géolocalisation des mentions correspondent. "Les résultats concordent avec la répartition géographique des utilisateurs signalant une pneumonie au cours de la même période. Les messages concernant les symptômes liés au Covid-19 ont précédé les annonces publiques officielles sur les flambées locales et étaient concentrés dans les zones qui sont devenues par la suite des points chauds d'infection", poursuite la revue.

"En tirant parti des réseaux sociaux, ces résultats offrent le premier bilan clair du retard de nombreux pays européens dans la détection du virus."

"L'approche décrite ici montre comment les gouvernements, les décideurs et les autorités locales peuvent obtenir en temps réel d'importantes informations contextuelles géolocalisées pour élaborer des politiques d'intervention efficaces tout au long du cycle épidémiologique", estiment en conclusion les quatre auteurs de l'enquête, Milena Lopreite, Pietro Panzarasa, Michelangelo Puliga et Massimo Riccaboni. "Dans notre travail, nous avons montré comment la surveillance des médias sociaux peut également aider les autorités publiques à détecter et géolocaliser des chaînes de contagion qui, autrement, proliféreraient sans être détectées pendant plusieurs semaines avant l'annonce du premier décès causé par un virus."

Scientific reports évoque cependant l'une des limites de cette technique. L'étude est basée sur l'utilisation d'un mot clé, "pneumonie", clairement associé aux symptômes connus du virus. "Notre approche ne peut pas être directement utilisée pour la prévision de maladies encore inconnues."