Analyse automatique des tweets pour une qualification rapide de l’intensité des crues éclair et de leurs effets

img projet

Nom du projet : Analyse automatique des tweets pour une qualification rapide de l’intensité des crues éclair et de leurs effets

Type de projet : Stages

Résumé descriptif :

Il est souvent difficile de percevoir rapidement l’étendue des conséquences d’une catastrophe naturelle, lorsque les informations parcellaires en provenance du terrain arrivent au compte-goutte. C’est pourtant sur la base de ce diagnostic que doit s’organiser la gestion de la catastrophe, en commençant par celle des secours, puis de l’assistance aux sinistrés. Depuis une dizaine d’années, l’expérience montre cependant que la survenue de catastrophes naturelles se traduit fréquemment par la diffusion rapide et massive de messages sur les médias sociaux, et tout particulièrement sur Twitter dont le principe de messages courts est particulièrement bien adapté à l’expression instantanée de témoignages sur le vif. A l’instar d’autres phénomènes rapides non prévisibles tels que les séismes, les crues éclairs donnent en particulier lieu à des pics d’activité très marqués sur Twitter, avec une explosion du nombre de tweets échangés après quelques minutes seulement. Cette particularité permet d’envisager le calage de modèles de détection capables de repérer automatiquement l’occurrence de ces crues ainsi que la qualification de leur impact. En France, le BRGM (Bureau de Recherches Géologiques et Minières) a récemment mené le développement d’une plateforme participative d’analyse semiautomatique des tweets en lien avec les catastrophes naturelles, pour favoriser cette rapide remontée d’informations par les « citoyens capteurs ». Cette plateforme (www.suricatenat.fr) (un lien sera inséré) offrira au travail de stage une infrastructure robuste de collecte de tweets liés aux crues rapides, ainsi que des fonctionnalités d’enrichissement automatique (classification à la volée de l’information, et géolocalisation).

Dans ce contexte, le stage a cinq objectifs :

  1. Etablir les principales caractéristiques des crues rapides pour lesquelles des informations utiles sont à cibler dans le flux de messages échangés sur Twitter ;
  2. Réaliser un état de l’art des méthodes d’analyse automatique des tweets adaptés aux crues rapides et aux autres phénomènes présentant des similarités dans les phénomènes naturels à l’œuvre ou dans les cinétiques ;
  3. Consolider un catalogue de crues rapides de référence survenues en France ces dernières années, sur la base duquel construire une stratégie d’analyse automatisée des Tweets (catalogue regroupant à la fois des dataset de tweets, mais également des données de référence liées à l’intensité du phénomène et à ses effets). Ce catalogue pourra s’appuyer sur les études de cas déjà identifiées dans le cadre du projet ANR PICS (un lien sera inséré vers la présentation de PICS), et sélectionnées sur un double critère d’intensité des réactions hydrologiques constatées et d’intensité des impacts ;
  4. Proposer une adaptation/hybridation des méthodologies existantes (« topic modelling » par classification supervisée / semi-supervisée / non-supervisée, traitement automatique de la langue, etc.) ;
  5. Réaliser une démonstration/preuve de faisabilité sur certains des datasets tweets rassemblés dans le catalogue de référence. Il s’agira notamment d’illustrer la capacité de l’information rassemblée à rendre compte de l’intensité de la crise à différentes échelles spatiales (tronçon de cours d’eau, commune, bassin versant, département…). La possibilité d’identifier des zones inondées à partir de cette information pourra également être évaluée.
  6. Nom de(s) encadrant(s) : Olivier PAYRASTRE (GERS-EE/UGE Nantes) / Cécile Gracianne (BRGM) et Faïza Boulahy (BRGM)

    Nom de(s) étudiant(s) : Axel Rambaud

    Dates de début et de fin du projet : 17 mars 2020 - 9 juillet 2020

    Durée : 4 mois