Modélisation des populations
La notion de modélisation du territoire avec sa population est un outil utilisé en sociologie et en statistique, dans l'optique de mieux gérer les systèmes de mobilités[1], un système de santé[2],[3] les situations d'urgence[4], la gestion d'une épidémie[5], etc.
Pour des raisons de protections des droits individuels, la totalité des caractéristiques de la population d'un territoire et ses activités ne sont pas connues. En revanche, il est possible de modéliser cette population sous la forme d'agents munis d'attributs, avec des chaînes d'activités, et des fonctions d'utilité qui leur permettent d'interagir entre eux. Cette population est générée à partir de données sur le territoire, elle est appelée population synthétique, elle est constituée d'agents.
Par extension, cette "population synthétique" peut aussi contenir des véhicules, des bâtiments, etc.
La population synthétique générée permet de faire directement des analyses sur un territoire. Elle peut aussi être utilisée comme données d'entrée de simulation multi-agents.
Génération d'une population synthétique
modifierElle s'effectue en plusieurs étapes
- La génération d'une population synthétique avec des attributs provenant d'une source primaire de données, par exemple à partir des données de recensement ;
- L'enrichissement de cette population avec d'autres attributs provenant d'une source secondaire de données, par exemple, ajouter l'attribut niveaux de vie à la population à partir des bases de données fiscales.
- La spatialisation de cette population sur le territoire, par exemple à partir de base de données sur les bâtiments.
- L'ajout d'activités aux agents à partir d'enquêtes comme les enquêtes ménage déplacement et sur leurs localisations grâce à des bases de données sur les établissements publics et privés. Avec ces ajouts, ces populations synthétiques sont appelés population synthétique à base d'activités. Ces activités se déroulent dans le temps ce qui donne un caractère dynamique au territoire modélisé. Par exemple, la population d'un territoire n'est pas la même en journée et la nuit.
- L'ajout de fonctions d'utilité qui permettent, par exemple, de déterminer les choix modaux de chacun des agents.
Ces différentes étapes sont conventionnelles car la spatialisation, les activités et les fonctions d'utilités peuvent aussi être considérés comme des attributs, au sens large, des agents. C'est pourquoi la génération de la population synthétique désigne aussi bien la première étape que l'ensemble du processus.
Génération d'une population synthétique dans le cas des transports
modifierIl existe deux grands modèles opposés l'un à l'autre, le modèle à quatre étapes, et les simulations multi-agents[6].
Modèle à quatre étapes
modifierDans la génération d'une population synthétique utilisée pour analyser les mobilités, l'une des méthodes consiste à enrichir les données de base de la population via le modèle à quatre étapes. Il s'oppose au modèle SMA (simulation multi-agents)[6]. Ces quatre étapes consistent à répondre aux questions les suivantes :
- quelle génération des déplacements (combien de déplacements ?),
- quelle distribution des déplacements (pour quelle destination ?),
- quel choix modal (avec quel mode de transport?)
- quelle affectation (en utilisant quel itinéraire ?)[6],[7].
Algorithmes mis en œuvre en systèmes multi-agents
modifierDans les cas les plus usuels, des données de recensements sont disponibles sur un territoire donnée sous la forme d'un échantillons de ménages anonymisés enquêtés sur le territoire, comme les fichiers de recensement de l'Insee, et de données agrégées externes comme par exemple, le nombre de ménages du territoire. Ces données agrégées sont aussi appelées données marginales.
A partir de ces données, il faut générer une population synthétique de ménages, comprenant des individus, la plus proche possible de la population réelle. De nombreux algorithmes peuvent être mis en œuvre. Il est proposé dans l'article[8] un classement des algorithmes selon la typologie suivante.
Reconstruction Synthétique
modifierLes algorithmes de ce type consistent à modifier les poids des ménages afin de coller aux données agrégées externes. Les algorithmes les plus connus consistent à adapter l'IPF (Iterative Proportional Fitting) (en) aux cas d'individus dans des ménages : Iterative Proportional Update, Hierarchical Iterative Proportional Fitting (HIPF), entropy maximization (ent) and Generalized Ranking (GR).
Optimisation combinatoire (combinatorial optimization)
modifierLes algorithmes, classés dans cette catégorie, ont comme entrées deux populations synthétiques générées à partir de l'échantillon. Ces populations synthétiques sont modifiés de manière itérative : deux ménages des deux populations sont échangées si ceci améliore la qualité (goodness of fit) des populations ainsi modifiées, ces échanges sont effectués jusqu'à obtenir une population dont les attributs agrégées correspondent aux données agrégées externes.
Apprentissage statistique (statistical learning)
modifierCes algorithmes se base sur une modélisation probabiliste du problème. Une loi de probabilité conjointe compatible avec l'échantillon est exhibée selon différents algorithmes possibles : réseau bayésien, Méthode de Monte-Carlo par chaînes de Markov hiérarchique, Auto-encodeur variationnel[9]. Un tirage d'une population est alors effectué à partir de cette loi de probabilité puis un des algorithme de reconstruction synthétique est appliqué pour rendre cette population compatible avec les données agrégées externes.
Références
modifier- (en) Sebastian Hörl et Milos Balac, « Introducing the eqasim pipeline: From raw data to agent-based transport simulation », Procedia Computer Science, vol. 184, , p. 712–719 (DOI 10.1016/j.procs.2021.03.089, lire en ligne, consulté le )
- Dumont, M, Carletti, T & Cornelis, É 2017, Population synthétique: un outil pour une analyse spatiale fine des besoins futurs en soins de santé. Dans S Carbonnelle, T Eggerickx, V Flohimont, S Perelman & A Vandenhooft (eds), Vieillissement et entraide: Quelles méthodes pour décrire et mesurer les enjeux ?. VOL. 6, Presses Universitaires de Namur (PUN), Namur, p. 55-74.
- (en-GB) « Building synthetic population data », sur Understanding Society (consulté le )
- Olivier Gillet, Eric Daudé, Arnaud Saval, Clément Caron, Sébastien Rey-Coyrehourcq, et al.. ESCAPE - Simulation à base d'agents pour l'évacuation de populations lors des situations d'urgence. JFSMA- - Journées Francophones sur les Systèmes Multi-Agents, Jul 2023, Strasbourg, France. pp.128-131. ⟨halshs-04199760⟩
- SynthPops: a generative model of human contact networks. Mistry D, Kerr CC, Abeysuriya R, Wu M, Fisher M, Thompson A, Skrip L, Cohen JA, Althouse BM, Klein DJ (2021). (in preparation).
- Boyam Fabrice Yameogo, Méthodologie de calibration d’un modèle multimodal des déplacements pour l’évaluation des externalités environnementales à partir de données ouvertes (open data) : le cas de l'aire urbaine de Nantes, Université de Nantes, (lire en ligne)
- « Les méthodes | Connaissance, modélisation et évaluation de la mobilité | Cerema », sur www.cerema.fr (consulté le )
- (en) Boyam Fabrice Yaméogo, Pascal Gastineau, Pierre Hankach et Pierre-Olivier Vandanjon, « Comparing Methods for Generating a Two-Layered Synthetic Population », Transportation Research Record: Journal of the Transportation Research Board, vol. 2675, no 1, , p. 136–147 (ISSN 0361-1981 et 2169-4052, DOI 10.1177/0361198120964734, lire en ligne, consulté le )
- Stanislav S. Borysov, Jeppe Rich et Francisco C. Pereira, « How to generate micro-agents? A deep generative modeling approach to population synthesis », Transportation Research Part C: Emerging Technologies, vol. 106, , p. 73–97 (ISSN 0968-090X, DOI 10.1016/j.trc.2019.07.006, lire en ligne, consulté le )
Articles connexes
modifierLiens externes
modifier