De la recherche de données géographiques

Sat 27 September 2014 | tags: opendata

Récemment, la mission Etalab, la structure qui gère la politique d’ouverture et de partage des données (au niveau de l'Etat) a procédé à des améliorations qu'il s'agisse de lifting graphique ou d'ajout de fonctionnalités nouvelles. Un grand bond avait déjà été fait entre la V1 basée sur un CMS présentant une liste de données et la v2 ayant pris un virage plus communautaire et étant vraiment mieux pensée. Parmi les nouvelles fonctionnalités, la recherche par "région" a attiré notre attention.

La recherche par régions

Celle-ci est proposée en beta comme annoncée ci-dessous.

En utilisant la fonctionnalité, nous avons été un peu surpris du comportement de l'interface. En effet, quand on prend le département Loire-Atlantique, la ville de Nantes n'apparait pas. Il nous est venu la réflexion suivante qui est qu'est ce qu'on entend par "régions". Du fait de l'annonce Twitter (limité à 140 caractères), "Régions" pouvait porter à confusions. Il est dans ce cas plus assimilé à une entité administrative en général qu'aux 22 régions (en attendant le changement futur).

Après avoir compris cela, la question du résultat retournée par la recherche par région reste problématique. Ce qui apparait important est la manière dont on cherche :

  • on cherche les données qui recouvrent la zone géographique entièrement (A) ou partiellement (B)

  • on cherche les données qui sont contenues dans la zone géographique (C)

  • on cherche les données qui ont la même emprise que la "région" (D)

  • on cherche les données qui sont produites par une entité à l'échelle de la région considérée mais sans localisation précise (E). C'est une donnée de la région mais la question "quelle partie de la région recouvre-t-elle?" est sans réponse.

Recherche par régions, quelques cas

Cela peut encore paraître abstrait, nous allons voir des cas pratiques pour illustrer.

La problématique par les scénarios

Je suis Nantais et je veux savoir quelles données sont disponibles sur ma ville?

Je cherche par EPCI et en zoomant, je tombe sur "Communauté urbaine Nantes Métropole, 25 jeux de données" En dehors du nombre de jeux de données qui n'est pas que de 25 sur Nantes, il se pose le problème que j'attend qu'on me propose les données du département qui couvre l'emprise de la ville. Par exemple, le jeu de données "Horaires des écluses du domaine fluvial public de Loire-Atlantique : l'écluse Saint-Félix" concerne une écluse gérée par le département mais située sur Nantes même. Un autre exemple est celui des "Routes départementales de Loire-Atlantique". Nantes n'est pas traversée par ces routes bien sûr.

Je suis citoyen d'Ancenis, j'aimerais savoir quelles données ouvertes sont disponibles?

Pour donner un peu de contexte, Ancenis est une sous-préfecture de la Loire Atlantique, environ à 35 km à l'Est de Nantes. Si je cherche au niveau départemental, je vais voir que des données sont disponibles à cette échelle. Cette supputation suppose que l'utlisateur final lorsqu'il cherche sur Ancenis ne commence pas immédiatement par la région "Commune française". En commençant par cela, le pauvre citoyen risque de pleurer en se posant la question où peut se passer ce fameux "OpenData" dont il a entendu parler dans des légendes et mythes urbains.

Bilan de l'actuel

Forces de la solution :

  • Identifier les acteurs mettant à disposition des données ouvertes. Cela peut permettre de montrer un leadership local sur des zones ou une absence de celui-ci si on adopte une vision inverse. On pourrait assimiler cela à la carte des initiatives http://www.opendata-map.org avec le lien vers les jeux de données.

  • Avoir les jeux de données à la "bonne échelle". En effet, un utilisateur selon son degré d'expertise ne pourra pas savoir extraire les données uniquement sur sa zone de recherche par exemple pour sa commune depuis les données départementales. Il pourra difficilement qualifier qu'une donnée ayant été produite pour une vocation départementale, la précision est insufisante pour son besoin.

  • Permettre de classer les données non géographiques grâce à l'acteur car toutes les données n'ont pas un caractère géographique et ne sont pas "situables". L'exercice géographique précédent montre ses limites.

Faiblesses de la solution :

  • Par opposition à l'identification des acteurs, cela met en avant un hiérarchie. On pourrait presque parler d'une vision jacobinisme avec la mise en valeur de l'initiative d'un acteur à une échelle.

  • Risque de causer une incompréhension car elle ne répond pas immédiatement à la problématique du "Je suis sur un territoire, je veux savoir quelles données ouvertes sont présentes voir exploitables, indépendamment de l'échelle administrative". L'exemple dejà cité des écluses ou des routes départeentales l'illustre. On n'a donc l'impression selon l'échelle de la région choisie en entrée, ce n'est plus "Paris ou le Désert Français" mais "l'OpenData et les déserts Français". Il n'y aurait aucune donnée ouverte sur des territoires en France alors que par expérience en tant que réutilisateur de données ouvertes, nous savons que les données communes GeoFla de l'IGN ou celles extraites de OpenStreetMap couvrent toute la France malgré quelques limites.

  • Savoir quelle plateforme fournie la donnée n'est pas un but en soi. L'essentiel est de permettre un recherche efficace indépendamment de l'acteur impliqué dans la production des données ouvertes.

Même si nous sommes critique, le but au final est savoir ce que les utilisateurs du portail data.gouv.fr attendent de la recherche par région. Quelle est la plus value actuelle, celle qu'apporterait un recherche recouvrante? D'autres propositions sont surement possibles et nous serions très contents qu'elles émergent.

Propositions

Si on adopte une proposition recouvrante c'est à dire qui renvoie les jeux de données disponibles sur un territoire indépendamment de l'échelle lors de la recherche par région, cela va provoquer un autre problème. En effet, comment distinguer les territoires à forte densité de données OpenData car maintenant, on est sûr que toute la France est au moins couverte par GéoFla par exemple. Rien ne ressort alors que le but d'une carte (même si ce n'est pas que ça) peut être d'aider à la recherche ou de faire ressortir les contrastes entre lieux. Ainsi une alternative serait de faire ressortir les contrastes en comptant le nombre de jeux de données recouvrant un territoire. Par conséquent, une ville comme Nantes, aura le cumul du nombre de jeux de données départements et communes. Le choix dans la partie de droite des régions ne servirait qu'à zoomer et à ouvrir un popup du nombre de données disponibles sur le territoire.

Cependant, les limites de notre approche sont :

  • nous n'avons clairement pas maquetté tout mais nous serions heureux que cela puisse interpeller afin d'améliorer l'expérience utilisateur sur data.gouv.fr

  • le problème des données non localisées reste en suspens.

  • la temporalité : la mise en place du système proposé peut même s'il nous semble plus pratique en terme d'ergonomie, implique surement des cas particuliers qui techniquement peuvent s'avérer plus coûteux en temps et/ou argent comme la conception actuelle est partie d'autres scénarios d'usage

Au delà de la partie "Recherche par régions"

Comme la plate-forme propose aussi une recherche par période de temps, cela ouvre une autre question. Quel futur pour l'archivage des données ouvertes en séries temporelles? Plusieurs réflexions y sont liées. On a par exemple, la réflexion de Christian Quest, président d'OpenStreetMap, sur les "millésimes" de jeux de données pour les communes. En effet, une réorganisation des données géographiques a des impacts sur le calcul des indicateurs statistiques qui leur sont associés. La réforme des régions à venir va clairement impacter cela par exemple. On a aussi la problématique du stockage physique et des formats envisagés pour cela. Même si le domaine des archives numériques est vraiment hors de notre d'expertise, en tant que citoyen, il ouvre de nombreuses questions en particulier quand on voit les difficultés rencontrées avec le stockage physique des archives nationales. A court terme, la problématique "archivages" n'est pas encore importante mais la pérennité sur des dizaines d'années sera plus complexe à priori. Une réflexion a été entamée, a déjà eu lieu sur ce sujet?

Comments