Projet:Wikiway/Réunion du 21 avril 2021

Réunion du 21 avril 2021 modifier

Paramétrage de l’outil par l’utilisateur modifier

Ils sont minimalistes :

  • langue : choix entre français, anglais et allemand
  • distance de sélection des articles : 1, 5 ou 10 km
  • centres d’intérêt : choix entre 14 centres d’intérêt (ou par défaut pas de choix) (liste communiquée prochainement)

Sélection des articles modifier

Mode de sélection modifier

Le système s’appuierait en première intention sur l’application WP permettant un accès aux lieux et à la ville répondant aux critères de sélection (utilisant a priori la propriété WD P625/coordonnées géographiques). Les articles récupérés sont classés par ordre de distance décroissante, en-dessous de l'article de la commune proprement dite.

La sélection serait ensuite filtrée ou complétée par les propriétés WD correspondant aux centres d’intérêt sélectionnés par l'utilisateur (une table de correspondance sera établie prochainement)

En deuxième intention, une sélection peut être opérée sur les liens internes WP de l’article de la commune concernée (filtré par les centres d’intérêt). Pour cela une technique consiste à associer les titres de section d’articles Wikipédia aux diverses thématiques centres d’intérêt, en scrappant tous les titres puis en les visualisant avec l’outil TreeCloud.org.

En troisième intention, une approche sémantique pourra être mise en place, à savoir une lecture intelligente automatique de l'article ou de la section concernée (intelligence artificielle, voir CamemBert plus loin).

Problème des objets non ponctuels modifier

Si la sélection des objets ponctuels peut paraître aisée, la sélection d’objets linéaires ou surfaciques pose un problème.

Pour les objets surfaciques, le cas de la forêt d’Orléans (Q3078792 (« forêt d'Orléans »)) est donné en exemple : on peut très bien être dans une commune au sein de la forêt d’Orléans, sans que celle-ci apparaisse, tout simplement parce que le centroïde (centre géométrique du polygone que constitue le périmètre de la forêt d'Orléans) est situé à plus de 10 km (c’est bien entendu encore plus flagrant si on choisit 5 ou 1 km). La difficulté est que dans Wikidata seule la propriété P131 (« localisation administrative ») donne une inclusion dans une division administrative, mais il n’existe pas (a priori) d’inclusion dans une zone naturelle (forêt, parc naturel, Znieff, etc). Et parallèlement, il n’existe pas dans WD (a priori) pour une zone naturelle de liste des communes la composant (en totalité ou partiellement). A creuser donc.

Pour les objets linéaires, comme un cours d’eau, on a bien les coordonnées de la source et celles de la confluence, mais on ne sait pas si le cours d’eau est dans la commune et où. La propriété P206 (« baigné par ») de l’élément WD de la commune concernée pourrait être utilisée. A creuser aussi.

Musées modifier

Concernant les musées, il est souhaitable d’incorporer les collections des commons. L’outil Petscan peut servir à explorer les sous catégories et catégories notamment via BeautifulSoup (un package de Python).

Plan des articles modifier

Le plan standard des articles des communes de France est le suivant :

  1. Géographie (= Description des éléments naturels caractérisant le territoire)
  2. Urbanisme (= Descriptif de l'action de l'homme sur le territoire)
  3. Toponymie (= Descriptif des origines du nom de la commune, voire des différents toponymes)
  4. Histoire (= Mise en perspective des événements qui ont marqué la commune)
  5. Politique et administration (= Description des institutions et des élus gérant ou ayant géré le territoire)
  6. Équipements et services publics (= Descriptif de l'action publique et des services offerts aux habitants)
  7. Population et société (= Descriptif de la population et des actions menées à son initiative (clubs, associations, etc.) )
  8. Économie (= Indicateurs et descriptif des acteurs économiques locaux)
  9. Culture locale et patrimoine (= Lieux, monuments, culture, traditions, personnalités)

Observations :

  • Ce plan n’est pas toujours respecté : certaines sections peuvent être manquantes, certaines titres peuvent ne pas respecter le titre standard.
  • Certains thèmes pouvant relever de certains centres d’intérêt peuvent se retrouver dans différentes sections. Par exemple pour la thématique Gastronomie, on peut avoir des informations dans la section « Culture locale et patrimoine », mais aussi dans « Économie » (un produit AOP ou IGP est en effet avant tout une production agricole).

Durée du texte proposé à la lecture (ou lu en mode Voix/Voice) modifier

L’outil vise la simplicité d’accès et de lecture ou d’écoute. Il est ainsi hors de question de lire ou donner à la lecture des textes longs (comme un Article de qualité de 200 koctets !)

L’idée est de limiter l’enregistrement (et donc la lecture) à 3 minutes pour un lieu ou une section d’article.

Pour une commune dans son ensemble (sans sélection de centre d’intérêt), on se limitera au résumé introductif (RI). Il est fait observer que pour les petites communes, ce RI est ultra-succinct, et qu'il pourrait être utile de le compléter.

Les textes sélectionnés font abstraction de toutes sortes de tableaux, tables ou graphiques, seules les informations textuelles sont récupérées.

Textes générés automatiquement à partir de DBPédia modifier

DBPédia (ici) permet d'avoir accès à un texte prérédigé et des données structurées.

Le but de DBpedia est de maintenir des données structurées extraites de différents chapitres de Wikipedia. Le développement de DBpedia en français est mené dans le cadre de la plateforme Sémanticpédia dont les partenaires sont : l'équipe Wimmics commune à Inria et au laboratoire I3S (UNS / CNRS). le Ministère de la Culture et de la Communication.

Le niveau de détail est toutefois variable selon les articles :

  • détaillé pour les grandes villes : Paris ou Toulouse
  • minimaliste pour les articles de communes dont le RI n'est pas développé : Gien ou Artenay
  • minimaliste aussi pour des petites communes dont le RI est développé : Areines dans DbPédia et Areines dans Wikipédia.

Textes générés automatiquement à partir de l'Infobox ou de WD modifier

En complément de DBPédia, pour certaines informations, l’appli pourra générer directement un texte à partir de l’information figurant dans l’Infobox ou dans WD. Comme par exemple pour :

  • les personnalités politiques associées à la commune (maire, conseillers départementaux, député, président du conseil régional). Noter qu’en général dans le corps de l’article d’une commune ne figure que le nom du maire, et encore, perdu dans un tableau. Voir article détaillé.
  • la population. Voir article détaillé.

Langue modifier

Il est acquis qu’un outil de traduction automatique de la version française n’est pas admissible, car trop peu fiable. Les utilisateurs ayant choisi une langue différente du français dans leurs paramètres auront donc accès à la version WP dans la langue choisie. Ceci pose une nouvelle difficulté, car les structures des différentes WP n’ont pas forcément les mêmes plans.

Pour aller plus loin modifier

Un onglet « Pour aller plus loin » permettra de renvoyer :

  • soit vers l'article complet dans Wikipédia
  • soit vers la catégorie d'images dans Commons (pour les musées ou éléments d'architecture)

Licence modifier

Le code devrait avoir une licence afin de ne pas être repris à des fins commerciales. La licence GPL ou AFEROGPL serait la plus appropriée. Même si certaines licence ont encore moins de contraintes d’utilisation, comme LGPL ou MIT, il apparait que la licence GPL dans sa version 3.0. offre le meilleur compromis. Il serait nécessaire d’y indiquer les mentions légales ainsi que le nom de l’outil, l’équipe de développement et l’entreprise. Généralement, ces indications figurent au début de chaque fichier de code en commentaire.

Stockage de l'outil et des données associées (retours en particulier) modifier

Il est vivement recommandé de basculer le code sur Github. Wikipédia dispose d’une licence AGPL et d’un compte github.