Projet:Astronomie/Planètes mineures 2018

La présente page a pour objet de présenter le projet "Planètes mineures 2018" visant à créer la totalité des articles relatifs à des astéroïdes ou planètes mineures admissibles en 2018.

Pour une lecture simplifiée, les terminologie "astéroïdes" ou "planètes mineures" sont employées alternativement (alors que formellement des différences existent).

Objectifs

modifier
  • Démontrer la faisabilité d'un bot créateur d'articles structurés et sourcés, à grande échelle
  • Apporter une contribution significative au projet Astronomie
  • Créer tout ou partie des articles admissibles relatifs à des planètes mineures (environ 500 000)

Admissibilité des articles

modifier

Principes fondateurs

modifier

Le premier principe fondateur de Wikipédia est le suivant : « Wikipédia est une encyclopédie qui incorpore des éléments d’encyclopédie généraliste, d’encyclopédie spécialisée, d’almanach et d’atlas. Elle n’est pas une compilation d’informations ajoutées sans discernement. » Dans le cas d'espèce :

Ainsi le premier principe fondateur est respecté.

Admissibilité des astéroïdes

modifier

L'admissibilité des astéroïdes est mentionnée explicitement dans la recommandation sur les critères spécifiques de notoriété. C'est la raison pour laquelle 20 000 articles existent sur cette thématique antérieurement au lancement du présent sous-projet.

Admissibilité spécifique au sein de la thématique "planètes mineures"

modifier

Les planètes mineures du Système solaire reçoivent différentes désignations à la suite de leur découverte. Dans un premier temps, à la suite de la découverte d'une planète mineure, une désignation provisoire lui est attribuée par le Centre des planètes mineures. Une fois que cet objet a été suffisamment observé pour que ses caractéristiques orbitales soient suffisamment bien connues, une désignation définitive, correspondant à un numéro d'ordre dans la liste des planètes mineures, lui est attribuée. Pour une faible portion de ces objets, un nom est également attribué, mais celui-ci, tout en faisant partie de la désignation officielle de l'objet une fois attribué, ne confère aucun statut particulier à l'objet et n'est la marque d'aucun aspect particulier sur la connaissance des paramètres physiques ou orbitaux de l'objet. Autrement dit, seul l'attribution d'un numéro définitif vaut validation officielle de l'existence d'un objet.

Pour l'admissibilité des articles dans Wikipédia, seuls les objets numérotés seront retenus :

  • admissible et donc traité par le bot  : planètes mineures numérotées = environ 500 000,
  • pas automatiquement admissible et donc pas traité par le bot : planètes mineures non numérotées = environ 200 000

Principes

modifier

Tâches du bot

modifier

Le bot effectue les tâches suivantes :

  • Création de l'article relatif à chaque planète mineure ne disposant pas d'article, par assemblage de diverses données et blocs de texte issus soit du site du JPL, soit de tables annexes.
  • Création de la page d'évaluation de l'article
  • Modification de la palette de navigation des articles existants pour rétablir des liens WP corrects dans le suivi des articles numérotés.

Un bot complémentaire devra ensuite être écrit pour wikifier automatiquement les articles de type Liste des planètes mineures (27001-28000)

Le programme du bot ainsi que des bots annexes sont écrits en VBA en interface avec des tables Excel et des données issues directement du web.

Projets parents

modifier
  • Le bot créateur d'articles sur les coronae, ayant créé 300 articles le 8 juillet 2018.
  • Noter aussi que la plupart des articles existants (environ 20 000) ont déjà été créés par un bot (Gallicbot (d · c · b)) dont le dresseur est Cauannos (d · c · b). Hommage à ,lui.

Type de bot

modifier

En terme de rédaction d'articles, on peut distinguer schématiquement trois types de bots ː

Type de bot Fonctionnalités Commentaires Exemples de domaines exploitables Niveau de développement
Portail Potentiel
(en nb d'articles)
1ère génération Rédige des blocs de texte ou des articles entiers à partir de bases de données externes Souvent utilisé pour de l'assistance à de la rédaction.
Tous les modèles démographiques ou liés à des divisions françaises relève de ce niveau pour leur création ou actualisation.
Communes de France Le nb de bases de données externes est considérable. Opérationnel[Note 1]
2ème génération Rédige des blocs de texte ou des articles entiers à partir de bases de données externes et d'informations récupérées sur le web sur la base d'un plan fixe de l'article Le niveau de développement du texte de l'article est simplement limité par le temps que l'on souhaite attribuer au programme. Cinéma l'IMDb contient plus de 3 000 000 de fiches d'œuvres Opérationnel
Astronomie Potentiel considérable.
Botanique - Zoologie -etc id
Géographie (localités ou autres lieux géographiques) id
3ème génération Rédige des articles par traduction automatique d'articles issus de la WP anglaise, avec ou sans plan pré-défini L'accès au traducteur google-translate est intégré au programme. Un simple clic et le bot génère une traduction complète de l'article WP en anglais, structuré, wikifié et sourcé. Nécessite une relecture de la traduction (seule tâche manuelle) et ne peut donc fonctionner qu'en semi-automatique, à savoir en assistance à la rédaction. Géographie (localités ou autres lieux ou objets géographiques) à partir des articles de la WP en id En pré-développement

Le bot pour les planètes mineures relève de la 2ème génération.

Plan des articles

modifier

Plan identique pour tous les articles ː

  • Infobox
  • RI
  • Description ː Caractéristiques orbitales / Caractéristiques physiques
  • Voir aussi
  • Références
  • Palette de navigation
  • Portails
  • Catégories

Contenu des articles

modifier

Données

modifier
  • Infobox : en quasi-totalité récupérées directement sur la page web du JPL relative à la planète mineure en question
  • Texte (RI et contenu) : blocs de texte déclenchés selon certaines données issues soit du site JPL, soit de tables pré-construites.

Table principale

modifier

Cette table liste par ordre de numéro les principales informations relatives à chaque planète mineure, hormis les données techniques qui sont récupérées directement sur le site du JPL.

Tables annexes

modifier
  • Classes : un texte pour chaque classe (voir ci-dessous)
  • Découvreurs : Nom wikifié de l'astronome ayant découvert la planète mineure
  • Projets : Nom wikifié du projet
  • Sites : Pour chaque site où a été découvert une planète mineure : localisation et description succincte du site
  • Sources : Pour chaque source (différente de celles du JPL et du MPC) ː texte spécifique avec description et wikification du lien (modèle article)
  • Catégorie "découvreurs"
  • Catégorie "sites "
  • Catégorie "découvert en xx" ː pas de table. Affichage automatique à partir de l'année.

Pour des raisons de facilité de traitement, la plupart de ces tables ont été fusionnées en amont en une seule table.

Classes de planètes mineures

modifier

Plusieurs classifications d'astéroïdes existent. Seule celle définie par le JPL est retenue, afin de pouvoir disposer de données sourcées :

  • 10 classes : Astéroïde Amor / Astéroïde Apollon / Astéroïde Aton / Centaure / Astéroïde de la ceinture principale intérieure / Astéroïde de la ceinture principale / Astéroïde de la ceinture principale extérieure / Astéroïde troyen de Jupiter / Astéroïde aréocroiseur / Objet transneptunien,
  • voire 12 si on tient compte des Objets potentiellement dangereux (OPD) pour les Amor et Apollon.

A chaque classe correspond un texte spécifique.

Sources

modifier
  • Deux sources sont affichées pour chaque planète mineure : JPL et MPC
  • Une source complémentaire est affichée quand elle existe : l'article relatif aux caractéristiques physiques de l'astéroïde. Seule la source relative au diamètre est retenue.

Technique

modifier

Travaux en amont des 40 000 premiers traitements

modifier
  • Création des tables principale et annexes (par compilation de pages comme Liste des planètes mineures (27001-28000) et fusion avec une des bases de données du MPC : NumberedMPs.txt (disponible ici)
  • Balayage des 40 000 premiers astéroïdes pour récupérer (avec un bot spécifique) :

- la classe d'astéroïde et vérifier que la table annexe est bien complète
- la source complète relative à la caractérisation du diamètre de l'astéroïde (quand elle existe)

  • Création des catégories d'astronomes, de projets et d'observatoires (avec des bots dédiés)

Fonctionnalités du bot

modifier

Les principales fonctionnalités nécessaires pour le bot ont déjà été développées dans des bots antérieurs :

  • Récupérer des données sur une page web. La récupération est ici facilitée puisque la structure de la page web est toujours la même. La seule difficulté à gérer est que toutes les données ne sont pas toujours présentes sur la page (diamètre, albédo, en particulier), ce qui peut induire des décalages (malgré une présentation globalement identique).
  • Récupérer le code d'une page WP
  • Construire le code d'une page WP à partir de données récupérées ou issues de tables
  • Publier le code d'une page WP sur le web.

Difficulté non résolue ː

  • Présence de caractères latins avec diacritiques spécifiques sur certains titres - nécessite un traitement à la main!

A développer (bot spécifique) :

  • Renommer en masse une série de pages WP (suite à une erreur de titrage - environ 700)

Travaux ultérieurs

modifier

Performance

modifier

Pour chaque article créé, le bot se connecte au web 3 fois : une fois pour récupérer les données du site du JPL, une fois pour publier l'article, une fois pour publier l'évaluation. Pour la modification d'un article existant, le bot ne se connecte qu'une fois (pour la publication de la modif).

Pour permettre la récupération efficace des données, une temporisation d'une seconde est faite entre chaque connexion (on ne peut guère descendre en-dessous). C'est donc cette temporisation qui conditionne la performance du bot, car les traitements intermédiaires sont très rapides.

Performance : en moyenne 14 publications par minute, soit environ 400 articles à l'heure (variable selon le nombre d'articles à modifier pour rétablir le chaînage dans la palette de bas de page).

Avancement

modifier
  • 8 juillet 2018 : début de discussion sur le projet Astronomie (ici)
  • 1er août 2018 : annonce sur le bistro ;
  • 5 août 2018 : lancement ;
  • 8 août 2018 : 10 000 ème article créé (noter que cela ne correspond pas à l'astéroïde n°10 000 puisque de nombreux articles existaient déjà antérieurement avant le bot) ;
  • 11 août 2018 : Astéroïde n° 39999 atteint. Fin de la 1ère phase. Un retour sur les 20 000 premiers sera fait pour prendre en compte certaines améliorations postérieures. La phase suivante sera engagée après certains travaux préparatoires.
  • 18 août 2018 : Requête aux administrateurs de @Mathieudu68 demandant le blocage de Roland45-Bot ǃ
  1. Par opérationnel, il convient d'entendre que toutes les fonctionnalités nécessaires ont déjà été développées dans un bot qui a été utilisé. Mais il est clair que chaque projet (comme celui pour les planètes mineures) nécessite un programme spécifique en lien avec l'article attendu.