Projet:Astronomie/Planètes mineures 2018
La présente page a pour objet de présenter le projet "Planètes mineures 2018" visant à créer la totalité des articles relatifs à des astéroïdes ou planètes mineures admissibles en 2018.
Pour une lecture simplifiée, les terminologie "astéroïdes" ou "planètes mineures" sont employées alternativement (alors que formellement des différences existent).
Objectifs
modifier- Démontrer la faisabilité d'un bot créateur d'articles structurés et sourcés, à grande échelle
- Apporter une contribution significative au projet Astronomie
- Créer tout ou partie des articles admissibles relatifs à des planètes mineures (environ 500 000)
Admissibilité des articles
modifierPrincipes fondateurs
modifierLe premier principe fondateur de Wikipédia est le suivant : « Wikipédia est une encyclopédie qui incorpore des éléments d’encyclopédie généraliste, d’encyclopédie spécialisée, d’almanach et d’atlas. Elle n’est pas une compilation d’informations ajoutées sans discernement. » Dans le cas d'espèce :
- Les planètes mineures relèvent du domaine de l'encyclopédie spécialisée. Elles font même l'objet d'un portail spécifique le Portail:Planètes mineures et comètes (48 161 articles – Suivi) au sein du Portail:Astronomie (3 045 catégories – 71 413 articles – Suivi).
- Les articles sur les planètes mineures relèvent également de la notion d'atlas, prise au sens large du terme, à savoir compilation d'articles décrivant des objets de même nature, au même titre que de nombreux autres articles d'autres portails, au hasard : Portail:Arachnologie (700 catégories – 36 807 articles – Suivi), Portail:Entomologie (1 499 catégories – 19 107 articles – Suivi), Portail:Herpétologie (921 catégories – 23 232 articles – Suivi), Portail:Ornithologie (987 catégories – 14 151 articles – Suivi), Portail:Malacologie (803 catégories – 4 460 articles – Suivi), Portail:Biologie marine (511 catégories – 10 543 articles – Suivi), Portail:Botanique (8 123 catégories – 57 781 articles – Suivi), etc)
- Les articles sont rédigés avec discernement. Le discernement consiste à écrire un texte qui est adapté à l'objet décrit. Deux exemples de discernements :
- Il existe 10 classes d'astéroïdes : Astéroïde Amor / Astéroïde Apollon / Astéroïde Aton / Centaure / Astéroïde de la ceinture principale intérieure / Astéroïde de la ceinture principale / Astéroïde de la ceinture principale extérieure / Astéroïde troyen de Jupiter / Astéroïde aréocroiseur / Objet transneptunien, voire 12 si on tient compte des Objets potentiellement dangereux (OPD) pour les Amor et Apollon. Un texte spécifique est écrit pour chacune des classe et apportant des éléments complémentaires précis pour certaines familles d'astéroïdes (les points de Lagrange par ex pour les troyens de Jupiter)
- Concernant les caractéristiques physiques, le site principal du JPL donne des liens vers des références de textes. Dans les travaux préparatoires au lancement du bot, une récupération de toutes ces sources a été faite (par un bot spécifique), puis les sources ont été lues (en tout cas au moins le résumé ... car chaque texte fait une cinquantaine de pages!) et un résumé a été fait. Ce texte est déclenché dès lors que le bot principal retrouve une de ces ref.
Ainsi le premier principe fondateur est respecté.
Admissibilité des astéroïdes
modifierL'admissibilité des astéroïdes est mentionnée explicitement dans la recommandation sur les critères spécifiques de notoriété. C'est la raison pour laquelle 20 000 articles existent sur cette thématique antérieurement au lancement du présent sous-projet.
Admissibilité spécifique au sein de la thématique "planètes mineures"
modifierLes planètes mineures du Système solaire reçoivent différentes désignations à la suite de leur découverte. Dans un premier temps, à la suite de la découverte d'une planète mineure, une désignation provisoire lui est attribuée par le Centre des planètes mineures. Une fois que cet objet a été suffisamment observé pour que ses caractéristiques orbitales soient suffisamment bien connues, une désignation définitive, correspondant à un numéro d'ordre dans la liste des planètes mineures, lui est attribuée. Pour une faible portion de ces objets, un nom est également attribué, mais celui-ci, tout en faisant partie de la désignation officielle de l'objet une fois attribué, ne confère aucun statut particulier à l'objet et n'est la marque d'aucun aspect particulier sur la connaissance des paramètres physiques ou orbitaux de l'objet. Autrement dit, seul l'attribution d'un numéro définitif vaut validation officielle de l'existence d'un objet.
Pour l'admissibilité des articles dans Wikipédia, seuls les objets numérotés seront retenus :
- admissible et donc traité par le bot : planètes mineures numérotées = environ 500 000,
- pas automatiquement admissible et donc pas traité par le bot : planètes mineures non numérotées = environ 200 000
Principes
modifierTâches du bot
modifierLe bot effectue les tâches suivantes :
- Création de l'article relatif à chaque planète mineure ne disposant pas d'article, par assemblage de diverses données et blocs de texte issus soit du site du JPL, soit de tables annexes.
- Création de la page d'évaluation de l'article
- Modification de la palette de navigation des articles existants pour rétablir des liens WP corrects dans le suivi des articles numérotés.
Un bot complémentaire devra ensuite être écrit pour wikifier automatiquement les articles de type Liste des planètes mineures (27001-28000)
Le programme du bot ainsi que des bots annexes sont écrits en VBA en interface avec des tables Excel et des données issues directement du web.
Projets parents
modifier- Le bot créateur d'articles sur les coronae, ayant créé 300 articles le 8 juillet 2018.
- Noter aussi que la plupart des articles existants (environ 20 000) ont déjà été créés par un bot (Gallicbot (d · c · b)) dont le dresseur est Cauannos (d · c · b). Hommage à ,lui.
Type de bot
modifierEn terme de rédaction d'articles, on peut distinguer schématiquement trois types de bots ː
Type de bot | Fonctionnalités | Commentaires | Exemples de domaines exploitables | Niveau de développement | |
---|---|---|---|---|---|
Portail | Potentiel (en nb d'articles) | ||||
1ère génération | Rédige des blocs de texte ou des articles entiers à partir de bases de données externes | Souvent utilisé pour de l'assistance à de la rédaction. Tous les modèles démographiques ou liés à des divisions françaises relève de ce niveau pour leur création ou actualisation. |
Communes de France | Le nb de bases de données externes est considérable. | Opérationnel[Note 1] |
2ème génération | Rédige des blocs de texte ou des articles entiers à partir de bases de données externes et d'informations récupérées sur le web sur la base d'un plan fixe de l'article | Le niveau de développement du texte de l'article est simplement limité par le temps que l'on souhaite attribuer au programme. | Cinéma | l'IMDb contient plus de 3 000 000 de fiches d'œuvres | Opérationnel |
Astronomie | Potentiel considérable. | ||||
Botanique - Zoologie -etc | id | ||||
Géographie (localités ou autres lieux géographiques) | id | ||||
3ème génération | Rédige des articles par traduction automatique d'articles issus de la WP anglaise, avec ou sans plan pré-défini | L'accès au traducteur google-translate est intégré au programme. Un simple clic et le bot génère une traduction complète de l'article WP en anglais, structuré, wikifié et sourcé. Nécessite une relecture de la traduction (seule tâche manuelle) et ne peut donc fonctionner qu'en semi-automatique, à savoir en assistance à la rédaction. | Géographie (localités ou autres lieux ou objets géographiques) à partir des articles de la WP en | id | En pré-développement |
Le bot pour les planètes mineures relève de la 2ème génération.
Plan des articles
modifierPlan identique pour tous les articles ː
- Infobox
- RI
- Description ː Caractéristiques orbitales / Caractéristiques physiques
- Voir aussi
- Références
- Palette de navigation
- Portails
- Catégories
Contenu des articles
modifierDonnées
modifier- Infobox : en quasi-totalité récupérées directement sur la page web du JPL relative à la planète mineure en question
- Texte (RI et contenu) : blocs de texte déclenchés selon certaines données issues soit du site JPL, soit de tables pré-construites.
Table principale
modifierCette table liste par ordre de numéro les principales informations relatives à chaque planète mineure, hormis les données techniques qui sont récupérées directement sur le site du JPL.
Tables annexes
modifier- Classes : un texte pour chaque classe (voir ci-dessous)
- Découvreurs : Nom wikifié de l'astronome ayant découvert la planète mineure
- Projets : Nom wikifié du projet
- Sites : Pour chaque site où a été découvert une planète mineure : localisation et description succincte du site
- Sources : Pour chaque source (différente de celles du JPL et du MPC) ː texte spécifique avec description et wikification du lien (modèle article)
- Catégorie "découvreurs"
- Catégorie "sites "
- Catégorie "découvert en xx" ː pas de table. Affichage automatique à partir de l'année.
Pour des raisons de facilité de traitement, la plupart de ces tables ont été fusionnées en amont en une seule table.
Classes de planètes mineures
modifierPlusieurs classifications d'astéroïdes existent. Seule celle définie par le JPL est retenue, afin de pouvoir disposer de données sourcées :
- 10 classes : Astéroïde Amor / Astéroïde Apollon / Astéroïde Aton / Centaure / Astéroïde de la ceinture principale intérieure / Astéroïde de la ceinture principale / Astéroïde de la ceinture principale extérieure / Astéroïde troyen de Jupiter / Astéroïde aréocroiseur / Objet transneptunien,
- voire 12 si on tient compte des Objets potentiellement dangereux (OPD) pour les Amor et Apollon.
A chaque classe correspond un texte spécifique.
Sources
modifier- Deux sources sont affichées pour chaque planète mineure : JPL et MPC
- Une source complémentaire est affichée quand elle existe : l'article relatif aux caractéristiques physiques de l'astéroïde. Seule la source relative au diamètre est retenue.
Technique
modifierTravaux en amont des 40 000 premiers traitements
modifier- Création des tables principale et annexes (par compilation de pages comme Liste des planètes mineures (27001-28000) et fusion avec une des bases de données du MPC : NumberedMPs.txt (disponible ici)
- Balayage des 40 000 premiers astéroïdes pour récupérer (avec un bot spécifique) :
- la classe d'astéroïde et vérifier que la table annexe est bien complète
- la source complète relative à la caractérisation du diamètre de l'astéroïde (quand elle existe)
- Création des catégories d'astronomes, de projets et d'observatoires (avec des bots dédiés)
Fonctionnalités du bot
modifierLes principales fonctionnalités nécessaires pour le bot ont déjà été développées dans des bots antérieurs :
- Récupérer des données sur une page web. La récupération est ici facilitée puisque la structure de la page web est toujours la même. La seule difficulté à gérer est que toutes les données ne sont pas toujours présentes sur la page (diamètre, albédo, en particulier), ce qui peut induire des décalages (malgré une présentation globalement identique).
- Récupérer le code d'une page WP
- Construire le code d'une page WP à partir de données récupérées ou issues de tables
- Publier le code d'une page WP sur le web.
Difficulté non résolue ː
- Présence de caractères latins avec diacritiques spécifiques sur certains titres - nécessite un traitement à la main!
A développer (bot spécifique) :
- Renommer en masse une série de pages WP (suite à une erreur de titrage - environ 700)
Travaux ultérieurs
modifier- Bot spécifique pour wikifier automatiquement les articles de type Liste des planètes mineures (27001-28000)
Performance
modifierPour chaque article créé, le bot se connecte au web 3 fois : une fois pour récupérer les données du site du JPL, une fois pour publier l'article, une fois pour publier l'évaluation. Pour la modification d'un article existant, le bot ne se connecte qu'une fois (pour la publication de la modif).
Pour permettre la récupération efficace des données, une temporisation d'une seconde est faite entre chaque connexion (on ne peut guère descendre en-dessous). C'est donc cette temporisation qui conditionne la performance du bot, car les traitements intermédiaires sont très rapides.
Performance : en moyenne 14 publications par minute, soit environ 400 articles à l'heure (variable selon le nombre d'articles à modifier pour rétablir le chaînage dans la palette de bas de page).
Avancement
modifier- 8 juillet 2018 : début de discussion sur le projet Astronomie (ici)
- 1er août 2018 : annonce sur le bistro ;
- 5 août 2018 : lancement ;
- 8 août 2018 : 10 000 ème article créé (noter que cela ne correspond pas à l'astéroïde n°10 000 puisque de nombreux articles existaient déjà antérieurement avant le bot) ;
- 11 août 2018 : Astéroïde n° 39999 atteint. Fin de la 1ère phase. Un retour sur les 20 000 premiers sera fait pour prendre en compte certaines améliorations postérieures. La phase suivante sera engagée après certains travaux préparatoires.
- 18 août 2018 : Requête aux administrateurs de @Mathieudu68 demandant le blocage de Roland45-Bot ǃ
Notes
modifier- Par opérationnel, il convient d'entendre que toutes les fonctionnalités nécessaires ont déjà été développées dans un bot qui a été utilisé. Mais il est clair que chaque projet (comme celui pour les planètes mineures) nécessite un programme spécifique en lien avec l'article attendu.