Utilisateur:Simon Villeneuve/PoV/Wikidata/centrismes

Quantifier les centrismes de Britannica et Universalis modifier

lem go

10 décembre 2017 - Nous sommes quelques contributeurs à avoir associé des entrées de deux encyclopédies classiques d'influence, l'Encyclopaedia Britannica (EB) et l'Encyclopaedia Universalis (EU), avec des éléments Wikidata équivalents. Ainsi, on peut désormais établir des statistiques sur un échantillon plus ou moins aléatoire d'environ 75 000 entrées[note 1] pour Britannica et 7 000 articles pour Universalis, ce qui représente environ 37 % et 19 % de l'ensemble des entrées recensées en ligne pour ces encyclopédies. Puisque ce ne sont que des échantillons, il faut se concentrer sur les rapports entre les valeurs d'une même colonne, qui doivent être relativement représentatifs de l'ensemble du contenu, et non sur les valeurs mêmes.

Pour chaque statistique des encyclopédies classiques, j'ai ajouté, à titre comparatif, des statistiques de frwiki et de Wikidata.

Statistique Britannica Universalis Total Wikipédia en
français
Wikidata
Nombre total d'entrées 206 761 35 714 242 475 1 936 819 40 681 003
Échantillon 75 642 (37 %) 6 809 (19 %) 82 451 (34 %) 1 936 819 (100 %) 40 681 003 (100 %)
Nombre d'entrées biographiques[note 2] 30 293 4 605 34 898 524 141 3 746 525
Biographies d'hommes[note 3] 26 450 4 244 30 694 435 506 2 881 719
Biographies de femmes[note 3] 3 857 357 4 214 86 651 608 360
Drapeau des États-UnisBiographies d'Américain-ne-s 9 861 664 10 525 68 529 355 844
Drapeau de l'AllemagneBiographies d'Allemand-e-s 2 073 313 2 386 24 407 214 458
Drapeau de la FranceBiographies de Français-e-s 2 354 1 375 3 729 129 362 153 856
Drapeau du Royaume-UniBiographies de Britanniques 3 637 326 3 963 26 259 135 771
Drapeau du JaponBiographies de Japonai-se-s 488 190 678 13 127 106 134
Drapeau de l'URSSBiographies de Soviétiques 513 61 574 5 725 65 019
Drapeau du CanadaBiographies de Canadien-ne-s 579 35 614 20 322 54 153
Drapeau de la RussieBiographies de Russes 216 17 233 6 342 53 613
Drapeau de la BelgiqueBiographies de Belges 203 76 279 14 101 30 898
Drapeau de la SuisseBiographies de Suisse-sse-s 362 76 438 8 893 27 102
Drapeau de la République populaire de ChineBiographies de Chinoi-se-s 168 25 193 2 776 15 082

On note ainsi (ajoutez votre phrase) :

  • Il y a plus d'entrées consacrées aux femmes sur Britannica que sur Universalis (12,7 % de l'ensemble des biographies vs. 7,8 %). Pour Wikipédia en français et Wikidata, c'est respectivement 16,5 % et 16,2 % de l'ensemble des entrées biographiques.
  • Il y a cinq fois plus d'entrées sur les Allemand-e-s que sur les Suis-ses-ses, qui sont 1,5 fois plus nombreux-ses que les Belges.
  • Il y a une entrée sur un-e Russe pour 20 entrées sur des Allemand-e-s sur Universalis, alors qu'il-elle est 1 pour 10 sur Britannica.
  • Les entrées japonaises sont 3 à 4 fois plus nombreuses que les chinoises (8 fois plus sur Universalis seulement).
  • Il y a exactement le même nombre de biographies pour les Belges et les Suisse-sse-s sur Universalis.

La requête SPARQL pour obtenir les statistiques précédentes, et plus encore, est la suivante. Pour obtenir le résultat désiré, vous devez enlever le début de la ligne concernée du dièse (#) jusqu'à l'expression ?item. Ainsi, par exemple, pour obtenir l'ensemble des éléments rattachés à Britannica, vous devez retirer #Britannica de la requête et laisser ?item wdt:P1417 [] . . Pour obtenir toutes les personnalités canadiennes présentes sur Universalis, vous devez retirer #Universalis , #être humain et #Canadien-ne-s de la requête ci-dessous.

#Requête permettant d'obtenir des statistiques
#concernant les entrées de Britannica et d'Universalis.

#Pour rendre opérante la requête, enlevez, au début
#de la ligne, du dièse (#) jusqu'à l'expression ?item

#Pour des requêtes qui dépassent les capacités de l'outil 
#(le message « Limite du temps de requête atteinte » s'affiche), remplacez 
#la première ligne (SELECT ?item ?itemLabel...[AUTO_LANGUAGE],fr" }) 
#par SELECT (COUNT(?item) AS ?count) WHERE {

SELECT DISTINCT ?itemLabel ?itemDescription ?item WHERE { SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en" }
##Si excède capacités de l'outil SELECT DISTINCT (COUNT(?item) AS ?count) WHERE {
#Britannica ?item wdt:P1417 ?britannica . 
#Universalis ?item wdt:P3219 ?universalis .
#localités ?item wdt:P31/wdt:P279* wd:Q486972 .
#êtres humains ?item wdt:P31 wd:Q5 . 
#femmes ?item wdt:P21 wd:Q6581072 .
#hommes ?item wdt:P21 wd:Q6581097 .
#Allemand-e-s ?item wdt:P27 wd:Q183 .
#Américain-e-s ?item wdt:P27 wd:Q30 .
#Belges ?item wdt:P27 wd:Q31 .
#Britanniques ?item wdt:P27 wd:Q145 .
#Canadien-ne-s ?item wdt:P27 wd:Q16 .
#Chinois-e-s ?item wdt:P27 wd:Q148 .
#Français-e-s ?item wdt:P27 wd:Q142 .
#Japonais-e-s ?item wdt:P27 wd:Q17 .
#Russes ?item wdt:P27 wd:Q159 .
#Russes (1721-1917) ?item wdt:P27 wd:Q34266 .
#Soviétiques ?item wdt:P27 wd:Q15180 .
#Suisse-sse-s ?item wdt:P27 wd:Q39 .
#musicien-ne-s ?item wdt:P106/wdt:P279* wd:Q639669 .
#artistes ?item wdt:P106/wdt:P279* wd:Q483501 .
#scientifiques ?item wdt:P106/wdt:P279* wd:Q901 .
#personnalité politique ?item wdt:P106/wdt:P279* wd:Q82955 .
#lien vers une version linguistique OPTIONAL {?article 	schema:about ?item ; schema:isPartOf <https://CODE_LANGUE.wikipedia.org/> .}
##sans lien vers une version linguistique FILTER (!BOUND(?article))
#lier au numéro des éléments Wikidata situé entre BORNE_INFÉRIEURE et BORNE_SUPÉRIEURE BIND( xsd:integer( STRAFTER( STR( ?item ), STR( wd:Q ) ) ) AS ?num ) . FILTER( BORNE_INFÉRIEURE < ?num && ?num < BORNE_SUPÉRIEURE ) .
}
#Classer par VARIABLE. ORDER BY ?VARIABLE
#Si temps limite atteint, limiter les résultats à X. LIMIT X
#Si temps limite atteint, fractionner les résultats en sautant les X premiers et en affichant les Y suivants. OFFSET X LIMIT Y

Cliquez pour essayer !

Mise à jour modifier

Élémentaire de terre.

11 janvier 2018 - Un mois plus tard, nous sommes en mesure d'actualiser les statistiques précédentes pour un échantillon à peu près doublé d'Universalis. Pour les données de frwiki et Wikidata, nous avons mis entre parenthèses le % d'augmentation depuis le mois dernier :

Statistique Britannica Universalis Total Wikipédia en
français
Wikidata
Nombre total d'entrées 206 761 35 714 242 475 1 945 754 (+ 0,5 %) 42 391 870 (+ 5 %)
Échantillon 89 673 (43,3 %) 13 519 (37,9 %) 103 192 (42,6 %) 1 945 754 (100 %) 42 391 870 (100 %)
Nombre d'entrées biographiques 33 549 7 944 41 493 527 105 (+ 0,6 %) 4 081 001 (+8,2 %)
Biographies d'hommes 29 305 7 280 36 585 437 573 (+0,5 %) 2 894 901 (+0,5 %)
Biographies de femmes 4 226 659 4 885 88 562 (+2,2 %)[note 4] 612 573 (+0,7 %)
Drapeau des États-UnisBiographies d'Américain-ne-s 10 800 1 268 12 068 68 953 (+0,6 %) 356 685 (+0,2 %)
Drapeau de l'AllemagneBiographies d'Allemand-e-s 2 112 569 2 681 24 598 (+0,8 %) 214 772 (+0,1 %)
Drapeau de la FranceBiographies de Français-e-s 2 679 2 499 5 178 130 501 (+0,9 %) 154 942 (+0,7 %)
Drapeau du Royaume-UniBiographies de Britanniques 3 851 550 4 401 26 449 (+0,7 %) 136 262 (+0,4 %)
Drapeau du JaponBiographies de Japonai-se-s 567 198 765 13 127 (+0,0 %) 106 217 (+0,1 %)
Drapeau de l'URSSBiographies de Soviétiques 544 117 661 5 814 (+1,5 %) 66 299 (+1,9 %)
Drapeau du CanadaBiographies de Canadien-ne-s 640 76 716 20 484 (+0,8 %) 54 347 (+0,4 %)
Drapeau de la RussieBiographies de Russes 236 39 275 6 368 (+0,4 %) 54 078 (+0,9 %)
Drapeau de la BelgiqueBiographies de Belges 224 126 350 14 209 (+0,8 %) 31 063 (+0,5 %)
Drapeau de la SuisseBiographies de Suisse-sse-s 369 133 502 8 969 (+0,8 %) 27 243 (+0,5 %)
Drapeau de la République populaire de ChineBiographies de Chinoi-se-s 189 28 217 2 796 (+0,7 %) 16 222 (+7,0 %)[note 5]

La première des choses qui me vient à l'esprit est de vérifier si les proportions ont beaucoup variées entre le premier et le second échantillon. Ainsi, par exemple, les biographies représentaient respectivement environ 40 % et 68 % du contenu du premier échantillon de Britannica et d'Universalis, alors qu'elles représentent 37 % et 59 % du second. Ainsi, comme je l'anticipais, le poids des biographies diminue.
Voici les pourcentages des différents types d'articles biographiques par rapport au total :

Type de biographies Britannica Universalis
premier échantillon second échantillon premier échantillon second échantillon
hommes 87,3 87,3 92,2 91,6
femmes 12,7 12,6 7,8 8,3
Américain-ne-s 32,6 32,2 14,4 16
Allemand-e-s 6,8 6,3 6,8 7,2
Français-e-s 7,8 8,0 29,9 31,5
Britanniques 12 11,5 7,1 6,9
Japonai-se-s 1,6 1,7 4,1 2,5
Soviétiques 1,7 1,6 1,3 1,5
Canadien-ne-s 1,9 1,9 0,8 1
Russes 0,7 0,7 0,4 0,5
Belges 0,7 0,7 1,7 1,6
Suisse-sse-s 1,2 1,1 1,7 1,7
Chinoi-se-s 0,6 0,6 0,5 0,4

Mon intuition, à savoir que la taille du premier échantillon était suffisante pour que les proportions ne bougent pas beaucoup, semble confirmée. Ainsi, on observe au maximum 0,5 % de variation pour Britannica (biographies d'Américain-e-s et de Britannique-s) et 1,6 % pour Universalis (biographies d'Américain-e-s, de Français-e-s et de Japonai-se-s).

VIGNERON, qui avait déjà créé plusieurs des requêtes SPARQL précédentes, a créé une autre requête permettant de sélectionner une plage d'éléments en fonction de leur numéro. Cela permet, notamment, de voir quelle proportion d'entrées de Britannica et d'Universalis auraient été intégrées à Wikidata si cette dernière avait été limitée au même nombre d'entrées de ces deux encyclopédies classiques[note 6]. Ainsi, cela donne 23 296 entrées de Britannica et 1 733 articles d'Universalis du second échantillon, ce qui représente respectivement 26 % et 12,8 %. Cela signifie que les wikidatistes ont jugé qu'environ les trois quart des notions de Britannica et que près de 90 % des notions d'Universalis n'étaient pas aussi « prioritaires » que ce que les éditeurs de ces publications l'ont jugé. Fort heureusement, Wikidata n'a pas de limite quant à son nombre d'élément et toutes les notions des deux encyclopédies classiques peuvent y être liées.
Du côté de frwiki, 26 098 notions de Britannica et 473 articles d'Universalis du second échantillon ne sont pas présents sur Wikipédia en français, soit respectivement 29 % et 3,5 %.

Je termine cette section en réunissant mes impressions après plus de 12 000 associations d'articles d'Universalis sur Wikidata :

  • Une grande partie du contenu est consacrée aux biographies de personnalités liées aux beaux-arts.
  • Contrairement à frwiki, plusieurs titres d'articles sont au pluriel, suivant un peu les recommandations de nommage des catégories de Wikipédia en anglais.
  • Les articles sur les familles nobiliaires sont difficiles à associer rapidement car la recherche automatique ne donne généralement rien. Même chose pour les articles sur les œuvres.
  • Les articles sur les êtres vivants sont intitulés selon leur nom commun en France, et non, comme sur Wikipédia en français, selon le nom latin.
  • Une proportion surprenante du contenu concerne les différents groupes ethniques (près de 1 % des entrées). Pour Britannica, la proportion est cinq fois moindre, alors que pour Wikipédia en français et Wikidata, elles sont respectivement 10 fois et 50 fois moindres. Indique possiblement une branche anthropologie particulièrement productive.
  • Beaucoup de notions sont associées en paires et doivent êtres liées à deux éléments (chouette et hibou, linguistique et littérature, circoncision et excision, vertical et horizontal, etc.). Il n'est donc pas possible d'utiliser mix'n'match (m&m) pour ces cas.
  • L'homonymie de plusieurs notions est plus ou moins bien définie dans certains articles (illuminisme, pouvoir, traditionnalisme, etc.), voire totalement occultée dans d'autres (incubation, anneau d'or, Chambord, Gueltre, Universal, etc.)[1].
  • Plusieurs sujets sont divisés en thématiques (un peu l'équivalent de nos articles détaillés), mais ces thématiques sont plus ou moins faciles à lier à Wikidata (voir, par exemple, les articles liés à l'automobile, avec, notamment, la notion d'« automobilisme »).
  • Certains titres me semblent trop compliqués pour rien (« CRISES FINANCIÈRES - Krachs boursiers » pour krach ou « SPIRAL JETTY Rozel Point, Grand Lac Salé, Utah, (R. Smithson) » pour Spiral Jetty).
mix'n'match
  • Catégories
    • Associés à la main : Articles liés à Wikidata. Nombre de liaisons traitées.
    • Associés automatiquement : Les pages sont associées automatiquement selon des algorithmes que j'ignore. Dans plusieurs cas, ils ont raison à de fortes proportions. Parcourir ces associations automatiques et les valider ou non est la méthode « manuelle » la plus rapide d'effectuer des liaisons entre Wikidata et des ressources externes.
    • Pas de Wikidata : Ne semblant pas posséder d'élément sur Wikidata.
    • Non applicable pour Wikidata : Liaison semblant impossible.
    • Non associés : C'est généralement la jungle.
    • Total : Nombre d'articles au total.
  • Onglet Action
    • Jeu mobile : Plus lent que l'outil visuel, il semble cependant plus précis sur des domaines particuliers. Ainsi, il est très efficace sur les personnalités vivantes, puis mortes. Il est meilleur que l'Outil visuel pour les œuvres et semble avoir une proportion de femmes à associer plus grande pour Universalis (?!).
    • Outil visuel : Ouvre dans une fenêtre constituée de multiples sous-fenêtres affichant la page de l'entité externe sélectionnée (bases de données, encyclopédies, dictionnaires biographiques, etc.), la recherche sur Wikidata et l'aperçu Wikidata de l'élément sélectionné. Particulièrement efficace sur les biographies, a permis le traitement rapide de milliers de liaisons. Inefficace pour l'association d’œuvres et de noms de dinosaures pour Universalis (?!).

Mise à jour modifier

4 mai 2018 - Nouvelle mise à jour des données :

Statistiques Britannica Universalis Total Wikipédia
en français
Wikidata
Nombre total d'entrées 206 761
% articles : 49 %[note 7]
35 714 242 475 1 980 656 (+ 1,8 %) 47 392 548 (+ 11,8 %)
Échantillon 109 888 (53 %)
% articles : 47 %[note 8]
33 545 (93 %) 143 433 (59 %) 1 980 656 (100 %) 47 392 548 (100 %)
Entrées géolocalisées 12 012 3 196 15 208 269 774 5 845 247
Entrées biographiques 39 138 17 683 56 821 536 679 (+ 1,8 %) 4 264 736 (+ 4,5 %)
Personnes vivantes 5 333 1 955 7 288 284 044 2 720 924
Biographies d'hommes 34 261 16 121 50 382 445 715 (+ 1,9 %) 3 029 636 (+ 4,7 %)
Biographies de femmes 4 834 1 542 6 376 90 273 (+ 1,9 %) 665 137 (+ 8,6 %)
Biographies d'Américain-ne-s 12 271 2 743 15 014 70 174 (+ 1,8 %) 362 562 (+ 1,6 %)
Biographies d'Allemand-e-s 2 241 1 191 3 432 25 175 (+ 2,3 %) 216 914 (+ 1 %)
Biographies de Français-e-s 3 120 5 183 8 303 131 286 (+ 0,6 %) 159 268 (+ 2,8 %)
Biographies de Britanniques 4 265 1 144 5 409 27 048 (+ 2,3 %) 139 842 (+ 2,6 %)
Biographies de Japonai-se-s 687 241 928 13 295 (+ 1,3 %) 115 606 (+ 8,8 %)
Biographies de Russes 967 599 1 566 10 118 (+ 59 %) 79 265 (+ 19,6 %)
Biographies de Soviétiques 626 396 1 022 6 109 (+ 5 %) 69 796 (+ 5,3 %)
Biographies de Canadien-ne-s 756 166 922 20 710 (+ 1,1 %) 55 235 (+ 1,6 %)
Biographies de Belges 258 295 553 14 338 (+ 0,9 %) 37 135 (+ 19,5 %)
Biographies de Suisse-sse-s 385 292 677 9 093 (+ 1,4 %) 28 152 (+ 3,3 %)
Biographies de Chinoi-se-s 226 69 295 2 921 (+ 4,4 %) 26 240 (+ 61,8 %)

J'ai ajouté 2 statistiques par rapport aux deux premières analyses : le nombre d'articles géolocalisés et le nombre de biographies de personnes vivantes. On remarque, notamment, que les entrées géolocalisées représentent 10,9 % de l'échantillon de Britannica et 9,5 % de celui d'Universalis. En comparaison, ceux de frwiki et de Wikidata représentent respectivement 13,6 et 12,3 % du contenu.

Le poids des biographies sur le total des entrées est descendu à 30,5 % pour Britannica et 52,7 % pour Universalis.

Contrairement aux tableaux précédents, j'ai combiné les personnalités de l'Empire russe et de la Russie, ce qui explique probablement une partie du fort écart de Russes entre les échantillons précédents. Cependant, je ne m'explique pas certains pourcentages d'écart pour Wikipédia en français et Wikidata. À part l'augmentation totale du nombre d'éléments de Wikidata, tout pourcentage d'augmentation qui excède 5 % me semble louche. Est-ce que c'est les requêtes SPARQL qui ne sont pas robustes ? Est-ce qu'il y a eu un ajout massif de localisations dernièrement ? Je ne sais pas.

Voici les proportions des articles biographiques pour le troisième échantillon :

Type de biographies Britannica Universalis
1er échantillon 2e échantillon 3e échantillon 1er échantillon 2e échantillon 3e échantillon
vivant-e-s - - 13,6 - - 11,1
hommes 87,3 87,3 87,5 92,2 91,6 91,2
femmes 12,7 12,6 12,4 7,8 8,3 8,7
Américain-ne-s 32,6 32,2 31,4 14,4 16 15,5
Allemand-e-s 6,8 6,3 5,7 6,8 7,2 6,7
Français-e-s 7,8 8,0 8,0 29,9 31,5 29,3
Britanniques 12 11,5 10,9 7,1 6,9 6,5
Japonai-se-s 1,6 1,7 1,8 4,1 2,5 1,4
Soviétiques 1,7 1,6 1,6 1,3 1,5 2,2
Canadien-ne-s 1,9 1,9 1,9 0,8 1 0,9
Russes 0,7 0,7 2,5 0,4 0,5 3,4
Belges 0,7 0,7 0,7 1,7 1,6 1,7
Suisse-sse-s 1,2 1,1 1,0 1,7 1,7 1,7
Chinoi-se-s 0,6 0,6 0,6 0,5 0,4 0,4

Du côté de frwiki, 32 243 notions de Britannica et 1 929 articles d'Universalis du troisième échantillon ne sont pas présents sur Wikipédia en français, soit respectivement 29,3 % et 5,8 %. Ces proportions ont considérablement augmentées par rapport au second échantillon, ce qui s'explique par le fait que les outils de mix'n'match permettent d'associer les notions les plus faciles en premier. Ainsi, retirant peu à peu ces dernières, il reste de plus en plus de notions qui n'existent que peu ou pas sur les différentes versions linguistiques de Wikipédia.

Commentaires
  • J'ai trouvé pourquoi l'outil mobile permet d'associer plus de femmes que l'outil visuel. C'est tout simplement parce qu'il est plus efficace pour associer les personnes vivantes que l'outil visuel et qu'il y a plus de femmes chez les biographies de personnes vivantes.
  • Les articles liés à des alphabets non-latins ou à des transcriptions d'alphabets non-latins vers l'alphabet latin sont plus difficiles à associer. On peut donc supposer qu'il y a une sous-représentation des sujets « non-latins » dans les échantillons de Britannica et d'Universalis actuellement associés.
  • J'ai épuisé les capacités de l'outil visuel et du jeu mobile pour Universalis. J'ai fait le tour à plusieurs reprises des éléments non-associés restant en traitant « à la main » les articles restant, puis j'ai cessé. Le travail qui reste est fastidieux et je crois que l'association des éléments de Britannica restant est un investissement de mon temps plus rentable. Pour celles et ceux qui voudraient tenter d'associer les quelque 2 500 articles d'Universalis manquants, voici quelques indications :
    • La plupart de ces articles nécessiteront probablement la création d'un item. C'est le cas de toutes les mises en scène de pièces de théâtre et des expositions. C'est également le cas de presque toutes les œuvres écrites (livres et articles).

Quantifier les centrismes de l'EC et du DBC modifier

« L'EC met plus en valeur les femmes que les autres encyclopédies classiques. »

« Il faut être un homme mort depuis longtemps pour être dans le DBC. »

septembre-octobre 2018 - L'association des entrées de Britannica avec des éléments de Wikidata se poursuit tranquillement. Nous en sommes à un peu plus de 130 000 associations sur 206 761 entrées.
J'ai entrepris des associations de L'encyclopédie canadienne (EC) et du Dictionnaire biographique du Canada (DBC), qui affirment avoir chacun respectivement 20 239[2] et 8 500[3] entrées.

Statistiques EC DBC frwiki Wikidata
Nombre total d'entrées
sur mix'n'match
8 587
(42,2 %)
7 754
(91,2 %)
2 047 014 50 777 465
Échantillon 5 894
(29 %)
4 692
(55,2 %)
2 047 014
(100 %)
50 777 465
(100 %)
Entrées géolocalisées 825
(14 %)
0 7 025 384
(13,8 %)
Localités 684
(11,6 %)
0 2 154 400
(4,2 %)
Entrées biographiques 3 486
(59,1 %)
4 690[note 9] 548 708
(26,8 %)
4 590 524
(9 %)
Personnes vivantes 1 260
(36,1 %)
216
(4,6 %)
289 328
(52,7 %)
2 931 578[note 10]
(63,9 %)
Biographies d'hommes 2 747
(78,8 %)
4 412
(94,1 %)
3 177 491
(69,2 %)
Biographies de femmes 684
(19,6 %)
253
(5,4 %)
94 115
(17,2 %)
715 262
(15,6 %)

Quelques observations :

  • La proportion d'articles biographiques de l'EC est semblable à celui de EB et EU.
  • La proportion d'articles biographiques consacrés à des femmes est, pour EC, la plus haute des encyclopédies classiques jusqu'ici (19,6 %), alors qu'elle est la plus basse pour le DBC (5,4 %).
  • 95 % des entrées du DBC concernent des personnalités décédées, alors que c'est près des deux tiers pour l'EC.
  • L'EC possède plusieurs entrées constituées de la recopie d'articles de Maclean's.
  • Les associations automatiques du DBC étaient à peu près toutes erronées. C'est étonnant puisque le format des dates pour ce site me semblent facilement réutilisable dans un outil externe automatique.
    J'imagine qu'il serait facile de refaire l'exercice avec un bien meilleur succès.
  • Un nombre surprenant d'entrées des deux publications sont absentes de Wikidata.
  • C'est toujours plaisant de mettre à jour les statistiques de frwiki et Wikidata en même temps. Ça rappelle une énième fois à quel point on ne joue pas dans les mêmes ligues.
  • Je suis surpris par la quantité d'articles biographiques qui ne sont classifiés ni chez les hommes, ni chez les femmes sur Wikidata (15,2 %). Je me demande à quel point je peux me fier à mes requêtes SPARQL.
  • Je suis irrité par mon incapacité à obtenir certaines quantités d'articles (cases vides du tableau) en raison de limitation de l'outil de requêtes. J'imagine qu'il y aurait moyen de reformuler mon SPARQL pour régler le problème, mais malgré cela, ça demeure un irritant majeur.

L'épreuve des faits modifier

janvier 2019 - Grâce à l'incroyable talent de magicien de TomT0m, des requêtes de Wikidata nous permettent d'obtenir des évaluations de % de contenus en une seule opération automatisée. Voici donc, par exemple, la requête SPARQL permettant d'évaluer le pourcentage des valeurs de P21 (« sexe ou genre ») des éléments de propriétés qui sont des Q55452870 (« propriété Wikidata relative aux encyclopédies ») :

#Évaluer le contenu de genre masculin et féminin d'encyclopédies diverses
select ?property ?propertyLabel ?propertyDescription 
       (group_concat(concat(str(?sexe_label_final), 
                           ": ", 
                           str(?effectif), " ",
                           "(", str(round(?effectif / sum(?effectif) * 100)), "%",")") ; separator=" - ") as ?sexes) 
       (sum(?effectif) as ?total)

with {

select ?property ?sexe (count(?person) as ?effectif)
{
    ?property rdf:type wikibase:Property ;
              wdt:P31/wdt:P279* wd:Q55452870 ;
              wikibase:directClaim ?propertyMainValue .
  
    ?person ?propertyMainValue [] ;
            wdt:P31 wd:Q5 .
    optional {
       ?person wdt:P21 ?sexe2 .
       bind(if(isBlank(?sexe2), "inconnu", ?sexe2) as ?sexe3) 
    }
    bind(if(!bound(?sexe3), "non specifié", ?sexe3) as ?sexe)
    
 
} group by ?property ?sexe
  order by ?property ?sexe
} as %dataset

where {
  {
    select ?property ?propertyLabel ?propertyDescription ?sexe ?sexe_label_final ?effectif{
      include %dataset .
      optional { ?sexe rdfs:label ?label_sexe filter langmatches(lang(?label_sexe), "fr") }
      SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
      bind (if(bound(?label_sexe), ?label_sexe, ?sexe) as ?sexe_label_final)
    }
  }
  bind( (?effectif / ?total )  as ?pourcent)
} group by ?property ?propertyLabel ?propertyDescription

Cliquez pour essayer !

Ne me demandez pas de l'expliquer. Tout ce que je peux dire est que cette requête donne les mêmes résultats pour l'EB, l'EC, l'EU et le DBC que ceux que j'ai calculés.


Erreur de référence : Des balises <ref> existent pour un groupe nommé « note », mais aucune balise <references group="note"/> correspondante n’a été trouvée

  1. Voir la requête suivante pour plus de détails :
    SELECT ?item ?itemLabel WHERE { SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],fr" }
    ?item wdt:P3219 [] .
    ?item wdt:P31 wd:Q4167410 .
    }
    
    Cliquez pour essayer !
  2. https://www.thecanadianencyclopedia.ca/fr
  3. http://www.biographi.ca/fr/about_us.php