Indice de Sørensen-Dice

L'indice de Sørensen-Dice, connu aussi sous les noms d'indice de Sørensen, coefficient de Dice et d'autres noms encore) est un indicateur statistique qui mesure la similarité de deux échantillons. Il a été développé indépendamment par les botanistes Thorvald Sørensen^[1] et Lee Raymond Dice^[2] dans des articles publiés en 1948 et 1945 respectivement.

Noms et variantes

L'indice est connu sous divers autres noms : le plus souvent reviennent indice de Sørensen ou coefficient de Dice^[3] ; les deux noms se voient aussi avec le qualificatif « coefficient de similarité » ou « indice » ou autres variations, et le nom « Sørensen » est orthographié avec diverses variations, comme « Sorenson », « Soerenson » ou « Sörenson », et dans chaque cas le suffixe peut être remplacé par « –sen ». On trouve également le nom indice binaire de Czekanowski^[4].

L'indice mesure la présence ou l’absence d'espèces. On peut étendre l'expression à la mesure de l'abondance au sens écologique du terme. Des versions quantitatives sont connues sous divers noms :

Indice quantitatif de Sørensen-Dice, de Sørensen, de Dice^[4],
Distance de Bray-Curtis (l'opposée de la dissimilarité de Bray-Curtis)^[4],
Indice quantitatif de Czekanowski, de Steinhaus^[4],
Similarité en pourcentage de Pielou^[4],
L'opposée de la distance de Hellinger^[5].

Formule

Pour des ensembles finis quelconques X et Y, l'indice s'exprime par :

s={\frac {2|X\cap Y|}{|X|+|Y|}}

.

Ici, |X| est le nombre d'éléments de X. L'indice peut varier de 0 (quand X et Y sont disjoints) à 1 (quand X et Y sont égaux). Comme pour l'indice de Jaccard, les opérations ensemblistes peuvent être exprimées en termes d'opérations vectorielles sur des vecteurs binaires X et Y :

s_{v}={\frac {2|X\cdot Y|}{|X|+|Y|}}

.

Dans le domaine de la recherche d'informations, le coefficient peut être vu comme le double de l'information partagée, rapportée à la somme des cardinalités^[6]. Le coefficient peut aussi être utilisé comme une mesure de similarité entre chaînes de caractères. Étant donnés deux chaînes x et y, on peut calculer le coefficient comme suit^[7] :

s={\frac {2n_{t}}{n_{x}+n_{y}}}

où n_t est le nombre de digrammes (formés de deux caractères consécutifs) communs aux deux chaînes, n_x est le nombre de digrammes dans x et n_y le nombre de digrammes dans y. Par exemple, pour calculer la similarité entre :

night et nacht,

on calcule les digrammes de chaque mot :

ni,ig,gh,ht

na,ac,ch,ht

Chaque ensemble a quatre éléments, et leur intersection se réduit au seul élément ht. Avec la formule donnée ci-dessus, on obtient

s=2\cdot 1/(4+4)=0.25

.

Différence avec l'indice de Jaccard

Le coefficient n'est pas très différent, dans sa forme, de l'indice de Jaccard qui est

{\frac {|X\cap Y|}{|X\cup Y|}}

.

Toutefois, il ne vérifie pas l'inégalité triangulaire, et il ne peut être vu que comme une version « semi-métrique » de l'indice de Jaccard^[4]. Contrairement à l’indice de Jaccard, la fonction

d=1-{\frac {2|X\cap Y|}{|X|+|Y|}}

n'est pas une distance puis qu'elle ne vérifie pas l'inégalité triangulaire. Le contre-exemple le plus simple est donné par les trois ensembles {a}, {b}, et {a,b}. La distance entre {a} et {b} est égale à 1, alors que la distance de ces deux ensembles au troisième, {a,b}, est 1/3. Pour satisfaire l'inégalité triangulaire, la distance entre {a} et {b}, qui est égale à 1, devrait être inférieure à la somme des deux autres distances, qui n’est que 2/3.

Applications

Le coefficient de Sørensen-Dice est utilisé pour les données rencontrées dans la communauté écologique^[8]. La raison de cet usage est plutôt empirique que théorique, même s'il peut être justifié théoriquement comme intersection de deux ensembles flous^[9]. En comparaison avec la distance euclidienne, la distance de Sørensen est fine dans les ensembles hétérogènes de données, et donne moins de poids aux cas déviants^[10]. Le coefficient de Dice et ses variantes trouvent un usage en lexicographie infographique, où il intervient dans la mesure du score d'association lexicale de deux mots^[11]^,^[12].

Le coefficient est également utilisé pour mesurer les performances d'algorithmes de segmentation d'images, notamment médicales^[13]^,^[14]. Il permet de calculer une mesure du recouvrement entre la réponse de l'algorithme et le résultat attendu. Le calcul de l'indice de Sørensen-Dice est dans ce cas analogue au calcul du F-score^[15].

Articles liés

Notes et références

↑ Thorvald Sørensen, « A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons », Biologiske Skrifter/Kongelige Danske Videnskabernes Selskab, vol. 5, n^o 4,‎ 1948, p. 1–34
↑ Lee R. Dice, « Measures of the Amount of Ecologic Association Between Species », Ecology, vol. 26, n^o 3,‎ 1945, p. 297–302 (DOI 10.2307/1932409, JSTOR 1932409)
↑ A. Carass, S. Roy, A. Gherman, J.C. Reinhold, A. Jesson, T. Arbel, O. Maier, H. Handels, M. Ghafoorian, B. Platel, A. Birenbaum, H. Greenspan, D.L. Pham, C.M. Crainiceanu, P.A. Calabresi, J.L. Prince, W.R. Gray Roncal, R.T. Shinohara et I. Oguz, « Evaluating White Matter Lesion Segmentations with Refined Sørensen-Dice Analysis », Scientific Reports, vol. 10, n^o 1,‎ 2020, p. 8242 (ISSN 2045-2322, PMID 32427874, PMCID 7237671, DOI 10.1038/s41598-020-64803-w , Bibcode 2020NatSR..10.8242C)
↑ ^{a b c d e et f} Eugene D. Gallagher, « COMPAH Documentation », University of Massachusetts, Boston, 1999 (consulté le 2 décembre 2015).
↑ J. Roger Bray et J. T. Curtis, « An Ordination of the Upland Forest Communities of Southern Wisconsin », Ecological Monographs, vol. 27, n^o 4,‎ 1957, p. 326–349 (DOI 10.2307/1942268)
↑ Cornelis Joost van Rijsbergen, Information Retrieval, Londres, Butterworths, 1979 (ISBN 3-642-12274-4)
↑ Grzegorz Kondrak, Daniel Marcu et Kevin Knight, « Cognates Can Improve Statistical Translation Models », Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,‎ 2003, p. 46–48 (lire en ligne)
↑ Par exemple : J. Looman et J. B. Campbell, « Adaptation of Sorensen's K (1948) for estimating unit affinities in prairie vegetation », Ecology, vol. 41, n^o 3,‎ 1960, p. 409–416 (JSTOR 1933315).
↑ David W. Roberts, « Ordination on the basis of fuzzy set theory », Vegetatio, Kluwer Academic Publishers, vol. 66, n^o 3,‎ 1986, p. 123-131 (ISSN 0042-3106, DOI 10.1007/BF00039905).
↑ Bruce McCune et James Grace, Analysis of Ecological Communities, Gleneden Beach, OR, Mjm Software Design, 2002 (ISBN 0-9721290-0-6).
↑ Rychlý, P. (2008) A lexicographer-friendly association score. Proceedings of the Second Workshop on Recent Advances in Slavonic Natural Language Processing RASLAN 2008: 6–9
↑ Matthieu Constant, « Similarité entre les mots », Master Informatique, Université Paris-Est Marne-la-Vallée, 2012 (consulté le 1^er décembre 2015)
↑ Jeroen Bertels, Tom Eelbode, Maxim Berman et Dirk Vandermeulen, « Optimizing the Dice Score and Jaccard Index for Medical Image Segmentation: Theory & Practice », arXiv:1911.01685 [cs, eess], vol. 11765,‎ 2019, p. 92–100 (DOI 10.1007/978-3-030-32245-8_11, lire en ligne, consulté le 13 septembre 2022)
↑ (en) Kelly H. Zou, Simon K. Warfield, Aditya Bharatha et Clare M.C. Tempany, « Statistical Validation of Image Segmentation Quality Based on a Spatial Overlap Index », Academic radiology, vol. 11, n^o 2,‎ février 2004, p. 178–189 (ISSN 1076-6332, PMID 14974593, PMCID 1415224, DOI 10.1016/S1076-6332(03)00671-8, lire en ligne, consulté le 13 septembre 2022)
↑ Pierre-Antoine Ganaye, « A priori et apprentissage profond pour la segmentation en imagerie cérébrale », HAL,‎ 26 novembre 2019 (lire en ligne [PDF])

Lien externe

Sur les autres projets Wikimedia :

Dice's coefficient, sur Wikibooks

Dice/Sorensen. Implémentation de l'indice de Dice/Sorenson dans le cadre du projet StringMetric, une bibliothèque de mesures de similarité et d'algorithmes phonétiques, en langage Scala.

[1] Thorvald Sørensen, « A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons », Biologiske Skrifter/Kongelige Danske Videnskabernes Selskab, vol. 5, n^o 4,‎ 1948, p. 1–34

[2] Lee R. Dice, « Measures of the Amount of Ecologic Association Between Species », Ecology, vol. 26, n^o 3,‎ 1945, p. 297–302 (DOI 10.2307/1932409, JSTOR 1932409)

[carass-3] A. Carass, S. Roy, A. Gherman, J.C. Reinhold, A. Jesson, T. Arbel, O. Maier, H. Handels, M. Ghafoorian, B. Platel, A. Birenbaum, H. Greenspan, D.L. Pham, C.M. Crainiceanu, P.A. Calabresi, J.L. Prince, W.R. Gray Roncal, R.T. Shinohara et I. Oguz, « Evaluating White Matter Lesion Segmentations with Refined Sørensen-Dice Analysis », Scientific Reports, vol. 10, n^o 1,‎ 2020, p. 8242 (ISSN 2045-2322, PMID 32427874, PMCID 7237671, DOI 10.1038/s41598-020-64803-w , Bibcode 2020NatSR..10.8242C)

[gallagher-4] {a b c d e et f} Eugene D. Gallagher, « COMPAH Documentation », University of Massachusetts, Boston, 1999 (consulté le 2 décembre 2015).

[5] J. Roger Bray et J. T. Curtis, « An Ordination of the Upland Forest Communities of Southern Wisconsin », Ecological Monographs, vol. 27, n^o 4,‎ 1957, p. 326–349 (DOI 10.2307/1942268)

[6] Cornelis Joost van Rijsbergen, Information Retrieval, Londres, Butterworths, 1979 (ISBN 3-642-12274-4)

[7] Grzegorz Kondrak, Daniel Marcu et Kevin Knight, « Cognates Can Improve Statistical Translation Models », Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,‎ 2003, p. 46–48 (lire en ligne)

[8] Par exemple : J. Looman et J. B. Campbell, « Adaptation of Sorensen's K (1948) for estimating unit affinities in prairie vegetation », Ecology, vol. 41, n^o 3,‎ 1960, p. 409–416 (JSTOR 1933315).

[9] David W. Roberts, « Ordination on the basis of fuzzy set theory », Vegetatio, Kluwer Academic Publishers, vol. 66, n^o 3,‎ 1986, p. 123-131 (ISSN 0042-3106, DOI 10.1007/BF00039905).

[10] Bruce McCune et James Grace, Analysis of Ecological Communities, Gleneden Beach, OR, Mjm Software Design, 2002 (ISBN 0-9721290-0-6).

[11] Rychlý, P. (2008) A lexicographer-friendly association score. Proceedings of the Second Workshop on Recent Advances in Slavonic Natural Language Processing RASLAN 2008: 6–9

[12] Matthieu Constant, « Similarité entre les mots », Master Informatique, Université Paris-Est Marne-la-Vallée, 2012 (consulté le 1^er décembre 2015)

[13] Jeroen Bertels, Tom Eelbode, Maxim Berman et Dirk Vandermeulen, « Optimizing the Dice Score and Jaccard Index for Medical Image Segmentation: Theory & Practice », arXiv:1911.01685 [cs, eess], vol. 11765,‎ 2019, p. 92–100 (DOI 10.1007/978-3-030-32245-8_11, lire en ligne, consulté le 13 septembre 2022)

[14] (en) Kelly H. Zou, Simon K. Warfield, Aditya Bharatha et Clare M.C. Tempany, « Statistical Validation of Image Segmentation Quality Based on a Spatial Overlap Index », Academic radiology, vol. 11, n^o 2,‎ février 2004, p. 178–189 (ISSN 1076-6332, PMID 14974593, PMCID 1415224, DOI 10.1016/S1076-6332(03)00671-8, lire en ligne, consulté le 13 septembre 2022)

[15] Pierre-Antoine Ganaye, « A priori et apprentissage profond pour la segmentation en imagerie cérébrale », HAL,‎ 26 novembre 2019 (lire en ligne [PDF])

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]