La docimologie, l'étude des épreuves, est la discipline scientifique consacrée à l'étude du déroulement des évaluations en pédagogie[1] et notamment à la façon dont sont attribuées les notes par les correcteurs des examens scolaires. Le mot « docimologie » vient du grec composé de dokimé, épreuve, et logos, raison, discours, étude.

La docimologie peut se rapporter à la docimastique, correspondant à la technique des examens.

Historique modifier

En 1922, Henri Piéron introduit le terme de docimologie pour désigner la science et la pratique du contrôle des connaissances ; il le définira en 1951 par « l’étude systématique des examens (modes de notation, variabilité interindividuelle et intra-individuelle des examinateurs, facteurs subjectifs, etc.) ». Avec sa femme, Mathilde Angenout, et Henri Laugier, il pose les fondements de cette nouvelle discipline avec l'« Étude critique de la valeur sélective du certificat d'études et comparaison de cet examen avec une épreuve par tests. Contribution à une docimastique rationnelle », présentée lors de la IVe conférence internationale de psychotechnique. Inspirée par la psychologie expérimentale et la physiologie, la docimologie apparaît dans le sillage du mouvement de l'éducation nouvelle qui vise à refonder l'enseignement sur la méthode scientifique, remettant en cause les schémas traditionnels[2].

Cependant, à ses débuts, la docimologie ne fait qu’analyser et parfois porte un regard critique voire négatif sur les évaluations, sans proposer de solutions. Ce n’est que plus tard que des chercheurs ont exploré des méthodes pour limiter le caractère subjectif de l’évaluation.    

Cadre théorique modifier

La note : sous l'influence de multiples facteurs modifier

L'objectif de la docimologie est d'abord de rechercher les facteurs qui entrent en jeu dans l'évaluation qui sera faite d'un travail écrit ou oral fourni par un élève, indépendamment de la valeur intrinsèque de ce travail ou de l'élève en question.

Une méthode de choix consiste donc à travailler ceteris paribus, c'est-à-dire en observant la variabilité des notes obtenues pour une même copie soumise à différents évaluateurs ou évaluée dans différentes conditions ou encore pour un élève donné. Plusieurs types de facteurs sont donc supposés intervenir. On peut distinguer les facteurs ayant trait :

  • à l'évaluateur ;
  • aux conditions de l'évaluation ;
  • à la nature du sujet.

Facteurs liés à l'évaluateur modifier

Face à une copie, l'évaluateur peut avoir des préjugés, être influencé par son humeur ou l'état d'esprit dans lequel il se trouve (degré de concentration, fatigue), etc. Son jugement sur ce qu'il doit évaluer peut être biaisé par ces éléments.

Cela pose notamment le problème de l'évaluation continue et, de manière générale, des situations dans lesquelles l'évaluateur et le formateur ne font qu'un.

Dans la situation où l’enseignant considère l’élève comme un bon élève, il sera plus indulgent envers une mauvaise copie de cet élève. Il considèrera plus facilement cette mauvaise copie comme un accident anecdotique et cherchera des bons éléments de réponse partout dans la copie et par conséquent mettra une note surestimée.

Dans le cas contraire, celui où l’enseignant considère l’élève comme un mauvais élève, il ne verra dans sa mauvaise copie  qu’une preuve parmi tant d’autres de son manque de travail, d’implication ou son manque d’intelligence… Les lacunes préalablement observées par le maître ne font qu’immerger :

  • d'un côté, le formateur connaît l'élève et est donc capable de faire la part des choses, par exemple, entre une mauvaise performance accidentelle et une lacune réelle, ou bien de prendre en compte certaines compétences de l'élève pour ajuster son avis ;
  • d'un autre côté, l'évaluation subit un biais dû aux a priori de l'évaluateur.

Il s’agit de l’effet Pygmalion. Cet effet peut être très néfaste vis-à-vis des élèves, notamment sur ceux dont la classe sociale est plus facilement stigmatisée (comme les enfants issus de l’immigration, les enfants issus de milieu pauvre…).

De plus, les différences entre les correcteurs jouent aussi. Un correcteur ne note jamais comme son collègue. Souvent les personnes notent selon un éventail très différent. Un évaluateur peut noter entre 8 et 14 alors que son collègue entre 2 et 18. Chaque personnalité est différente, la souplesse des notes aussi. L’étude de 1975 de l'Institut de Recherche sur l'Enseignement des Mathématiques de Grenoble en témoigne : avec un échantillon de 6 copies, 64 correcteurs et un barème très précis sur 40 points, aucune copie corrigée n’eut la même note, avec des écarts de point parfois allant jusqu’à 20.

Les conditions de l'évaluation modifier

Différents facteurs liés aux conditions dans lesquelles s'effectuent l'évaluation peuvent aussi influer sur le résultat final. Certains sont les manifestations particulières de phénomènes plus généraux de ce qu'on appelle des biais, dont certains ont été étudiés en détail par la psychologie sociale et cognitive.

  • effet de halo : si un élève est présenté comme brillant, sa copie pourrait être mieux notée que s'il était présenté comme médiocre ;
  • effet de contraste ou d'ancrage : une copie moyenne sera surévaluée quand elle sera corrigée après plusieurs mauvaises copies et, inversement, elle sera sous-évaluée après plusieurs bonnes copies. Ce phénomène se produit identiquement lors d'évaluations orales.

Influence du sujet modifier

Premièrement le barème peut jouer un rôle très important : celui-ci permet en théorie de minimiser la subjectivité. En effet il a pour but de standardiser la notation. Or l’IREM de Rennes après une expérience a déduit que les correcteurs utilisant un barème étaient plus sévères, qu’il y avait moins d’écart de note entre la plus faible et la meilleure avec un barème et qu’enfin la dispersion des notes n’était pas supprimée. De plus tous les correcteurs ne tiennent pas strictement compte du barème et mettent des notes qui leur semblent justes selon leurs propres critères basées sur leur expérience.

La manière de poser la question — au sens large, de présenter le problème servant à l'évaluation — influe sur la réponse : on parle du biais induit par la question. Ce phénomène a été étudié en psychologie cognitive.

L'énoncé peut aussi induire en erreur :

  • il peut comporter des erreurs (ce qui doit bien sûr être évité) : comment alors évaluer la réponse à une question erronée ? Cette situation peut également être voulue, par exemple pour tester la réactivité du candidat, sa capacité à prendre du recul, à douter de l'autorité ;
  • l'énoncé peut être inadapté à la formation : d'un niveau trop simple ou, au contraire, trop élevé, ou bien présentant une situation que l'apprenant ne peut pas gérer car les connaissances, savoir-faire ou savoir-être nécessaires ne font pas partie des prérequis de l'examen.

De plus, l'énoncé d'un problème est souvent reflet d'une façon de penser, l'élève n'ayant pas la même que son correcteur ou son instituteur pourra être jugé « hors sujet » par certains alors que « très bien réussi » par d'autres. En effet lors d'une étude pour un même problème de mathématique avec des différents énoncés, le premier avec des nombres donnés, le deuxième avec les mêmes nombres multipliés par 1 000 : 81,49 % des élèves réussissent à résoudre l'exercice lorsque l'énoncé est le premier et seulement 60,34 % de ces mêmes élèves réussissent au deuxième énoncé[3].

Ainsi les choix dans les énoncés des évaluations peuvent être très importants. Il est donc nécessaire d'accorder une grande importance dans la formulation des évaluations et par extension du cours. En effet l'acquisition de la leçon et de son application sont les principaux points à évaluer, le choix de l'énoncé est donc crucial.

Questions de base sur l'évaluation modifier

Lorsque l'on conçoit une évaluation, il convient de se poser sept questions :

  • Pourquoi évaluer ? Connaitre, comprendre, analyser... ?
  • Pour qui évaluer ? Pour l'apprenant, pour le commanditaire de la formation, pour le futur employeur, etc. ?
  • Comment évaluer ? Par la forme, le contenu... ?
  • Selon quel moyen évaluer ? questionnaire à choix multiples (QCM), vrai/faux, question ouverte, examen oral, avec ou sans temps de préparation, etc. ?
  • Qui évaluer ? L'apprenant, le formateur, la formation, etc. ?
  • Quoi évaluer ? Les connaissances, les pratiques, les attitudes, les objectifs... ?
  • Quand évaluer ? En début de cycle, en fin de cycle, de façon permanente... ?


Buts de l'évaluation modifier

L'objectif de la docimologie est d'abord de rechercher les facteurs qui entrent en jeu dans l'évaluation qui sera faite d'un travail — écrit, oral, production matérielle… — fourni par un élève, indépendamment de la valeur intrinsèque de ce travail ou de l'élève en question. La question qui se pose ici est le pourquoi de l'évaluation.

« L'évaluation constitue un outil de régulation dans l'activité professionnelle des enseignants [d'école maternelle] : elle n'est pas un instrument de prédiction ni de sélection. […] Il permet à chacun d'identifier ses réussites, d'en garder des traces, de percevoir leur évolution. »

— Programme d'enseignement de l'école maternelle[4]

Celle-ci permet d'évaluer les qualités de l'enfant, que ce soit des capacités intellectuelles ou caractérielles. Cela donne un suivi quotidien de ses acquis au sein de la classe. De plus, une communication est mise en place avec les parents afin de présenter les progrès de son apprentissage.

L'évaluation se présente comme un outil de mesure mais aussi de jugement qui permet d'apprécier ou d'estimer la valeur des savoirs (connaissance), savoir-faire (pratiques), et savoir-être (attitudes) de l'apprenant et qui aide ce dernier à rendre compte de ses capacités et de ces réussites ou en cas d'échec, de s'améliorer. Lors de l'évaluation, l'enfant doit être capable de prendre conscience de l'effort donné, de pouvoir se remettre en question s'il y a un échec, et d'accepter une aide extérieure. L'enseignant, de son côté, doit aider l'élève et éventuellement adapter l'évaluation.

Qu'évalue-t-on ? modifier

La complexité de l'évaluation est de savoir ce que l'on évalue exactement. Ainsi, dans un examen, on n'évalue pas seulement les connaissances, mais aussi la gestion de la tension nerveuse (stress), la stratégie (impasses, course aux points), l'ingéniosité (tricher sans se faire prendre), la chance… À l'inverse, l'évaluation continue permet de suivre au jour le jour le progrès des connaissances, mais est peu propice à la synthèse et la mémoire à long terme (la partie évaluée est restreinte et récente).

Dans un questionnaire à choix multiples, on va évaluer une capacité à trier, à se souvenir avec un support. Avec une composition (rédaction, dissertation), on va évaluer les connaissances mais aussi la capacité d'analyse, de synthèse, l'expression écrite. Dans un oral, on va évaluer en outre l'expression orale. Dans un jeu de rôle, on va pouvoir évaluer la gestion de la tension nerveuse, la réactivité, la capacité d'adaptation. Si l'on évalue une production matérielle (fabrication d'une pièce, montage d'un ensemble) ou audiovisuelle (film), on évalue la mise en œuvre d'un savoir théorique, de méthodes, ainsi qu'un savoir-faire pratique.

Dans une évaluation collective (entretien collectif, évaluation par projet), on va évaluer en particulier les savoir-être, la capacité à travailler en équipe.

La difficulté du problème posé n'est également pas anodine ; elle ne va pas simplement abaisser ou faire monter globalement les notes, elle va également changer ce qui est évalué. Prenons deux cas opposés :

  • on ne pose que des problèmes déjà traités durant la formation : on évalue la capacité de travail (« bachotage »), de mémorisation, de restitution, mais on ne détermine pas si la personne est capable d'utiliser ce qu'elle a appris dans un contexte nouveau ;
  • on pose un problème qui n'a jamais été vu : on évalue la gestion de la surprise, du stress, la capacité à prendre du recul… mais est-ce ce que l'on veut évaluer, et l'apprenant a-t-il été préparé sur ce point ?

Lorsque l'on conçoit une évaluation, il est donc primordial de savoir quels sont les objectifs de la formation à atteindre. Cela permet de déterminer lesquels seront importants à évaluer. Une question se pose alors sur le lien qui existe entre le mode d’évaluation et les objectifs de la formation.

Le principal type d’évaluation que l’on observe fréquemment est l’examen, souvent sous la forme d’épreuves ponctuelles (examen partie, final) ou d’évaluation continue ; il mène éventuellement à la délivrance d'un diplôme. Cela permet d’examiner l’acquisition des compétences de l’élève et d’observer si les objectifs sont atteints. Le diplôme donne une reconnaissance de l’institution avec le travail fourni donnant lieu à l’accès à un emploi, à une nouvelle fonction, ou encore à une orientation scolaire (passage en classe supérieure, choix de filières générales, technologiques ou professionnelles).

Type d'évaluation modifier

Risques d'une évaluation inadaptée modifier

Une évaluation inadaptée est une évaluation qui ne répond pas à la question posée, c'est-à-dire qui n'évalue pas, ou mal, les élèves vis-à-vis des objectifs de la formation.

Cela peut d'abord déboucher sur un problème de sélection : on risque de sélectionner un candidat ne correspondant pas au profil (mauvaise sélectivité) et éliminer au contraire un candidat intéressant (mauvaise sensibilité).

Cela peut également être un facteur de démotivation pour l'apprenant.

Une évaluation peut également être inadaptée parce qu'elle est inéquitable, par exemple parce que différents correcteurs attribuent les notes de manière différente. Outre le fait d'établir un barème plus précis, on peut mettre en place un système de péréquation des notes.

Différentes études ont été menées, telles que celle du professeur Laugier, réalisée en 1930, qui consistait à donner des copies d’élèves identiques à deux enseignants différents. Les résultats ont montré que les deux correcteurs notaient les copies de manière différente. Ainsi, les notes des élèves avaient un écart de 9 points selon le professeur. Cette expérience montre que la notation d’une copie dépend du professeur, peut-être autant que l’élève lui-même. D’autres expériences ont été menées, comme en 1932 par la Commission Carnégie, ou en 1975 par l’Institut de recherche sur l’enseignement des mathématiques (IREM) qui montrent des résultats similaires. Toutes les matières ont été étudiées et même en mathématiques ou en physique, sciences censées être exactes, d’importantes différences de notes ont été relevées.

Ainsi, de nombreux contrastes apparaissent mettant en avant une analyse très partielle de l’évaluation au travers des expériences effectuées pour connaître la manière d’évaluer ou d’examiner. Les méthodes utilisées par les correcteurs peuvent être émises de différentes manières. C’est pour cela que l’on distingue plusieurs méthodes expérimentales permettant d’analyser l’évaluation. On peut observer :

  • la stabilité intra-correcteur, en donnant plusieurs fois la même copie à un même professeur à différents moments, sans que celui-ci ne fasse attention ;
  • la concordance inter-correcteurs, en donnant une copie à plusieurs professeurs ;
  • l’effet de contraste, qui consiste à placer une certaine copie dans un ensemble d’autres copies soit meilleures soit, au contraire, moins bonnes ;
  • l’évaluation faite par des enseignants auxquels on donne des informations sur l’élève, comme ses notes, son implication en classe.

Évaluation des connaissances et capacité professionnelle modifier

Les mêmes principes règlent habituellement l'évaluation des connaissances aux deux bouts de la formation, dans l'enseignement supérieur et dans les apprentissages de base, se contentant de vérifier la possession d'un bagage, au mieux, d'un savoir-faire. Pourtant, l'exercice d'une profession est très loin de se limiter à la possession d'un ensemble de connaissances, d'un savoir formalisé. Si ce décalage n'est pas aussi pénalisant dans toutes les branches d'activités (les filières techniques étant peut-être moins affectées, par exemple), il n'en est pas de même dans toutes les branches où le facteur humain est sinon au premier plan, du moins reste une dimension incontournable ; peut-on être médecin, sans une certaine fibre psychologique ou assistant social sans empathie ?

Certes, on peut supposer qu'à l'origine le choix d'orientation a été fait en intégrant cette dimension et que l'élève, devant souvent évaluer ses aptitudes malgré son jeune âge, pourra développer favorablement les compétences nécessaires. On peut également espérer que la formation inclura des approches autres que l'acquisition d'un savoir technique au détriment du facteur social de la tâche, et qu'enfin, une évaluation permettra de vérifier les réelles capacités du futur professionnel en situation.

Dans tous les cas où ces supputations ne sont pas vérifiées, la validation d'une formation d'après une représentation du métier amputée de sa dimension humaine prend le risque de reconnaître comme apte professionnellement des personnes manquant des qualités requises pour un exercice harmonieux de leur métier. Individuellement, il y a dans ces cas, une perte progressive de motivation et finalement une mise en valeur non optimale des tendances de chacun et des compétences que chacun serait le plus à même de développer[réf. nécessaire].

Quoique l'évaluation ne devrait pas pour autant servir à vérifier l'affinité de l'élève avec son futur métier, puisque ceci est du ressort de vérifications bien antérieures, elle devrait permettre la prise en compte de capacités humaines au sens le plus large et en tout cas bien différentes de la pure acquisition de connaissances et de leur mise en application fictive.

Inversement, l'absence de prise en compte de talents non immédiatement liés aux connaissances sous-évalue la valeur professionnelle si ces talents sont en fait déterminants dans le quotidien du métier. Bien sûr, par la suite, l'activité donne à l'individu l'occasion d'exprimer son potentiel et ne conduit pas à la démoralisation ou à l'inadéquation éprouvée par celui qui est condamné à travailler en porte-à-faux de sa vocation, mais les risques de gâchis individuel et collectif demeurent : « Mais qui dira les frustrations, les amertumes stérilisantes chez tous ceux qui, pourvus des qualités nécessaires, n'auront jamais la possibilité de les faire servir au bien commun, puisqu'ils n'ont pas pu prouver, dans une épreuve de mathématiques, qu'ils avaient le sens des relations humaines, dans une épreuve de vérification des connaissances, qu'ils avaient l'esprit d'invention ! »[5]

Bibliographie modifier

Voir aussi modifier

Sur les autres projets Wikimedia :

Notes et références modifier

  1. Jean-Jacques Bonniol et Michel Vial, Les Modèles de l'évaluation : textes fondateurs avec commentaires, De Boeck Université, coll. « Portefeuille / Pédagogie », , 368 p. (ISBN 2-8041-2636-6, présentation en ligne), « 1 »
  2. Jérôme MARTIN, « Aux origines de la « science des examens », 1920-1940 », Histoire de l'éducation, no 94,‎ , p. 177 (lire en ligne)
  3. « La Docimologie » (consulté le )
  4. « Programme d'enseignement de l'école maternelle : arrêté du 18-2-2015 — J.O. du 12-3-2015 (NOR : MENE1504759A) », sur BOEN, (consulté le )
  5. Alfred Grosser, « Le cercle des élites », éditorial in Ouest-France du 22 février 1995.