{
"$type": "site.standard.document",
"bskyPostRef": {
"cid": "bafyreih25prd2qiflus73ge4o636y6cimthq7wmlubj4xdg42crujr7nga",
"uri": "at://did:plc:2txuvtwmiemad7rwnhrultex/app.bsky.feed.post/3mmhz4gwgrys2"
},
"path": "/blog/2026-05-22-la-crise-de-l-evaluation.html",
"publishedAt": "2026-05-22T22:44:16.729Z",
"site": "https://www.arthurperret.fr",
"tags": [
"sur Mastodon",
"les commentaires",
"son dernier billet",
"son dernier essai",
"un texte",
"le billet",
"en commentaire",
"impermIAble",
"une nouvelle crise potentielle",
"ChatGPT ne vous dit pas tout",
"Le cognitariat qui vient"
],
"textContent": "Qu’ont en commun les rédactions d’étudiants, les articles de recherche et les programmes informatiques ? Entre autres, un gros problème : l’usage croissant d’outils dits d’intelligence artificielle générative (IAG), qui complique énormément l’évaluation de ces travaux.\n\nL’usage galvaudé du mot crise en a fait un simple synonyme de « ça va mal ». Or la crise, c’est le changement, la rupture ; quelque chose de décisif, si on remonte l’étymologie jusqu’au grec κρίσις (_krisis_ , jugement)1. C’est avec cette acception-là en tête que je réfléchis aujourd’hui à une possible crise de l’évaluation, au sens d’un changement décisif dans l’ordre de l’apprentissage – changement qu’il s’agit évidemment de rendre positif, sinon il n’y aura pas lieu de se réjouir.\n\nL’évaluation dysfonctionnait déjà avant que ne débarquent les grands modèles de langage (_large language models_ , LLM). Mais c’est une disruption qui aggrave considérablement la situation. Or cela nous fournit peut-être l’opportunité de changer les choses pour le mieux.\n\n# De la déqualification au non-apprentissage\n\nLes outils d’IAG ont l’air très puissants dans de nombreuses situations. En réalité, une expertise préalable est requise pour les utiliser à bon escient, et juger de la réalité de leur efficacité2.\n\nCeci pose un double problème : utiliser l’IAG pour apprendre revient en fait à saboter son apprentissage, donc à ne jamais devenir expert ; et la production exponentielle de travaux par IAG met une pression insoutenable sur les experts existants.\n\nConcernant le premier problème, un exemple anecdotique récent, partagé par Julien Falgas sur Mastodon : le cas d’un ancien journaliste reconverti dans le coaching en IAG qui se vante d’avoir « appris le web design » via des LLMs. Le résultat est assez discutable – réalisation banale, code probablement difficile à maintenir, doute sur la solidité du savoir-faire acquis. Mais le problème, c’est que ce serait encore pire avec une personne ayant moins d’expérience. La réalité qu’on voit à l’école et à l’université, c’est une accélération de la baisse du niveau général, et une aggravation qualitative ; certains collègues qui recrutent à l’entrée en master m’alertent sur la chute des capacités de raisonnement conceptuel ces deux dernières années.\n\nIl faut regarder ce qui se passe dans le monde du développement logiciel pour avoir un avant-goût des conséquences d’une délégation cognitive totale à l’IAG. Je ne compte plus le nombre de témoignages que j’ai vu passer dans ma veille à propos de l’effondrement des savoir-faire dans ce domaine, entre licenciements, démissions et déqualification. La perspective d’une disparition pure et simple des ingénieurs senior dans quelques années devient de moins en moins fantaisiste. Dans d’autres professions intellectuelles, comme en droit, l’évolution est plus mesurée mais reste inquiétante : la tendance est au creusement du fossé entre des cadres « augmentés » et un cognitariat précaire, les deux étant enrôlé dans une course à la productivité qui pose question3.\n\n# Les experts dans la nasse\n\nL’autre problème que pose l’IAG à l’expertise, c’est le risque de noyade dans le _slop_ , la bouillie de contenus générés par IA. Bouillie qui peut ressembler à un plat de grand restaurant si on n’y connaît rien, et c’est bien là le problème.\n\nDans les commentaires sous son dernier billet, David Monniaux explique qu’actuellement des bataillons d’amateurs enthousiastes inondent le Web de travaux mathématiques qu’ils ne peuvent pas vérifier eux-mêmes, et que cela pose un gros souci aux experts de ce domaine :\n\n> « Une difficulté avec les IA génératives et les mathématiques de niveau professionnel est qu’elles permettent de faire générer, à faible effort, des preuves subtilement fausses, qui épuisent donc les relecteurs. »\n\nCe problème est le même que celui des corrections pour les enseignants, mais aussi de l’évaluation des publications pour les chercheurs, ou de la relecture de code pour les développeurs. Des experts, par définition, il n’y en a pas beaucoup. Si d’un côté, on n’en fabrique plus, et que de l’autre, on les met sous une pression inédite, que se passe-t-il ?\n\nDans son dernier essai, Baldur Bjarnason résume le problème :\n\n> _“There’s some potential benefit for individual users with literally decades of expertise, provided nobody else uses LLMs. The results are catastrophic when everybody is using them.”_ « Ceux qui ont des décennies d’expertise derrière eux peuvent probablement tirer un certain bénéfice des LLMs, pourvu que personne d’autre ne les utilise. Quand tout le monde s’y met, les résultats sont catastrophiques. »\n\nAttention, il ne faut pas tirer de cette phrase des conclusions élitistes. Le sujet n’est pas d’ériger des barrières ou de creuser des douves pour préserver la position sociale des experts existants. Il s’est toujours formé des castes de lettrés autour des technologies intellectuelles, depuis les scribes dans l’Antiquité jusqu’aux codeurs d’aujourd’hui. La question est de savoir qui peut devenir lettré, et quel degré de contrôle la société exerce sur ces gens.\n\nJe ne dis pas non plus qu’il n’y a rien à faire d’utile avec des LLMs. Dans son dernier billet, Marcello Vitali-Rosati écrit que ces nouveaux modèles représentent une avancée stimulante dans les techniques de modélisation et de manipulation du langage, qu’il serait utile d’explorer scientifiquement. Mais il dit aussi qu’il faut le faire de manière organisée, en adossant les expérimentations à des besoins pensés dans les limites du monde tel qu’il est, et en ayant une pensée politique du déploiement de ces outils.\n\nL’usage informationnel de l’IAG illustre bien cela. C’est l’usage dominant : la majorité des gens qui utilisent un outil d’IAG actuellement sont des gens qui posent une question à ChatGPT sur un téléphone. La notion d’« information » a toujours été assez problématique mais s’il faut la prendre au sérieux, c’est au sens du besoin d’information, associé au renseignement, à l’actualité, à la curiosité, etc. Or si on évalue l’IAG par rapport à ce besoin, dans une logique coût-bénéfices, il apparaît beaucoup plus approprié d’utiliser des systèmes déterministes et experts, antérieurs aux LLMs, bien plus soutenables sur le plan environnemental. Je comprends que certains chercheurs et ingénieurs voient dans les LLMs des opportunités d’expérimentation autour de la recherche d’information, mais j’aimerais qu’on accorde autant d’attention et de moyens à travailler sur les usages dominants des LLMs dans la population générale.\n\nEt puis il y a une certaine hypocrisie à faire mumuse avec de l’IA depuis des centres de calcul en surchauffe tout en exigeant des « IAgraphies » de la part d’étudiants à qui on n’avait jamais demandé la marque du correcteur orthographique jusque-là. Ce qui m’amène à la question de l’évaluation.\n\n# Évaluer autrement\n\nEn 2023, Stéphane Crozat avait publié un texte posant la question suivante : « Peut-on continuer à faire faire des exercices rédactionnels “à la maison” comme avant ? ». Car, disait-il, « les LLM sont capables d’avoir de bonnes notes ». Parmi les pistes de réponses qu’il proposait : « renoncer aux travaux rédactionnels évalués à la maison ».\n\nC’est de cela dont parle David Monniaux dans le billet que je mentionnais un peu plus haut. Après un premier test mettant à l’épreuve un outil d’IA générative sur un document historique inédit, qui avait beaucoup fait réagir, il décrit un second test, réalisé sur une épreuve de mathématiques célèbre pour sa difficulté. La conclusion est sans appel : « il est clair qu’il est devenu impossible de donner des “devoirs maisons” notés ».\n\nDavid précise en commentaire :\n\n> « Il ne faut plus donner de devoirs notés avec note qui compte pour le diplôme, à faire à la maison, puisque cela revient à noter les IA, voire _in fine_ à noter si la personne peut ou non se payer un bon abonnement. Cela ne remet pas en cause l’utilité des devoirs en général. J’ai d’ailleurs relevé que le problème se posait déjà avant, avec les étudiants qui faisaient faire par leur famille, voire des professionnels. »\n\nC’est cette dernière remarque qui me faisait dire plus haut que l’évaluation dysfonctionnait déjà avant l’IAG : lorsqu’on recourt systématiquement à ce type d’exercice, aisément falsifiable, et d’une manière qui reproduit des inégalités au lieu de les compenser, on a déjà un problème.\n\nPour autant, l’idéal n’est pas de revenir intégralement et exclusivement à des évaluations sur table. Ce serait passer d’un maximalisme à un autre : trop de contrôle continu non surveillé, ça ne peut plus fonctionner ; mais le modèle des partiels n’est pas l’idéal en dehors des très grands amphis ou des concours.\n\nCe qu’il faut, c’est changer d’approche, en notant moins. C’est que suggérait Stéphane dans son texte en 2023 :\n\n> « L’exercice rédactionnel est un moyen pour faire travailler un contenu, mais c’est surtout un moyen pour les étudiants d’apprendre à travailler leur raisonnement […] L’évaluation formative sert à guider l’apprenant (elle a vocation à lui rendre service) »\n\nAugmenter la part d’évaluation formative, cela signifie toujours évaluer mais noter moins, ou alors mettre des notes mais qui ne comptent pas, qui servent seulement à se positionner. Il ne s’agit pas de rajouter des évaluations mais de réduire le nombre de notes qui comptent pour le diplôme ; et pour ces dernières, de mettre en place des conditions d’évaluation qui excluent ou limitent les possibilités de recourir à de l’IAG. Ce serait un modèle à mi-chemin entre contrôle continu et contrôle terminal : d’une part, des évaluations formatives régulières mais délestées en grande partie du poids des notes, pour réduire la motivation à tricher ; d’autre part, des évaluations sommatives, qui concentrent les enjeux pour les étudiants, menées dans des conditions qui réduisent le risque de triche. Soit un contrat pédagogique clair : encourager les étudiants à fournir les efforts nécessaires pour réellement s’exercer, apprendre, progresser.\n\nCes idées ne sont pas nouvelles : elles sont discutées depuis longtemps en sciences de l’éducation et entre enseignants. Mais elles sont peu mises en œuvre. L’IAG forcera peut-être à bouger là-dessus.\n\nÀ titre personnel, j’ai une opportunité de le tester, avec l’approche par compétences telle qu’appliquée en BUT. Dans un BUT, il peut vite y avoir beaucoup de cours différents, ce qui fait que les notes se multiplient ; d’où du stress et une perte de motivation chez beaucoup d’étudiants. Or les cours sont répartis dans des UE qui correspondent aux compétences : il suffirait alors de penser le nombre de notes non plus par cours mais par compétences pour se donner la possibilité de mettre fin à la sur-notation et rééquilibrer tout le système. Évidemment, une telle idée soulève beaucoup de questions pratiques, pas toutes faciles à anticiper.\n\n* * *\n\nL’IAG agit comme un puissant révélateur des maux de l’évaluation, qui lui sont antérieurs, et qu’elle met en tension de manière maximale. Dans l’enseignement, il y a avait déjà un problème avec le recours abusif aux exercices à la maison, qui répondait à une injonction paradoxale : la massification conjuguée à la baisse des moyens. En recherche, l’évaluation par les pairs est sous pression depuis longtemps, aux bénéfice d’éditeurs privés intéressés uniquement par le maintien de leurs marges. En informatique, l’absence de régulation a ouvert la voie au pillage du code _open source_ et à la submersion des forges comme GitHub sous les contributions robotiques.\n\nDevoirs d’étudiants, articles scientifiques et programmes informatiques pointent vers un même problème, profondément politique : la capture des communs au service d’une idéologie productiviste qui use de toutes les armes possibles – domination matérielle, indigence du personnel politique, puissance des affects.\n\nComment se positionner vis-à-vis de ça ? Dans un billet précédent, je parlais de se rendre « impermIAble », imperméable à l’IA. Je réalise qu’on pourrait prendre cette idée pour une forme de désengagement, surtout quand on considère la taille de l’adversaire, donc je précise : il ne s’agit surtout pas de fuir mais plutôt de mettre activement l’IA en quarantaine, de la questionner, la réduire au minimum soutenable, c’est-à-dire souvent à rien. Dans l’enseignement, c’est vital : l’intrusion de l’IA dans sa forme actuelle constitue une attaque en règle contre l’apprentissage, et quand on n’apprend pas, c’est qu’on n’enseigne plus.\n\n* * *\n\n 1. Je dois de redécouvrir cette signification à l’économiste Frédéric Lordon, qui répète souvent que la « crise » économico-financière de 2007-2008 n’en a pas été une puisque rien de décisif n’a changé : la finance dérégulée continue son petit bonhomme de chemin et nous prépare d’ailleurs une nouvelle crise potentielle.↩︎\n\n 2. J’ai abordé ce sujet dans « ChatGPT ne vous dit pas tout ».↩︎\n\n 3. Voir « Le cognitariat qui vient ».↩︎\n\n\n",
"title": "[Blog] La crise de l’évaluation",
"updatedAt": "2026-05-22T12:00:00.000Z"
}