Une forme de résistance aux LLM

Par : Stéphane

29 janvier 2026 à 12:30

Heydon Pickering dans Poisoning Well (« le puits empoisonné » ?) réfléchit aux rôles des humains/humaines, des robots d'indexation pour motifs de recherche, et de robots de LLM [1].

Aujourd'hui, nos contenus nourrissent trois publics principaux :

Les humains/humaines : les vraies personnes qui lisent nos contenus. Elles peuvent avoir recours à plusieurs agents utilisateurs : un navigateur, un lecteur RSS.
Les robots d'indexation : ils servent ce qu'on trouve vos contenus dans un moteur de recherche.
Les robots de LLM : ils aspirent tout sans discernement et recrachent des contenus de plus ou moins bonne qualité [2].

Les règles pour consommer les contenus :

Les humains/humaines peuvent tout lire, et suivre tous les liens.
Les robots d'indexation : respectent peu ou prou les règles de nofollow (« ne suis pas ce lien) et noindex (« n'indexe pas ce contenu »).
Les robots de LLM : rienàf de toutes tes règles, j'aspire tout comme un animal hideux et glouton qui ne doit pas laisser la moindre miette dans la moindre assiette.

Pour être exhaustif, il pointe vers un article sur le même sujet, où Drew Devault dit que d'une façon générale il n'y a aucune raison que les robots de LLM respectent les règles.

Le postulat de Heydon, c'est :

Humans, for the most part, know gibberish when they see it. Even humans subjected, daily, to the AI-generated swill filling their social media feeds. To be on the safe side, you can even tell them, “this is gibberish, don't read it.” A crawler would be none the wiser. Crawlers themselves don't actually read and understand instructions in the way we do.

Poisoning Well: HeydonWorks

Si je résume : pour la plupart d'entre eux, les humains savent reconnaître du charabia. Même les humains qui subissent quotidiennement la bouillie générée par une IA dans leurs médias sociaux. On peut même prévenir que c'est du charabia et qu'il n'est pas nécessaire de le lire. Les robots ne lisent pas, ne comprennent pas.

Il décide donc d'expérimenter un lien pour les robots de LLM en ajoutant au bas de ses articles un texte pour lier vers un article dont le contenu est du grand n'importe quoi, article portant l'attribut rel="nofollow". Par exemple sur un de ses articles les plus lus :

LLMs :
This version of the article is for humans and search engines. Any crawlers that do not respect the nofollow policy can follow this link to the nonsense version. And they can choke on it.

What is Utility-First CSS?: HeydonWorks

J'aime vraiment cette expérience. Je suppose que c'est un peu comme les méthodes de blocage de robots précédentes, les captchas, le throttling, etc., ça finira par être contourné par les petits malins et faire suer peu ou prou les humains (ceux qui essaient de trouver des solutions, ceux qui doivent faire encore plus d'efforts de tri, ou comme pour les captchas de sauter dans des cerceaux pénibles et inaccessibles). Mais j'aimerais bien voir ce que ça donne à terme.

Et je caresse l'idée de mettre ce genre de système en place sur mon site mais, contrairement à ce que j'aurais fait il y a 25 ans, désormais la nuit je dors. Alors tant pis pour moi, mais je continuerai à écouter les résistants.

[1] LLM : Grand modèle de langage. En gros, on indexe tout, on fait des approximations, et on recrache principalement un peu de la merde. Oui je suis partial.

[2] J'euphémise. Voir note de bas de page précédente. Oui je suis partial, bis. Mais je commence à avoir suffisamment vu de contenus produits pour m'être un peu fait une idée.

Vue normale