Site original : Warrior du Dimanche

Les IA qui butinent broutent comme des vaches sur nos serveurs semblent poser de plus en plus de problèmes à tout le monde, si on en croit masto et la river...
Bref, les crawlers des IA sont comme les IA elles-mêmes: de la merde envahissant et ressourçophage...

En gros, on joue sur la détection du user-agent, pas forcément fiable puisqu'il est simple de le modifier.
On bloque des IP ou des plages d'IP dont on sait qu'elles sont utilisées par les bots.
Premier problème, obtenir une liste de ces plages d'IP... second problème, la garder à jour. Sans compter que le fait de bidouiller le htaccess quand on est un peu noob n'est pas sans danger ou prises de tête...
Pour faire simple, on attend une action du visiteur avant de lui servir la page: un captcha par exemple... Mais il faut JS et se faire chmir à cliquer sur des machins...
[EDIT] https://framapiaf.org/@sebkirche/115486519579128004 m'a fait passer une solution plus simple, bloquer tout accès n'ayant pas un cookie, rediriger vers un JS qui crée le cookie et recharger: les Bots IA n'exécutant pas le JS [pour le moment], ils restent à la porte. ( https://fxgn.dev/blog/anubis/ )
On a entendu parler d'Anubis ( https://sebsauvage.net/links/?ZFvxlg ) que je n'ai pas testé mais qui détecte qu'un BOT en est un en faisant remplir une «preuve de travail» au navigateur. Même s'ils bossent dessus, le problème, pour les gens un sensibles comme nous, reste qu'il faut JS activé... et que ça semble un peu poilu à configurer...
Même chose pour goaway (https://git.gammaspectra.live/git/go-away) qui semble fonctionner comme un reverse proxy...
On faisait ça pour les anciens bots qui commentaient sur es blogs: en gros, un lien vers une page de ban de l'IP qui est rendue invisible via CSS: l'utilisateur ne le voyant pas, il n'y va pas... Seuls les BOTS, qui n'interprètent pas le CSS, le suivent et tombent dedans.

que je veuille une solution simple à installer en PHP qui permette de filtrer raisonnablement les bots en question...
Mais on peut bien sûr choisir de lutter, au prix d'un peu de charge serveur:
)Exemple de zip-bomb. (Votre serveur envoie 10 Mo, côté client ça se décompresse en 10 Go côté client. La plupart des bots qui scannent les sites web supportent la compression gzip et chargeront bien volontier ce fichier. Et comme ils sont mal développés, ils vont planter. (En principe, que vous développez un client http, il faut coder la quantité de données maximales de données que vous allez lire d'une requête http. Par exemple, il n'est généralement pas utile de charger plus de 20 Mo pour une image. Par défaut, ce n'est pas limité.) (via https://shaarli.zoemp.be/shaare/mx1lcg) Une autre manière de répondre aux bots, c'est d'envoyer les données, mais très lentement. Ça ne consomme que peu de ressources côté serveur, mais côté client il va attendre les données.
dd if=/dev/zero bs=1G count=10 | gzip -c > 10GB.gz
<?php
if (ipIsBlackListed() || isMalicious()) {
header("Content-Encoding: gzip");
header("Content-Length: "+ filesize(ZIP_BOMB_FILE_10G)); // 10 MB
readfile(ZIP_BOMB_FILE_10G);
exit;
}
?>


Donc, c'est un petit script PHP dont je préfère vous annoncer de suite qu'il s'agit plus d'une proof of concept que d'un truc à intégrer dans l'immédiat...
On gère la configuration par des constantes:
HEADER_CODE_FOR_BOTS, antibotai boutera le bot avec le header correspondant.REDIRECT_TO_URL peut contenir une URL de redirectionUSE_CONNECTION_FREQUENCY , USE_USERAGENT et USE_IP, s'ils sont à TRUE, vont déclencher les diverses détections correspondantes.POLLUTE_LENGTH (nombre de mots) qui, s'il n'est pas vide génère un texte de pollutionAfin de pouvoir contrôler l'efficacité du bouzin, il y a un fichier log (LOGFILE) ce qui m'a permis de voir que ça avait fonctionné pour quelques bots au moins:

Si une page de votre site redirige automatiquement vers une autre, antibotai peut penser qu'il s'agit d'un bot car la fonction is_too_quick_to_be_honest() va détecter deux accès trop rapides pour la même ip... Il m'a fallu adapter ce script pour le cas précis de ces redirections.
Je n'ai pas tout testé mais si le coeur vous en dit: de mon côté j'ai pas le temps: rien que pour TERMINER cet article -commencé il y a un moment - j'ai été interrompu pour : réparer un vélux, réparer une fuite de douche, couper les cheveux et préparer à manger... (en plus des interruptions diverses habituelles
)
Le zip est à récupérer là http://cdn.warriordudimanche.net/antibotai.zip
Il contient :

Pour toute personne voulant faire des plugins pour pluXML, j'ai mis à jour mon générateur de plugin: pour rappel, il sert à créer tous les fichiers et sous-dossiers préconfigurés selon vos choix.
Je ne m'étends pas plus, vu que je dois être le seul à utiliser ça, mais bon.
Au cas où,

Alors, là, j'ai pensé à idiocracy direct...


réalisé avec https://api.warriordudimanche.net/stamp/
«J'irai dormir en prison mais la tête haute»
oui, oui, ta gueule et avance... De toutes façon, la tête haute, même avec tes talonnettes...
Finalement, le karcher a fini par marcher... Bon, c'est pas tout ça mais il en reste plein: au suivant !
<link rel="stylesheet" href="http://warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});
Résumé : l'attribut contenteditable est une faille XSS en soi car il permet d'injecter une balise script.
Pour éviter ça, contenteditable="plaintext-only".
Et si on a besoin de texte enrichi, on laisse contenteditable="true" mais on sanitize...
<link rel="stylesheet" href="http://warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});