IdentifiantMot de passe
Loading...
Mot de passe oubli� ?Je m'inscris ! (gratuit)

Vous �tes nouveau sur Developpez.com ? Cr�ez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et �tre connect� pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Cr�ez-en un en quelques instants, c'est enti�rement gratuit !

Si vous disposez d�j� d'un compte et qu'il est bien activ�, connectez-vous � l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oubli� ?
Cr�er un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Cloudflare retourne l'IA contre elle-m�me en d�ployant un labyrinthe sans fin de faits non pertinents
Pour lutter contre le scraping non autoris� de donn�es d'entra�nement d'IA comme ChatGPT

Le , par St�phane le calme

61PARTAGES

10  0 
Le fournisseur d'infrastructure web Cloudflare a annonc� une nouvelle fonctionnalit� appel�e � AI Labyrinth � qui vise � lutter contre le scraping de donn�es d'IA non autoris� en proposant aux robots un faux contenu g�n�r� par l'IA. L'outil tentera de contrecarrer les entreprises d'IA qui parcourent les sites web sans autorisation pour collecter des donn�es d'entra�nement pour les grands mod�les de langage qui alimentent les assistants d'IA tels que ChatGPT.

Cloudflare, fond�e en 2009, est probablement mieux connue comme une entreprise qui fournit des services d'infrastructure et de s�curit� pour les sites web, en particulier la protection contre les attaques par d�ni de service distribu� (DDoS) et d'autres trafics malveillants.

Au lieu de simplement bloquer les robots, le nouveau syst�me de Cloudflare les attire dans un � labyrinthe � de pages r�alistes mais non pertinentes, gaspillant ainsi les ressources informatiques du robot d'exploration. Cette approche constitue un changement notable par rapport � la strat�gie standard de blocage et de d�fense utilis�e par la plupart des services de protection des sites web. Cloudflare explique que le blocage des robots se retourne parfois contre eux, car il avertit les op�rateurs du robot qu'ils ont �t� d�tect�s.

� Lorsque nous d�tectons une exploration non autoris�e, au lieu de bloquer la demande, nous �tablissons un lien vers une s�rie de pages g�n�r�es par l'IA qui sont suffisamment convaincantes pour inciter un robot � les parcourir �, �crit Cloudflare. � Mais bien qu'il ait l'air r�el, ce contenu n'est pas r�ellement le contenu du site que nous prot�geons, de sorte que le robot d'exploration perd du temps et des ressources �.

L'entreprise affirme que le contenu servi aux robots est d�lib�r�ment sans rapport avec le site web explor�, mais qu'il est soigneusement sourc� ou g�n�r� � l'aide de faits scientifiques r�els, tels que des informations neutres sur la biologie, la physique ou les math�matiques, afin d'�viter la diffusion de fausses informations (il n'est toutefois pas prouv� que cette approche emp�che effectivement la diffusion de fausses informations). Cloudflare cr�e ce contenu � l'aide de son service Workers AI, une plateforme commerciale qui ex�cute des t�ches d'intelligence artificielle.

Cloudflare a con�u les pages et les liens pi�g�s de mani�re � ce qu'ils restent invisibles et inaccessibles aux visiteurs ordinaires, afin que les internautes ne tombent pas dessus par hasard.

Un pot de miel � de nouvelle g�n�ration �

AI Labyrinth fonctionne comme ce que Cloudflare appelle un � pot de miel de nouvelle g�n�ration �. Les pots de miel traditionnels sont des liens invisibles que les visiteurs humains ne peuvent pas voir, mais que les robots analysant le code HTML peuvent suivre. Mais Cloudflare explique que les robots modernes sont devenus habiles � rep�rer ces pi�ges simples, ce qui n�cessite une tromperie plus sophistiqu�e. Les faux liens contiennent des m�tadirectives appropri�es pour emp�cher l'indexation par les moteurs de recherche tout en restant attrayants pour les robots pilleurs de donn�es.

� Aucun �tre humain ne s'enfoncerait � quatre liens de profondeur dans un labyrinthe d'absurdit�s g�n�r�es par l'IA �, explique Cloudflare. � Tout visiteur qui le fait est tr�s probablement un robot, ce qui nous donne un tout nouvel outil pour identifier les robots malveillants et en prendre les empreintes �.

Cette identification alimente une boucle de r�troaction d'apprentissage automatique - les donn�es recueillies par AI Labyrinth sont utilis�es pour am�liorer en permanence la d�tection des bots sur le r�seau de Cloudflare, am�liorant ainsi la protection des clients au fil du temps. Les clients de n'importe quel plan Cloudflare (m�me le plan gratuit) peuvent activer la fonction en appuyant sur un simple bouton dans les param�tres de leur tableau de bord.


Utiliser l'IA g�n�rative comme arme d�fensive

Ci-dessous, un extrait du billet de pr�sentation de Cloudflare :

Le contenu g�n�r� par l'IA a explos�, et aurait repr�sent� quatre des 20 principaux messages sur Facebook l'automne dernier. En outre, Medium estime que 47 % de l'ensemble du contenu sur sa plateforme est g�n�r� par l'IA. Comme tout nouvel outil, l'IA a des utilisations merveilleuses et malveillantes.

Parall�lement, nous avons �galement assist� � une explosion des nouveaux crawlers utilis�s par les entreprises d'IA pour r�cup�rer des donn�es en vue de l'entra�nement des mod�les. Les crawlers d'IA g�n�rent plus de 50 milliards de requ�tes sur le r�seau Cloudflare chaque jour, soit un peu moins de 1 % de toutes les requ�tes web que nous voyons. Bien que Cloudflare dispose de plusieurs outils pour identifier et bloquer les robots d'IA non autoris�s, nous avons constat� que le blocage des robots malveillants peut alerter l'attaquant que vous �tes sur eux, ce qui conduit � un changement d'approche et � une course � l'armement sans fin. Nous avons donc voulu cr�er un nouveau moyen de contrecarrer ces robots ind�sirables, sans leur faire savoir qu'ils ont �t� contrecarr�s.

Pour ce faire, nous avons d�cid� d'utiliser un nouvel outil offensif dans la panoplie des cr�ateurs de bots, que nous n'avons pas vraiment vu utilis� de mani�re d�fensive : le contenu g�n�r� par l'IA. Lorsque nous d�tectons une exploration non autoris�e, au lieu de bloquer la requ�te, nous �tablissons un lien vers une s�rie de pages g�n�r�es par l'IA qui sont suffisamment convaincantes pour inciter un robot d'exploration � les parcourir. Bien qu'il ait l'air r�el, ce contenu n'est pas celui du site que nous prot�geons, ce qui fait perdre du temps et des ressources au robot d'exploration.

En outre, AI Labyrinth agit �galement comme un pot de miel de nouvelle g�n�ration. Aucun �tre humain n'irait chercher quatre liens dans un labyrinthe d'absurdit�s g�n�r�es par l'IA. Tout visiteur qui le fait est tr�s probablement un robot, ce qui nous donne un tout nouvel outil pour identifier et prendre les empreintes des mauvais robots, que nous ajoutons � notre liste de mauvais acteurs connus.

Comment nous avons construit le labyrinthe

Lorsque les robots d'indexation suivent ces liens, ils gaspillent de pr�cieuses ressources informatiques en traitant des contenus non pertinents au lieu d'extraire les donn�es l�gitimes de votre site web. Cela r�duit consid�rablement leur capacit� � recueillir suffisamment d'informations utiles pour former leurs mod�les de mani�re efficace.

Pour g�n�rer un contenu humain convaincant, nous avons utilis� Workers AI avec un mod�le open source pour cr�er des pages HTML uniques sur divers sujets. Plut�t que de cr�er ce contenu � la demande (ce qui pourrait avoir un impact sur les performances), nous avons mis en �uvre un pipeline de pr�-g�n�ration qui assainit le contenu pour �viter toute vuln�rabilit� XSS, et le stocke dans R2 pour une r�cup�ration plus rapide. Nous avons constat� que le fait de g�n�rer d'abord un ensemble diversifi� de sujets, puis de cr�er du contenu pour chaque sujet, produisait des r�sultats plus vari�s et plus convaincants. Il est important pour nous de ne pas g�n�rer de contenu inexact qui contribuerait � la diffusion de fausses informations sur Internet. Le contenu que nous g�n�rons est donc r�el et li� � des faits scientifiques, mais il n'est pas pertinent ou propri�taire du site explor�.

Ce contenu pr�-g�n�r� est int�gr� de mani�re transparente en tant que liens cach�s sur des pages existantes via notre processus de transformation HTML personnalis�, sans perturber la structure ou le contenu d'origine de la page. Chaque page g�n�r�e comprend des m�ta directives appropri�es pour prot�ger le r�f�rencement en emp�chant l'indexation par les moteurs de recherche. Nous avons �galement veill� � ce que ces liens restent invisibles pour les visiteurs humains gr�ce � des attributs et � un style soigneusement mis en �uvre. Pour minimiser encore l'impact sur les visiteurs r�guliers, nous avons veill� � ce que ces liens ne soient pr�sent�s qu'aux personnes soup�onn�es d'utiliser l'IA, tout en permettant aux utilisateurs l�gitimes et aux robots d'exploration v�rifi�s de naviguer normalement.


L'ampleur de l'exploration par l'IA sur le web semble consid�rable

Selon les donn�es de Cloudflare, les robots d'indexation g�n�rent plus de 50 milliards de requ�tes par jour sur son r�seau, soit pr�s de 1 % de l'ensemble du trafic web qu'elle traite. Nombre de ces robots collectent des donn�es sur les sites web pour entra�ner de grands mod�les de langage sans l'autorisation des propri�taires des sites, une pratique qui a donn� lieu � de nombreuses actions en justice de la part des cr�ateurs de contenu et des �diteurs.

Cette technique repr�sente une application d�fensive int�ressante de l'IA, qui prot�ge...
La fin de cet article est r�serv�e aux abonn�s. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer � vous proposer des publications.

Une erreur dans cette actualit� ? Signalez-nous-la !

Avatar de _toma_
Membre �clair� https://www.developpez.com
Le 24/03/2025 � 23:23
On l'avait tous anticip�. �a y est, la boucle est (officiellement) boucl�e.
1  0 
Avatar de smarties
Expert confirm� https://www.developpez.com
Le 25/03/2025 � 8:34
Pour lutter contre les robots, je pensais � la limite de requ�te par dur�e par IP mais ouvrir quelques pages cibles pour d�tecter un bot est une bonne id�e.
1  0 
Avatar de chourmovs
Futur Membre du Club https://www.developpez.com
Le 27/03/2025 � 3:44
Les donn�es int�ressantes ont d�j� �t� scrapp�es, les prochaines g�n�r�es par IA de toutes fa�on... bizarre
0  0 
Avatar de floyer
Membre �clair� https://www.developpez.com
Le 16/07/2025 � 20:59
Lorsque la presse critiquait l�indexation sans compensation de leur site� aucun ne mettait de directives robots.txt pour �viter d��tre index�, signe que c��tait gagnant-gagnant.

L�, c�est plus compliqu� si la copie du site est servie par l�IA, pas de publicit� directe� et se passer de l�indexation Google n�est pas sans inconv�nients.

Une redevance universelle poserait la question de la r�partition des revenus. Nombre de vue ? Mesur� par qui ? Comment �viter les vues artificielles. (On a d�j� des abus o� des faux artistes inondent Spotify pour r�cup�rer une rente). J�ai d�j� vu un wiki g�n�r� par IA (sans le mettre en avant), c��tait rempli de perles !
0  0