Casser les protections de l’IA est trop facile, et ces chercheurs le prouvent
Introduction : Une équipe de chercheurs en cybersécurité affirme avoir trouvé une méthode étonnamment simple pour contourner les protections censées empêcher les modèles d’IA de répondre à des demandes malveillantes. Leur outil prouve qu’un simple mot ou symbole peut parfois suffire à tromper les garde-fous les plus sophistiqués. Attention danger !.. Leur technique baptisée EchoGram vise directement les attaques de « prompt injection ». Il s’agit, pour schématiser, d’ajouter un texte malveillant aux instructions d’un modèle pour détourner son comportement. Le développeur Simon Willison la décrit comme une méthode consistant à « concaténer une entrée utilisateur non fiable avec un prompt de confiance ». Cela peut être direct (en entrant soi-même la commande), ou indirect (via une page web que l’IA analyse).