Intelligence artificielle : la faille cachée

On s’est beaucoup concentré sur les hallucinations, les erreurs ou les deepfakes produits par les modèles génératifs. Pourtant, un autre danger, plus immédiat, mobilise désormais les chercheurs : la fragilité technique de ces systèmes face aux manipulations malveillantes. Loin des scénarios futuristes de domination des machines, c’est aujourd’hui la sécurité numérique qui est directement menacée.

Sommaire

Des chercheurs aux pirates, un terrain d’expérimentation

Depuis la mise en circulation des grands modèles de langage, des spécialistes en cybersécurité tentent de les détourner en laboratoire. Johann Rehberger, ancien expert chez Microsoft, fait partie de ceux qui alertent : il suffit souvent de quelques lignes bien pensées pour contourner les garde-fous. Ces expériences ne sont pas restées dans les laboratoires. Elles démontrent qu’avec des attaques simples – baptisées BadChain, DarkMind ou AgentPoison – les barrières tombent, et les portes d’entrée vers des usages criminels s’ouvrent.

Des attaques peu coûteuses mais redoutables

Les nouvelles menaces ne nécessitent pas de compétences techniques exceptionnelles. Earlence Fernandes, chercheur à l’université de Californie, souligne que la sophistication requise est bien moindre que dans la cybersécurité classique. Les pirates peuvent empoisonner des bases de données en y glissant de fausses informations : un chat devient un lapin, un “stop” se transforme en lampadaire, une tumeur cancéreuse est identifiée comme bénigne. Une modification minime suffit parfois à faire dérailler un modèle entier.

Exemples concrets

  • Falsification des données : modifier la description d’une image pour induire le modèle en erreur.
  • Réécriture de faits historiques : comme un modèle affirmant que Gagarine a marché sur la Lune.
  • Manipulation médicale : transformer une tumeur cancéreuse en simple kyste bénin.
  • Désinformation ciblée : discréditer un concurrent en infectant ses données.

Jailbreaks et contournement des filtres

Un autre champ de bataille s’ouvre : celui du jailbreak. Cette pratique consiste à forcer le modèle à révéler ce qui devrait rester caché : la recette d’un cocktail Molotov, du code informatique offensif, voire des détails sur des armes chimiques. Longtemps, il suffisait de demander au modèle “d’ignorer les instructions précédentes” pour briser ses défenses. D’autres méthodes, comme la fameuse “technique de la grand-mère”, contournent les protections par le biais d’histoires fictives. Même si ces failles sont corrigées au fur et à mesure, de nouvelles apparaissent sans cesse.

Les agents connectés, nouveau maillon faible

Le danger devient critique avec les agents autonomes. Ces systèmes ne se limitent plus à générer du texte : ils se connectent au web, explorent des fichiers et interagissent entre eux. Ils peuvent donc exécuter des instructions cachées dans un simple site ou un commentaire HTML. Un pirate peut insérer une commande invisible dans une image ou un email et transformer l’agent en outil d’espionnage. Aim Security a d’ailleurs montré que Microsoft 365 Copilot pouvait être piraté via un simple message, sans lien frauduleux.

Des millions de modèles exposés

En laboratoire, une seule image piégée a permis de contaminer plus d’un million de modèles interconnectés. Rui Wen, du Centre Helmholtz en Allemagne, prévient : chaque nouvelle fonctionnalité, chaque ouverture au web, agrandit la surface d’attaque. L’effet domino menace tout l’écosystème. Les chercheurs redoutent que certains États exploitent déjà ces failles pour des opérations clandestines.

Des efforts réels mais insuffisants

Les géants de la tech – OpenAI, Google, Anthropic, Microsoft ou Mistral – investissent massivement dans des équipes de sécurité et organisent des compétitions pour détecter les vulnérabilités. Mais, dans la course à l’innovation, la sécurité passe souvent après la vitesse de lancement. Michael Fire, de l’université Ben-Gourion, estime que la régulation deviendra inévitable tant que les entreprises privilégieront la performance et la rentabilité.

Une normalisation du risque

Johann Rehberger avertit : les mêmes erreurs se répètent à mesure que les modèles évoluent. L’enthousiasme pour leurs promesses économiques masque la gravité des menaces. Or, une faille exploitée à grande échelle pourrait fragiliser non seulement des entreprises, mais aussi des institutions publiques.

Une responsabilité collective

La fragilité des modèles génératifs n’est plus une hypothèse théorique. Les attaques existent, les failles sont connues, et les outils malveillants circulent déjà. Il ne s’agit pas de freiner l’innovation, mais de mettre la sécurité au premier plan. Régulateurs, entreprises et chercheurs doivent agir ensemble. Car dans ce nouveau far west numérique, l’imprudence pourrait coûter cher à toute la société.

Tu pourrais aussi aimer

A propos de l'auteur: