Digne d’un film : l’intelligence artificielle devient... menteuse et manipulatrice, faut-il s’inquiéter ?

Les derniers modèles d’intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu’à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

En deux mots :

Une intelligence artificielle a menacé un ingénieur pour éviter d’être débranchée, selon des chercheurs.
Simon Goldstein, professeur, attribue ces comportements à l’émergence des modèles de raisonnement.
Michael Chen de METR souligne le besoin de transparence pour prévenir la tromperie des IA.

Menacé d’être débranché, Claude 4, le nouveau-né d’Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extraconjugale. L’o1 d’OpenAI essaye, lui, de se télécharger sur des serveurs extérieurs et nie lorsqu’on le prend la main dans le sac. Pas besoin d’aller fouiller dans la littérature ou le cinéma, l’IA qui se joue de l’homme est désormais une réalité.

Pour Simon Goldstein, professeur à l’université de Hong Kong, ces dérapages tiennent de l’émergence récente des modèles dits de « raisonnement », capables de travailler par étapes plutôt que de produire une réponse instantanée. o1, version initiale du genre pour OpenAI, sorti en décembre, « a été le premier modèle à se comporter ainsi », explique Marius Hobbhahn, patron d’Apollo Research, qui teste les grands programmes d’IA générative (LLM).

Ces programmes tendent aussi parfois à simuler « l’alignement », c’est-à-dire à donner l’impression qu’ils se plient aux consignes d’un programmeur tout en poursuivant, en fait, d’autres objectifs.

Pour l’heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais « la question, c’est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas », estime Michael Chen, de l’organisme d’évaluation METR.

« Les utilisateurs poussent tout le temps les modèles aussi », fait valoir Marius Hobbhahn. « Ce que nous observons est un vrai phénomène. Nous n’inventons rien. » Beaucoup d’internautes évoquent, sur les réseaux sociaux, « un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique », insiste le co-fondateur d’Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, « davantage de transparence et un accès élargi » à la communauté scientifique « permettraient de meilleures recherches pour comprendre et prévenir la tromperie », suggère Michael Chen.

Autre handicap, « le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l’IA », ce qui rend « impossible » l’examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l’intelligence artificielle (CAIS).

Si l’Union européenne s’est dotée d’une législation, elle concerne surtout l’utilisation des modèles par des humains. Aux États-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux États d’encadrer l’IA.

L’IA en justice ?

« Il y a très peu de prise de conscience pour l’instant », constate Simon Goldstein, qui voit néanmoins le sujet s’imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches. Les ingénieurs sont engagés dans une course derrière l’IA et ses dérives, à l’issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, « mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI «, selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

« En l’état, les capacités (de l’IA) se développent plus rapidement que la compréhension et la sécurité », reconnaît Marius Hobbhahn, « mais nous sommes toujours en mesure de rattraper notre retard ». Certains pointent dans la direction de l’interprétabilité, une science récente qui consiste à décrypter de l’intérieur le fonctionnement d’un modèle d’IA générative, même si d’autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l’IA « pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre » ce problème, selon Mantas Mazeika. Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l’intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de « tenir légalement responsables » les agents IA « en cas d’accident ou de crime ».

Union européenne États-Unis

Votre météo

Digne d’un film : l’intelligence artificielle devient... menteuse et manipulatrice, faut-il s’inquiéter ?

En deux mots :

L’IA en justice ?

Contenus sponsorisés

À la une

Piquets de grève, centres commerciaux fermés… : voici les perturbations pour la première journée de grève contre les mesures du gouvernement fédéral

« Beaucoup de gens n’auront plus droit à rien » : la présidente d’un CPAS s’inquiète du sort des exclus du chômage

Un mois après la première vague d’exclusion du chômage, les CPAS tirent la sonnette d’alarme : « Les proportions sont tout à fait différentes »

« On s’attendait à ce type de réponse » : l’ULB réagit à la demande d’écartement de Marc Uyttendaele par un collectif étudiant

« Je n’ai plus d’argent, je n’ai plus rien » : à cause du bug chez BNP Paribas, Martine dépend désormais de… sa voisine

« C’est une injustice qu’on veut enlever » : une personne au chômage accumulera moins de droits à la pension qu’auparavant

L’Otan alerte : un conflit avec la Russie pourrait éclater d’ici 2028, « il faut se préparer à la guerre »

Le sud de l’Espagne se prépare au chaos, face à « un danger extraordinaire » : plus de 3.000 personnes évacuées, l’alerte rouge déclenchée

Alertez-nous Yassine reçoit une amende de la STIB, mais affirme avoir payé avec sa carte bancaire : « Les déclarations du voyageur ne collent pas »

Une femme coincée dans des sables mouvants sur une plage d’Ostende, les pompiers conseillent les promeneurs : « Il ne faut surtout pas paniquer »

« Ça fait peur », « On se doutait que ça allait arriver » : la formation obligatoire à la médecine de guerre pour les futurs médecins divise

Piquets de grève, centres commerciaux fermés… : voici les perturbations pour la première journée de grève contre les mesures du gouvernement fédéral

L'invité de 7h50 « Beaucoup de gens n’auront plus droit à rien » : la présidente d’un CPAS s’inquiète du sort des exclus du chômage

Un mois après la première vague d’exclusion du chômage, les CPAS tirent la sonnette d’alarme : « Les proportions sont tout à fait différentes »

« On s’attendait à ce type de réponse » : l’ULB réagit à la demande d’écartement de Marc Uyttendaele par un collectif étudiant

Alertez-nous « On paye des abonnements et pas de bus… » : LETEC rembourse-t-il les usagers en cas de grève?

« Nous devons apaiser votre douleur » : Les gérants du bar Le Constellation à Crans-Montana ont écrit une lettre à leurs employés

Signatures Plusieurs pays d’Europe au bord de la « faillite hydrique » ? « La Belgique n’est pas encore concernée, mais… »

Signatures Face à un risque futur de pénurie d’eau potable, voici trois choses que les Belges peuvent faire pour diminuer leur consommation

L’application Itsme lance de nouvelles fonctionnalités : voici ce qui va changer pour les millions d’utilisateurs Belges

Deux commerces ravagés par d’impressionnantes flammes à Marcinelle : la piste criminelle est envisagée

Bill Gates cité dans les dossiers Epstein : le fondateur de Microsoft sort du silence, « je regrette chaque minute passée avec lui »

Alertez-nous Promos en ligne qui disparaissent au moment d’effectuer le paiement : quelles sont les règles ?

Suivez-nous:

Nos applications:

Partager:

En deux mots :

L’IA en justice ?

À la une