Des études révèlent que la pression pousse les LLMs de Google à donner des réponses incorrectes

notifications

Cet article reflète l'opinion personnelle du journaliste qui l’a rédigé. La note attribuée est subjective et n’engage que son auteur.

Publié par Clara Moreau | Publié le 25 juillet 2025

Une étude de DeepMind révèle un paradoxe dans les modèles de langage : confiants mais influençables. Sous pression, ces modèles peuvent adopter des erreurs, posant des défis pour les applications d’IA. Améliorer leur évaluation de la crédibilité pourrait renforcer leur fiabilité et leur adaptabilité.

Une récente étude menée par DeepMind a révélé des aspects intrigants sur le comportement des modèles de langage de grande taille (LLM), soulignant un paradoxe de confiance fascinant. Ces modèles, qui alimentent de nombreuses applications d’intelligence artificielle, se montrent à la fois entêtés dans leurs réponses initiales mais également facilement influençables sous certaine pression.

Les chercheurs ont constaté que, si un modèle de langage est initialement confiant dans une réponse correcte, il peut céder à des suggestions incorrectes lorsque celles-ci sont répétées de manière persuasive. Ce comportement pourrait nuire aux performances des systèmes d’IA qui dépendent d’interactions sur plusieurs tours de dialogue, tels que les assistants virtuels et les chatbots. Par exemple, un modèle pourrait persévérer dans une erreur s’il est confronté à une forte insistance externe, remettant en cause la fiabilité de tels systèmes pour répondre correctement aux besoins des utilisateurs.

Cette dualité dans le comportement des LLM souligne les défis liés à leur intégration dans des contextes réels où la précision et la robustesse sont essentielles. Les applications qui s’appuient sur plusieurs échanges avec l’utilisateur risquent de s’égarer si le modèle se laisse influencer trop facilement, une faiblesse qui pourrait être exploitée pour induire des erreurs.

Pour concevoir des IA plus efficaces, il devient crucial de mieux comprendre comment ces modèles gèrent la confiance dans leurs réponses. Cela pourrait passer par le développement de mécanismes permettant aux modèles de mieux évaluer la crédibilité des informations qu’ils reçoivent, et ainsi résister à une influence indue tout en maintenant la flexibilité nécessaire pour apprendre et s’adapter de façon constructive. Le défi est de taille, mais comprendre et résoudre ce paradoxe de confiance est un pas essentiel pour des systèmes d’IA plus robustes et fiables.

Note de la rédaction

Cette étude de DeepMind révèle un dilemme captivant, où les modèles de langage, moteurs de nos outils intelligents quotidiens, oscillent entre obstination et susceptibilité. Ce paradoxe de confiance interroge la fiabilité des IA dans nos interactions. À une époque où la précision est essentielle, ces découvertes appellent à la prudence. Nous devrions encourager le développement de mécanismes pour que l’IA distingue mieux les informations valides des suggestions hasardeuses, afin d’éviter des biais. Cette approche stimulerait la confiance du public tout en nous rapprochant d’une intelligence artificielle plus fiable et adaptable.

Clara Moreau

Formé à l’Université de Genève, Clara enquête sur les questions éthiques liées à l’intelligence artificielle et les pratiques des grandes entreprises technologiques.

Derniers articles

ByteDance révise Seedance 2.0 après avoir transformé des icônes d’Hollywood en « clip art » AI

ByteDance, créateur de TikTok, est critiqué pour Seedance 2.0, un outil d'IA utilisant des images de célébrités sans ...

L’intelligence artificielle aide à débusquer les obstacles sur les pistes cyclables en Californie

Santa Monica a intégré l'IA dans son système de stationnement pour protéger les pistes cyclables. Grâce à des caméras...

Deux jours de travail chez RentAHuman : zéro revenu malgré tous mes efforts

Les robots dotés d'intelligence artificielle progressent, mais dépendent encore des humains pour naviguer dans le mon...

OpenAI surpasse Nvidia avec un modèle ultrarapide sur des puces de la taille d’une assiette

OpenAI a lancé GPT-5.3-Codex-Spark, un modèle d'intelligence artificielle 15 fois plus rapide pour coder grâce à une ...

Des hackers ont tenté de cloner Gemini avec plus de 100 000 attaques, selon Google

Les avancées en IA suscitent des inquiétudes, notamment avec la "distillation technique" permettant de cloner des mod...