Retour d’expérience IA
Ali Baba et les 40 PoC : huit histoires vraies pour sortir l’IA de la caverne
Dans beaucoup d’organisations, la caverne de l’IA est pleine de trésors. On y trouve des agents prometteurs, des assistants qui répondent vite, des tableaux de bord augmentés, des RAG qui brillent en démonstration, des notebooks bien rangés et des slides où tout semble déjà presque industrialisé.
Le problème commence rarement dans la caverne. Il commence au moment de sortir le trésor. Là où l’IA rencontre des clients, des données sales, des règles métier, des juristes, des utilisateurs pressés, des coûts d’exploitation, des logs, des incidents et une question simple : qui est responsable si la machine se trompe ?
Voici huit histoires vraies. Elles ne prouvent pas que l’IA ne marche pas. Elles rappellent plutôt une chose plus utile : un bon prototype ne vaut que si l’on sait le faire sortir de la caverne, sans casser la porte en chemin.

1. Air Canada : la porte que le chatbot a ouverte trop vite
Dans la caverne, le premier PoC avait une qualité très appréciée : il répondait vite. Un voyageur endeuillé lui demanda s’il pouvait obtenir un tarif de deuil après avoir acheté son billet. Le chatbot répondit avec aplomb. Oui, expliqua-t-il, il pourrait demander le remboursement de la différence après coup.
Sauf que la règle officielle d’Air Canada ne disait pas cela. Quand le client demanda ensuite le remboursement, la compagnie refusa. L’affaire finit devant un tribunal canadien, qui donna raison au passager : une entreprise reste responsable des informations fournies par son propre chatbot.
Le piège caché dans la caverne
Croire qu’un chatbot client est seulement une interface, alors qu’il devient une voix officielle de l’entreprise.
La leçon discrète : les réponses sensibles doivent être reliées à une source de vérité, avec des règles de refus, d’escalade et de traçabilité. Un assistant qui parle de remboursement, de droit, de garantie ou de conformité ne peut pas être traité comme une simple démonstration conversationnelle.
2. Google AI Overviews : le génie qui répondait même quand il ne fallait pas
Le deuxième PoC était ambitieux : il voulait répondre directement dans le moteur de recherche. Plus besoin de fouiller. Le génie lisait, résumait, conseillait. Puis vinrent les réponses absurdes qui firent le tour du web : ajouter de la colle à une pizza, manger des pierres, reprendre des plaisanteries ou des contenus satiriques comme s’il s’agissait de conseils sérieux.
Google a ensuite expliqué avoir ajouté des restrictions et ajusté le fonctionnement de ses AI Overviews. L’incident est intéressant parce qu’il touche un produit de masse : quand une réponse générative est placée au sommet d’une page de recherche, elle prend mécaniquement une autorité que le modèle n’a pas toujours méritée.
Le piège caché dans la caverne
Confondre capacité à produire une réponse et capacité à porter une réponse fiable devant des millions d’utilisateurs.
La leçon discrète : il faut tester les sorties faibles, les sources ambiguës, les contenus humoristiques, les cas rares et les réponses dangereuses. Le vrai sujet n’est pas seulement la qualité moyenne du modèle, mais le coût des mauvaises réponses en production.
3. Microsoft Recall : le trésor qui se souvenait de tout
Le troisième PoC avait quelque chose de fascinant : il promettait de retrouver ce que l’utilisateur avait vu ou fait sur son ordinateur. Pour y arriver, Recall devait capturer régulièrement l’écran et rendre cette mémoire interrogeable. Sur le papier, l’idée est puissante. Dans la réalité, elle a immédiatement soulevé des inquiétudes de sécurité et de confidentialité.
Microsoft a retardé le lancement initial de Recall en 2024 pour revoir la copie. Le cas est précieux parce qu’il ne s’agit pas d’une hallucination, mais d’un problème d’acceptabilité. Une fonctionnalité peut être techniquement brillante et pourtant trop intrusive, trop risquée ou trop mal comprise pour être lancée telle quelle.
Le piège caché dans la caverne
Prendre une prouesse technique pour une promesse utilisateur acceptable.
La leçon discrète : la sécurité, la privacy, les droits d’accès, l’effacement, l’audit et le consentement doivent être conçus avant la mise en production. Si ces sujets arrivent à la fin, ils ne sont plus des garde-fous : ils deviennent des freins d’urgence.
4. Deloitte Australie : le scribe aux sources fantômes
Dans la caverne, le quatrième PoC écrivait bien. Il produisait vite, structurait proprement et donnait l’impression d’avoir beaucoup lu. Mais un rapport livré au gouvernement australien par Deloitte contenait des erreurs attribuées à l’usage de l’IA, notamment des références inexistantes et une citation judiciaire fabriquée. Deloitte a accepté de rembourser une partie du contrat.
Ce cas est moins spectaculaire qu’un chatbot qui se trompe devant un client, mais il est plus proche de nombreuses organisations. L’IA entre souvent par la production documentaire : rapports, notes, synthèses, études, comptes rendus. C’est confortable, rapide, discret. Et c’est précisément pour cela que les erreurs peuvent voyager loin avant d’être vues.
Le piège caché dans la caverne
Accélérer la production sans renforcer la vérification.
La leçon discrète : un flux documentaire assisté par IA doit séparer rédaction, vérification et validation. Les citations doivent être vérifiées dans les sources primaires, les références testées, les passages critiques relus par une personne responsable.
5. Amazon Just Walk Out : la caverne sans caissier
Le cinquième PoC avait une promesse presque magique : entrer dans un magasin, prendre ses produits, sortir, et laisser la technologie faire le reste. Caméras, capteurs, vision par ordinateur, automatisation. Le nom disait tout : Just Walk Out.
En 2024, Amazon a confirmé retirer cette technologie de ses magasins Amazon Fresh aux États-Unis dans le cadre d’une refonte, au profit notamment de chariots connectés. Plusieurs analyses ont aussi souligné que le dispositif nécessitait beaucoup d’exploitation humaine en coulisses. L’automatisation était réelle, mais elle n’était pas la magie sans friction que l’histoire laissait imaginer.
Le piège caché dans la caverne
Vendre l’automatisation comme si elle supprimait l’exploitation, alors qu’elle la déplace souvent ailleurs.
La leçon discrète : il faut mesurer le coût complet d’un usage IA : supervision, corrections, support, temps humain caché, exceptions, maintenance, infrastructure. Un PoC peut être impressionnant et rester économiquement fragile.
6. McDonald’s et IBM : la commande qui n’entendait pas le monde réel
Le sixième PoC paraissait simple. Il suffisait d’écouter une commande au drive-thru et de la transmettre. Dans une salle de démonstration, c’est un scénario presque évident. Dans une voiture, c’est une autre histoire : bruit, accents, enfants, hésitations, changements d’avis, menus locaux, impatience, fenêtres ouvertes et phrases coupées.
McDonald’s a mis fin en 2024 à son test de prise de commande vocale avec IBM dans certains restaurants. L’entreprise n’a pas abandonné toute idée d’automatisation, mais ce test a rappelé une évidence que les PoC oublient souvent : le réel parle moins proprement que les jeux de démonstration.
Le piège caché dans la caverne
Tester un usage dans un monde trop propre, puis découvrir trop tard la variabilité du terrain.
La leçon discrète : les tests doivent intégrer les conditions réelles, pas seulement les parcours nominaux. Un bon dossier de passage en production doit contenir des exceptions, des cas absurdes, des erreurs acceptables, des erreurs inacceptables et un plan de reprise humaine.
7. Google Gemini Images : le gardien de l’équilibre qui réécrivait l’histoire
Le septième PoC voulait corriger un vrai problème : les modèles génératifs peuvent reproduire des biais. Mais en tentant de produire des images plus diverses, Gemini a généré des représentations historiquement incohérentes. Google a mis en pause la génération d’images de personnes le temps de corriger le système.
Le cas est utile parce qu’il ne se résume pas à « l’IA hallucine ». Il montre une erreur plus subtile : un garde-fou mal calibré peut devenir lui-même une source de distorsion. Corriger un biais ne consiste pas à ajouter une règle générale partout. Il faut comprendre le contexte.
Le piège caché dans la caverne
Installer un garde-fou global sans vérifier ses effets métier, historiques ou culturels.
La leçon discrète : la gouvernance IA ne doit pas être une couche abstraite posée sur tous les usages. Elle doit être testée par contexte, avec des exemples réels, des critères explicites et des arbitrages assumés.
8. Amazon Recruiting : le vieux parchemin qui choisissait les candidats
Le huitième PoC ne regardait pas vers l’avenir. Il lisait le passé. Amazon avait développé un outil de tri de CV entraîné sur des données historiques de recrutement. Le système a appris à reproduire certains biais présents dans ces données, notamment au détriment de profils féminins dans certains contextes. Le projet a été abandonné.
L’histoire est ancienne, mais elle reste l’une des meilleures pour parler d’IA en entreprise. Beaucoup de modèles promettent de prédire une décision future à partir du passé. Le problème est que le passé contient aussi les habitudes, les déséquilibres et les angles morts de l’organisation.
Le piège caché dans la caverne
Confondre données historiques et vérité objective.
La leçon discrète : avant d’industrialiser un modèle, il faut auditer ce que les données racontent vraiment : qui est favorisé, qui est invisibilisé, quelles variables servent de proxy, et quelles personnes paieront le prix d’une erreur.
Ce que les 40 PoC ont en commun
Ces histoires ne racontent pas toutes le même échec. Certaines parlent d’hallucination, d’autres de confidentialité, de biais, de coût d’exploitation, de tests trop propres ou de gouvernance documentaire. Mais elles ont un point commun : le PoC était plus simple que le monde dans lequel on voulait le livrer.
La caverne ne manque pas de trésors. Elle manque souvent de portes bien construites. Pour sortir un usage IA, il faut moins demander « quel modèle allons-nous tester ? » et davantage demander :
- Quelle décision l’IA influence-t-elle réellement ?
- Quelle source de vérité fait autorité ?
- Quels cas doivent être refusés, escaladés ou relus ?
- Comment mesure-t-on la qualité en production ?
- Quel est le coût d’une erreur ?
- Quel humain reprend la main quand la machine sort du cadre ?
- Quels logs permettront de comprendre l’incident ?
- À quel moment coupe-t-on la fonctionnalité si elle dégrade le service ?
La vraie clé de la caverne
Une démarche utile n’est pas une fabrique à démonstrations. C’est une chaîne de passage au réel. Elle doit organiser la veille, oui, mais aussi la sélection des usages, l’accès aux données, l’évaluation, la sécurité, l’intégration, l’exploitation et le retour utilisateur.
Les meilleurs prototypes ne sont pas forcément ceux qui impressionnent le plus vite. Ce sont ceux dont on sait expliquer le périmètre, les limites, les métriques, le coût, les garde-fous et la responsabilité. C’est moins spectaculaire dans une slide. C’est beaucoup plus solide au moment d’ouvrir la porte.
Sources
- WIRED – Air Canada Has to Honor a Refund Policy Its Chatbot Made Up
- The Guardian – Google to refine AI-generated search summaries after bizarre results
- TIME – Why Microsoft’s New AI Feature Has Prompted Major Privacy Concerns
- Associated Press – Deloitte to partially refund Australian government for report with apparent AI-generated errors
- Associated Press – Amazon is removing Just Walk Out technology from Fresh stores in the US
- Axios – Amazon’s no-checkout flop shows AI’s limits
- Axios – McDonald’s kills AI drive-thru ordering after snafus
- CNBC – Google pauses Gemini AI image generator after inaccuracies
- Reuters, repris par Investing.com – Amazon scraps secret AI recruiting tool that showed bias against women