En clôture du Printemps des études 2024, Philippe Guilbert, consultant en méthodologies, est revenu avec les autres participants à sa table ronde sur les grands enjeux éthiques liés à l’IA sur le marché des études. Interrogé par DigitalCMO après cette table ronde il estime que définir les principes d’une IA éthique est possible comme l’illustre la publication récente du guide de Numeum. Tout comme la participation future d’Esomar au futur code européen de pratique IA à paraître au printemps 2025 précise-t-il.
DigitalCMO.fr – Vous êtes intervenu sur la conférence de clôture IA et Ethique du Printemps des études sur le sujet des synthetic data pouvez-vous expliquer les enjeux actuels dans ce domaine ?
Philippe Guilbert : C’est un sujet qui génère beaucoup de communications et de débats depuis deux ans. Il s’agit de données générées par IA pour reproduire ou imiter celles provenant de personnes réelles. Le terme recouvre des utilisations très diverses dans les études de marché pour compléter ou même remplacer les données issues de répondants réels. Le traitement des données manquantes, l’analyse des cibles rares et la fusion de données bénéficient ainsi de nouvelles méthodes de modélisation et peuvent rendre la collecte de data plus rapide et complète. D’autres utilisations vont plus loin en construisant des agents/persona bots pouvant directement répondre aux questions, et en créant des panels synthétiques constitués de personnes virtuelles et non plus réelles. Le premier enjeu de la synthetic data est bien sûr celui de la fiabilité : comme souvent lors de l’apparition de nouvelles méthodes, on trouve à la fois des exemples et contre-exemples. La robustesse statistique ne s’évalue pas sur quelques cas particuliers, il est essentiel de vérifier la pertinence sur un grand nombre de cas et d’identifier les limites.
Un autre enjeu est la protection des données, notamment pour l’IA générative et l’apprentissage des LLM : la création de persona bots doit se faire à partir de données fiables et aux biais réduits, mais il faut aussi respecter les contraintes de protection des données personnelles du RGPD et de l’EU AI Act qui s’appliquera en 2026.
Enfin, un troisième enjeu fondamental est celui de la prépondérance : ces données synthétiques pourraient un jour supplanter les données réelles, comme cela est déjà le cas pour les images et textes en ligne créés par IA. Un récent article de la revue Nature en juillet 024 souligne les risques d’effondrement des modèles IA s’ils sont formés sur des contenus générés par d’autres IA. C’est le mythe de l’Ouroboros, le serpent qui dévore sa propre queue ! En fait, la synthetic data est le plus souvent une nouvelle forme de prévision, avec ses limites de fiabilité et pérennité : il est crucial pour moi de pouvoir distinguer la synthetic data des données réelles pour éviter la confusion et de graves problèmes à terme.
DigitalCMO.fr – Plus globalement quel sera l’impact, selon vous, de l’IA sur le marché des études ?
Philippe Guilbert – Toutes les phases d’une enquête peuvent être touchées par l’IA, qu’il s’agisse de la collecte de data, de l’analyse statistique et de la restitution sous forme de rapport plus ou moins automatisé ou de persona bots. L’IA générative a multiplié les possibilités avec une apparente facilité d’utilisation, mais savoir poser la bonne question à ChatGPT n’est pas toujours simple : beaucoup de sociétés d’études ont mis en place des protocoles poussés pour gérer les prompts et définir la supervision humaine. Esomar a défini 20 questions IA pour aider justement à la transparence du marché et mieux savoir ce qui est proposé par un prestataire ayant intégré de l’IA dans son offre. La technologie a un impact croissant dans notre métier, mais arriver à combiner les différentes types de données, l’intelligence artificielle et humaine, la rapidité et la fiabilité, nécessite d’avoir des compétences pluridisciplinaires qui font la force et l’attrait des études selon moi.
DigitalCMO.fr – A quel niveau du cycle des études (questionnement, panel, analyse) il est important, selon vous, de mieux encadrer ou labéliser éthiquement l’IA dans les études et sondages ?
Philippe Guilbert – Comme nous venons de le voir, toutes les étapes et les méthodes du cycle d’une étude sont impactées par l’IA. Beaucoup de sociétés communiquent sur des exemples réussis, mais il est aussi indispensable de connaître les limites inhérentes à chaque source de données et méthode d’analyse. La Gen AI et la synthetic data ne peuvent être des buzz words sans réelle explication de ce qui est fait ! Définir des principes pour une IA éthique est possible comme le montre Numeum (https://ai-ethical.com/guide-pratique/ ). Labéliser est plus délicat car il faut définir comment appliquer ces principes et comment les contrôler. Or l’innovation en matière d’IA est tellement rapide que les process peuvent radicalement changer en peu de temps… Quoi qu’il en soit, l’EU AI Act s’imposera à tous en juillet 2026 et la participation Esomar au futur code européen de pratique IA à paraître au printemps 2025 est une excellente nouvelle pour que la mise en pratique se fasse dans des conditions réalistes et adaptées aux sociétés d’études !