On dénombrerait plus de 180 biais différents, des biais de jugement, de raisonnement… dans le traitement statistique des données il existe, par exemple, des biais d’échantillonnage (collecte de données auprès d’un échantillon non représentatif).
De plus, la polysémie du mot biais est souvent source de confusion alors que la Commission européenne vient de publier un projet de régulation de l’IA. L’engouement autour de l’IA suscite aussi des questions nouvelles à propos des biais qu’elle pourrait porter.
Dans ce contexte les biais peuvent avoir plusieurs origines, principalement deux : l’humain et la composition des données utilisées.
Une tribune de Jean-Denis Garo, Head of Marketing, Golem.ai
Rechercher l’objectivité chez l’humain est vain.
Si les biais cognitifs ne sont généralement pas conscients, la source principale de biais reste donc l’humain, et ce quelque soit le type d’IA utilisée (symbolique ou connexioniste). C’est parce qu’ils sont écrits par des humains, eux -mêmes porteurs de biais et qu’ils répliquent ces biais, que les algorithmes peuvent être biaisés.
Vincent Berthet nous rappelle ainsi dans son ouvrage* que “les travaux expérimentaux de Daniel Kahneman et Amos Tversky ont donné corps au concept de rationalité limitée.” Ces deux psychologues nous expliquent comment l’humain produit des jugements en situation d’incertitude et, en particulier, comment des raccourcis cognitifs (heuristiques) biaisent son jugement. Circonstance aggravante dans le cas du machine learning, l’IA est souvent entraînée sur la base d’exemples connus, sélectionnés par un humain…
Pourtant une différence majeure existe entre les différents types d’IA : l’explicablité proposée par l’IA symbolique permet, elle, de débusquer les biais et de les corriger.
L’autre source de biais provient de l’essence même des données : le biais des données, ou GIGO (Garbage In, Garbage Out), ou comment des informations erronées donnent des résultats inexacts. Un risque lié au caractère de leur sélection, à leur cohérence, à leur pertinence, à leur actualisation, à leur quantité… qui sont autant de facteurs de biais.
Un danger, une menace ?
Dans son ouvrage “Algorithmes – La bombe à retardement” la mathématicienne et data scientist américaine Cathy O’Neil décrit une menace, appelant les algorithmes utilisés par l’intelligence artificielle des “armes de destruction mathématiques”.
Ce que dénonce surtout Cathy O’Neil**, ce sont les algorithmes de personnalisation, que l’on retrouve dans les “bulles de filtres” des médias sociaux. Ces dernières, combinées à la publicité ciblée, nous empêcheraient d’accéder à l’ensemble de l’information disponible pour nous enfermer dans nos certitudes.
D’autres biais sont dénoncés : les biais de discrimination. Ils sont souvent inconscients et difficilement repérables, ils constituent un des défauts du machine learning (du fait de l’entraînement via des exemples). Si les discriminations algorithmiques sont le plus souvent systémiques et non-intentionnelles, l’effet boîte noire et, de fait, l’absence de transparence favorisent la propagation et la multiplication de ces biais.
Des stress tests peu concluants
Ces dernières années ont vu proliférer les exemples de biais racistes, sexistes et même d’autres biais qualifiés de sociaux ou culturels. IBM, Microsoft et Face++ – qui proposent des produits de classification par genre – ont été choisis pour une évaluation par le “Gender Shades project”**.
L’étude a montré que les entreprises testées obtenaient de meilleurs résultats de reconnaissance faciale sur les hommes que sur les femmes, avec une différence de 8,1 % à 20,6 % dans les taux d’erreur. Elle montrait aussi de meilleurs résultats sur les personnes plus “claires” de peau dans leur ensemble que sur les personnes plus “sombres” dans leur ensemble, avec une différence de taux d’erreur de 11,8 % à 19,2 %.
La conclusion du projet était qu’une technologie d’analyse faciale pourrait être utilisée de manière abusive entre les mains de gouvernements autoritaires, d’adversaires personnels et d’entreprises prédatrices. En conclusion l’algorithme est corruptible !
Data poisoning et model poisoning : nouvelles menaces sur le machine learning
Le risque est sérieux, car la falsification des données d’apprentissage affecte la capacité du modèle à produire des prédictions correctes. On touche ici à l’intégrité même du modèle. C’est justement dans cette phase d’apprentissage, propre au machine learning, qu’agissent les hackers, en injectant de mauvaises données dans le pool d’entraînement, et par conséquent, en lui apprenant quelque chose qu’il ne devrait pas apprendre.
Le data poisoning a, lui, plusieurs visages : la modification de la donnée, la manipulation des labels ou des inputs et enfin l’injection de données.
Un autre risque est identifié, il provient des modèles pré-entraînés corrompus. Une fois le modèle infecté, il deviendra très compliqué voire impossible de corriger le modèle : les biais seront irréversibles et indissociables. Ces nouveaux risques plaident pour une meilleure transparence des pratiques.
Vers une IA éthique
La solution est à trouver dans l’IA symbolique. Cette approche de l’IA est transparente, car elle s’appuie sur du raisonnement plutôt que de l’approximation statistique. La question des biais est intrinsèquement liée à celle de l’explicabilité****. L’explicabilité c’est la capacité à expliquer le détail du processus de décision, c’est savoir aussi expliquer où et comment a été trouvé le résultat.
La transparence a pour résultat de permettre la description de l’objet de l’IA, sa logique et sa prise de décision de manière intelligible. Un sujet brûlant, alors que la commission européenne œuvre, en ce moment même, à un projet européen de réglementation de l’intelligence artificielle.
Sources :
*BERTHET, V. “L’erreur est humaine. Aux frontières de la rationalité.”2018, CNRS Editions, Paris.
**Le livre “Algorithmes, la bombe à retardement”, est sorti en 2016 aux Etats-Unis, la traduction française est disponible aux Arènes depuis 2018.
***http://gendershades.org/overview.html
****https://golem.ai/fr/blog/entreprise/IA-ethique-explicable