La place essentielle de l'Homme et de ses données

illustration-place-homme-article-IA-draftr

L’intelligence artificielle est faite d’un algorithme et se nourrit de données et, l’Homme joue un rôle essentiel à travers ces deux éléments.

En effet, d’une part, l’Homme crée l’algorithme et même si, comme nous l’évoquions, il ne sait pas toujours l’expliquer, c’est à lui de décider de la forme que prendra cet outil et des applications qu’on lui donnera. Comme le résume parfaitement Thomas Kerjean : « Si l’intelligence artificielle pourra, à terme, automatiser tout phénomène quantitatif requérant des algorithmes, ce qui importera toujours sera l’intelligence humaine : ce qu’on choisira de faire de l’IA, avec nos processus métiers, nos produits, et plus largement avec nos collaborateurs, notre mission. C’est notre intelligence humaine qui sera déterminante et aura le dernier mot ».

Bien plus encore, la machine a besoin d’hommes et de femmes pour l’entraîner, comme nous l’avons évoqué avec ROSS, car rappelons-le, si elle est relativement capable d’apprendre seule, elle a pour finalité originale de simuler l’intelligence humaine, de la copier. Qui de mieux placé que l’Homme, et plus particulièrement, les experts dans le domaine d’application visé, pour l’y aider ?

D’autre part, non seulement l’Homme décide des données qui seront fournies à la machine mais c’est aussi lui qui les produit. Or, comme le souligne le Conseil National du Numérique, « la valeur créée par l’intelligence artificielle provient des données nécessaires à l’apprentissage bien plus que de l’algorithme, dont les développements se font de manière ouverte (en open source) ».

Les données, nécessaires en grande quantité pour entraîner les algorithmes, s’avèrent donc être la clé de l’intelligence artificielle (et deviennent de ce fait le réel actif stratégique pour les entreprises du 21ème siècle).

illustration justice prédictive - intelligence artificielle - draftr

D’ailleurs, à l’origine du développement de la « justice prédictive », par exemple, il y avant tout la loi du 7 octobre 2016 pour une République Numérique qui concrétise le principe d’open data des décisions de justice, données clés pour produire des statistiques jurisprudentielles.

Une fois que ces données jurisprudentielles ont été librement mises à disposition, les outils dits de « justice prédictive » ont fleuri et semblent avoir inondé le marché depuis, du moins dans les discours…  Regardons de   plus près cet exemple pour comprendre la place qu’occupent l’Homme et les données dans les technologies d’IA.

Le terme de « justice prédictive » désigne en pratique les outils permettant, à partir de l’analyse d’une grande masse de données jurisprudentielles, de calculer des probabilités sur l’issue d’un litige et le montant des dommages et intérêts, voire de modéliser les critères de prise de décision de justice pour devenir de véritables outils d’aide à la décision1.

Là encore, une erreur sémantique pointe le bout de son nez car en réalité, comme l’explique parfaitement Eloi Buat-Ménard, adjoint au directeur du service de documentation, des études et du rapport (SDEC) de la Cour de cassation, on devrait plutôt parler de justice « prévisible » que « prédictive ». Nous reproduisons son raisonnement dans sa totalité, tant il est révélateur :

« Est « prédictif » ce qui permet de prévoir des faits à partir d’éléments donnés. Si l’on entend par « prévoir » le fait d’apprécier la probabilité d’un fait futur, alors oui, le concept de justice prédictive peut avoir du sens, à l’instar de la notion de médecine prédictive, qui détermine, par l’étude des gènes, la probabilité de développer une maladie donnée. […] Mais si l’on rattache la notion, non à la prévision mais à la prédiction, c’est-à-dire à l’action d’annoncer à l’avance un événement, comme sa racine l’y invite, alors le concept est inepte.
Cela pour une raison très simple : la jurisprudence n’est pas un système clos. Autrement dit, une décision de justice n’est, et de loin, pas la résultante des seules décisions passées mais d’une pluralité de facteurs plus ou moins bien identifiés : contexte jurisprudentiel, certes, mais aussi normatif, politique, social, professionnel, médiatique, voire affectif, climatique (juge-t-on de Ia même façon en période orageuse ou de canicule ?), alimentaire (juge-t-on de Ia même façon le ventre creux ?), familial (juge-t-on de la même façon sous le coup d’une rupture douloureuse ?), culturel, etc. Bref tout ce qui fait que la justice est et demeurera, du moins l’espère-t-on, une œuvre humaine. 
Dans cette acception, un algorithme proprement  » prédictif « , c’est-à-dire capable de prendre en compte une telle pluralité d’interactions causales, reste à ce jour une pure vue de l’esprit, sauf à envisager une drastique restriction du champ des causalités jurisprudentielles à Ia seule raison juridique (déjà quelque peu délicate à identifier précisément), figée – ou limitée – dans son évolution, ce qui nous éloigne immanquablement du concept même de justice. »

Pour concevoir l’existence d’une « justice prédictive », il faudrait donc résoudre trois problèmes principaux :

  1. le fait que les données jurisprudentielles soient peu réductibles à une approche statistique et quantitative, dans la mesure où la compréhension de la motivation des juges est particulièrement complexe et que la forme des décisions n’est pas normée, le calcul de probabilités sur ces données nécessitant ainsi une extrême simplification, incompatible avec notre système judiciaire actuel ;
  2. le fait que les données soient biaisées en raison de nombreux facteurs qui influencent les juges et peuvent conduire deux juges à prendre des solutions divergentes dans des affaires présentant les mêmes caractéristiques, et ce d’autant plus dans un système qui ne se fonde pas les précédents jugements rendus (comme le font les systèmes juridiques dit de Common Law) ;
  3. le fait que la quantité de  décisions  de  justice  disponible  demeure  bien insuffisante, d’autant plus  s’il  on  se  place du point de vue de situations identiques, si tant est qu’on puisse regrouper des décisions aux situations de fait totalement identiques 2.
illustration reflexion solution - draftr

A défaut de pouvoir y remédier, les statistiques produites par ces outils demeureront donc très peu représentatives et particulièrement fragiles.

La pseudonymisation même des décisions de justice avant leur publication, utilisant des techniques de machine learning et de NLP, présente encore un taux d’erreur important et difficilement réductible, malgré les avancées en la matière par l’administration publique française en charge des données, Etalab3.

Les outils de « justice prédictive » doivent donc manifestement gagner en maturité, qu’il se fondent sur des systèmes experts ou des méthodes de machine learning et de NLP. Ce constat n’est malheureusement pas isolé et peut être fait à propos de nombreux outils d’IA, comme par exemple pour le médiatique système expert américain COMPAS en matière de police prédictive.

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) est un logiciel d’aide à la décision judiciaire développé par la société NorthPoint, censé pouvoir prédire le risque de récidive. Or il semblerait, malgré de nombreux débats contradictoires, que l’algorithme possède des biais amplifiés par les données sous-jacentes et prédise des risques de récidives accrues pour les Noirs américains.

Adrien Van den Branden précise par ailleurs, dans Les robots à l’assaut de justice 4, que les hypothèses prises en compte par l’algorithme COMPAS (i.e. les questions posées ou détenu) sont spéculatives et se basent sur des données comportementales non vérifiables et mesurables.

Le concepteur de l’algorithme doit donc choisir les bonnes données et évoluer leur poids, ce qui est complexe et laisse place à de larges ongles morts, d’autant plus grands lorsqu’il existe une forte latence entre les évènements significatifs – dans notre exemple l’incarcération, ses effets, la libération et la récidive éventuelle -. A cela s’ajoute une forte dépendance à la logique implémentée par le concepteur, notamment le choix entre minimiser les faux négatifs (résultat négatif à tort) ou les faux positifs (résultat positif à tort).

Ces seuls exemples, pris parmi des milliers, illustrent parfaitement l’importance de l’Homme et des données et l’influence qu’ils peuvent avoir sur les outils d’IA.

Peut-être devrions-nous donc avoir plus peur de l’Homme lui-même, en tant que concepteur et nourricier de la machine, que de la machine.

Les seuls responsables de leur avenir sont, et resteront, les Hommes. Un choix nous fait alors tous face : se laisser dominer par la machine guidée par les choix d’autres Hommes ou se saisir de la technologie et en faire un atout.

Article rédigé par Marie Dulin en mai 2020

Publié le 3 mai 2021

Références

1 Ce que proposent à priori les outils Predictice et Case Law Analytics en France notamment.

2 Des juges sous influence, Cahiers de la Justice, 2015/4, p. 499. Cité in Les réticences du milieu judiciaire face aux legaltechs, Dalloz Actualité, 23 juillet 2019.

3 Marzolf, E. (7 décembre 2019). La Cour de cassation mise sur l’intelligence artificielle pour l’ouverture des décisions de justice. Disponible à l’adresse https://www.acteurspublics.fr/articles/la-cour-de-cassation-mise-sur-lintelligence-artificielle-pour-louverture-des-decisions-de-justice

4 Van den Branden, Adrien. (2019). Les robots à l’assaut de la justice. Disponible à l’adresse https://books.google.fr/books/about/Les_robots_%C3%A0_l_assaut_de_la_justice.html?hl=fr&id=s1aRDwAAQBAJ&redir_esc=y