L’OPEN DATA DES DÉCISIONS DE JUSTICE OU LE MYTHE DE SISYPHE ?, K. Favro - Le Journal des accidents et des catastrophes

Oct 26 2020

Non

Karine Favro

Professeure de droit public à l’Université de Haute-Alsace,

Membre du CERDACC (UR 3992)

Des promesses des articles 20 et 21 de la loi n°2016-1321 du 7 octobre 2016 pour une République numérique relatifs à la mise en ligne et l’ouverture des décisions de justice, nous en attendons encore la mise en œuvre concrète par l’administration. Car les éditeurs privés et les LegalTechs en tête comme Predictice et Doctrine.fr, n’ont pas attendu l’application du dispositif pour offrir à l’utilisateur des services collaboratifs sur mesure à l’aide d’algorithmes auto-apprenants (N. de Jong, « État des lieux des legaltechs en France », JCP G., 28 octobre 2019, suppl., p.31). C’est ce que l’on qualifie d’intelligence artificielle (IA). Le terme créé par John McCarthy en 1927, est défini comme « toute activité intellectuelle peut être décrite avec suffisamment de précision pour être simulée par une machine ». Marvin Lee Minsky, qui lui a donné corps notamment avec Turing, parle de construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau pour imiter le comportement humain, dans le raisonnement, la compréhension des signes, d’autres capteurs, la commande d’un robot ou d’une machine. L’IA doit avoir les apparences de l’intelligence humaine étant à la croisée de l’informatique, de l’électronique et des sciences cognitives (Larousse).

L’objectif procède d’une analyse fine de la jurisprudence, du travail des juges et des auxiliaires de justice dans un contexte qui change d’échelle de temps et d’espace. Si à mémoire humaine des analyses sont réalisées dans telle ou telle juridiction depuis des décennies, le big data permet de corréler des masses de données en temps réel pour produire des statistiques à l’échelle d’un territoire pertinent qui se veut selon les cas, national, européen ou international. Ce que l’humain peine à réaliser par manque de données, de temps et de moyens, la machine le produit en temps réel certes, au prix d’approximations, de biais voire de discriminations en l’absence de quantités suffisantes de données. En réalité, les éditeurs ont démarché principalement et prioritairement les avocats en raison des gains générés, laissant les juridictions à l’écart de la démarche. La loi pour une République numérique permet d’une certaine manière de rétablir l’équilibre entre les professionnels du droit, en offrant des outils équivalents aux juridictions dans la perspective d’analyser à la même échelle le travail des avocats. Les pratiques professionnelles seront mises à nue pour harmoniser certains contentieux bien identifiés, dits répétitifs et de masse (ex : licenciement, prestation compensatoire, litige de voisinage, etc.) et idéalement permettre aux professionnels du droit de se concentrer sur des contentieux plus complexes et singuliers. Encore faut-il disposer de masses de données de qualité de manière à limiter les biais liés aux données d’entrée, et à la corrélation des données de sortie. Il s’agit là de l’enjeu de l’open data des décisions de justice se présentant comme un véritable défi normatif et technique exigeant l’adoption d’une construction cohérente entre les règles d’accès aux décisions et la réutilisation des informations contenues dans ces mêmes décisions.

L’enjeu est de taille car il peut remettre en cause la construction systémique des disciplines juridiques (A. Garapon, « Le devenir systémique du droit », JCP G 2018, 1016, spéc. n° 21). Le risque se matérialise par la perspective qui s’ouvre sur une justice prédictive probabiliste, apportant une assistance aux professionnels dans la prise de décisions et les stratégies juridiques, pouvant en contrepartie avoir des conséquences fâcheuses sur les emplois, la protection des libertés et de manière plus structurelle sur la façon de construire et de dire le droit. La corrélation ne saurait se confondre avec la causalité et le raisonnement déductif reposant sur des catégories juridiques (B. Dondero « Justice prédictive : la fin de l’aléa judiciaire ? », D. 2017, p. 532 ; A. Garapon, « Les enjeux de la justice prédictive », JCP G 2017, 48, spéc. nos 1-2., J. Dupre et J.-L. Vehe, « L’intelligence artificielle au service de la valorisation du patrimoine jurisprudentiel », Dalloz IP/IT 2017, n° 10, p. 500 ; L. Viaut, « Jugement humain et jugement scientifique : le raisonnement juridique par algorithme va-t-il transformer la vérité judiciaire ? », PA 21 septembre 2020, n°189, p.15). Ceci dit, le raisonnement algorithmique peut se concevoir également comme un complément utile au raisonnement juridique lui donnant matière à argumentation puisque le propre de la prédiction est de modéliser le passé pour décider dans le présent et produire des effets dans le futur (M. Aras, « Corrélation et causalité. De l’automatisme de la causalité juridique à l’autonomie de la corrélation algorithmique », RISEO, 2018-2, p.196 ; L. Viaut, « Le raisonnement juridique algorithmique », PA, 21 août 2020, n°167-168, p.7). Mais cette stratégie n’est pas innée et suppose l’acquisition rapide d’une culture de la donnée, à moins que ce ne soit trop tard… Le régime juridique de l’open data des décisions de justice, toujours en construction, n’a pas freiné l’intrusion des algorithmes en la matière et en appelle désormais à la mise en œuvre d’une régulation des acteurs du secteur.

L’open data suppose l’utilisation de logiciels libres. Pour éviter ces dérives et rendre le procédé acceptable, il faut disposer de quantités importantes de données « propres », complètes, élaborées ou collectées pour être réutilisées (N. Gosse, « La justice prédictive face aux exigences de sécurité et de qualité des données », Droit et Patrimoine, 1^er janvier 2020, p.298). En effet, il s’agit de rendre ces données aisément réutilisables par l’utilisateur, c’est-à-dire dans un format ouvert, et non « propriétaire ». Tel est le sens à donner à l’open data (K. Favro, « Open data : une révolution en marche. Introduction », Légicom, 1^er mars 2016, n°56, p.3). En clair, les logiciels libres sont visés, à tout le moins deux logiciels, celui spécifique à l’open data, ODbl (Open Database Licence, équivalent à une licence Creative commons CC-BY – SA : attribution – Partage à l’identique) ou celui mis à disposition par l’Etat, ou plus exactement par Etalab le service public de la donnée, à savoir Open licence (fonctionnant comme une licence Creative Commons CC-BY : Attribution). Les licences ont pour objet d’autoriser les utilisateurs à utiliser librement les jeux de données pour la seconde, tout en permettant le partage à l’identique entre les utilisateurs pour la première.

L’open data suppose la « neutralisation » des droits de propriété intellectuelle sur les bases de données des juridictions. Lorsque les bases de données sont protégées par des droits d’auteur, la licence a pour objet de céder ces droits. Certains États, principalement au sein de l’Union européenne, prévoient des droits spécifiques régissant les bases de données d’où l’importance d’une harmonisation à la fois sur la question des droits d’auteur, et plus largement de la mise à disposition de la donnée. A l’évidence le principe de gratuité est posé, car il s’agit d’une donnée publique, et l’obligation principale procède de l’intégrité de la donnée, a fortiori la donnée de justice couverte par le domaine public. La question des droits d’auteur concernerait alors les bases de données juridiques dont serait titulaire l’administration de la justice. Mais là encore, la loi pour une République numérique a eu pour effet de basculer en open source, par défaut, les logiciels produits par les administrations. Dès lors, le droit du producteur de base de données en ressort « neutralisé » et ne peut faire obstacle à la réutilisation d’informations publiques (v. sur ces questions, C. Caron, « République numérique rime avec exceptions et limitations au droit d’auteur », Com. Com. Elect., 1^er novembre 2016, n°11, p.28 ; V. Varet, « L’ouverture des informations publiques au regard de la propriété intellectuelle », Legipresse, 1^er mars 2016, n°336, p.148).

L’open data suppose l’existence d’informations publiques. Dans la mesure où il s’agit d’informations publiques, l’ouverture des données est envisagée par ailleurs dans le cadre de la Directive 2013/37/UE du Parlement européen et du Conseil, dite « PSI » (public sector information) sur la réutilisation des informations du secteur public du 26 juin 2013. Elle met l’accent sur la transparence par l’open data/gouvernement, la libre concurrence, et la gratuité de la mise à disposition des données de manière à créer de la valeur économique. La Directive 2019/1024 du 20 juin 2019 révisant la Directive du 26 juin 2013 prône, dans le sillage de la loi française du 28 décembre 2015, la gratuité de la réutilisation des documents mais permet le recouvrement des coûts marginaux occasionnés par, notamment, la reproduction ou l’anonymisation des données à caractère personnel. Elle interdit également les accords d’exclusivité. Les considérants de la Directive sont révélateurs des motivations liées au progrès des technologies numériques et à la stimulation de l’innovation numérique, notamment en ce qui concerne le développement de l’intelligence artificielle (IA) totalement « datavore ». La Commission européenne a pour objectif de construire un cadre juridique adapté dans le cadre du marché unique numérique afin de libérer la valeur économique de la donnée. L’open data n’est qu’une brique de l’édifice européen visant à garantir la libre circulation de la donnée non personnelle et à permettre à des données utiles hébergées en Europe d’être librement réutilisées (Règlement (UE) 2018/1807 du Parlement européen et du Conseil du 14 novembre 2018 établissant un cadre applicable au libre flux des données à caractère non personnel dans l’Union européenne). La valeur économique du marché de la donnée incite à l’investissement direct car de nombreux secteurs économiques dépendent en grande partie de la quantité de données traitées permettant ainsi aux PME et start-up d’accéder à de nouveaux marchés pour pouvoir offrir de nouveaux produits et services dits disruptifs, promouvant une « mise en système de la multitude » (Conseil d’État, Puissance publique et plateformes numériques : accompagner l’innovation, rapport annuel 2017, spéc. 1.1.1 « L’émergence du capitalisme de plateformes », expression tirée de l’ouvrage de N. Colin et H. Verdier, L’âge de la multitude. Entreprendre et gouverner après la révolution numérique, Armand Colin, 2015, 2e édition) car ces marchés sont totalement ouverts. C’est sans compter les bénéfices indirects d’une bonne politique d’open data, permettant à l’administration économiser jusqu’à 1,7 milliard d’euros, en améliorant leurs temps de réaction et en réutilisant les données des autres personnes publiques au lieu de multiplier les collectes parallèles et les gisements de données contreproductifs. La disponibilité des données, notamment financières, budgétaires, ou tout simplement juridiques pourraient permettre aux États membres de mieux contrôler le bon usage des deniers publics sans parler du développement des marchés parallèles comme la banque et les assurances. Les données de justice s’y inscrivent pleinement et sont l’enjeu d’un marché juteux détenu par des LegalTech français, mais jusqu’à quand ? La complexité technologique qui nécessite un important niveau de capitalisation, ne met pas les données de justice à l’abri de restucturation et de rachat des start-up par des plateformes étrangères. Cela pourrait avoir à terme deux effets collatéraux importants : la localisation des données de justice françaises au sein de datas center situés outre-atlantique et l’incapacité des acteurs français à préserver la compétitivité du secteur et par conséquent à financer l’innovation.

Les données de justice sont désormais des informations publiques. Pour autant, la réexploitation des données de la justice n’est pas neutre. D’ailleurs, les textes relatifs à la transparence administrative de la fin des années soixante-dix, avaient laissé volontairement de côté l’administration de la justice (autorité judiciaire) comme l’administration parlementaire (autorité législative). Seule l’administration dans sa fonction exécutive était notamment concernée par la loi n°78-753 du 17 juillet 1978 relative à l’amélioration des relations entre l’administration et les publics qui consacre la liberté d’accès aux documents administratifs. Les décisions de justice ne sont donc pas considérées comme des documents administratifs ce qu’atteste d’ailleurs la publication annuelle des décisions sur Légifrance largement sous-dimensionnée au regard des décisions effectivement rendues.

D’emblée, le régime d’accès aux documents administratif ne repose pas uniquement sur cette loi mais nécessite une lecture combinée de la loi n°78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés, et de la loi n°79-18 du 3 janvier 1979 sur les archives. Ces lois ont été largement amendées depuis lors, mais la logique, codifiée dans le Code des relations entre le public et l’administration, reste intacte et s’impose désormais aux données de la justice aspirées dans le cadre de l’open data au même titre que l’ensemble des documents administratifs. Leur ouverture est donc conditionnée par la mise en œuvre de principes souvent contradictoires, relevant tout à la fois de la transparence, du partage, de la protection et de la sécurité selon les cas, avec un impératif tout particulier : la qualité de la donnée. Cet impératif s’impose ab initio sous peine de dénaturer la fonction même de dire le droit et de porter atteinte à la sécurité juridique. Le législateur s’y est donc repris à deux fois…

Bis repetita. Annonçant l’ouverture des décisions de justice des juridictions judiciaires et administratives, et la réutilisation gratuite des informations publiques qu’elles contiennent dans le respect des articles L.321-1 à L.321-6 du CRPA, la loi pour une République numérique a conditionné le processus à la fois technique et juridique à la réalisation d’une analyse de risques préalable avec pour objectif d’assurer le respect de la vie privée de manière à éviter la réidentification des personnes ce qui implique soit d’anonymiser les données, soit de les pseudonymiser. L’entrée en vigueur du dispositif suspendue à l’adoption d’un décret en Conseil d’État en fixant les conditions d’application, a été repoussée aux calendes grecques. Pour autant, le décret n°2020-797 tant espéré est paru le 29 juin 2020 sur le fondement cette fois-ci de l’article 33 de la loi n° 2019-222 du 23 mars 2019 de programmation 2018-2022 et de réforme pour la justice.

Cette loi en modifie le régime de mise à disposition en essayant de remédier aux points de blocage des services de la justice : l’avènement d’une nouvelle justice se doit de respecter les droits fondamentaux de la personne et les principes procéduraux, qui respectent la fonction de juger et le temps de la justice. Or l’immédiateté des analyses algorithmiques a forcément une incidence sur l’impérium du juge ou plus exactement sur ses tendances propres à rendre la justice (M. Babonneau et T. Coustet, « Open data des décisions de justice : le casse-tête judiciaire du 21è siècle », D. Act., 10 janvier 2018).

Les moyens humains et matériels mis à disposition de la justice ne sont pas de nature à rassurer les juges, et l’ensemble des auxiliaires de justice y compris le justiciable, attaché à la présomption d’innocence et à l’examen des situations individuelles. La perspective de se trouver dans un univers semblable à celui de Minority report, où l’être humain est d’emblée condamné et dépassé par les algorithmes, laisse perplexe… Comment oublier par ailleurs que l’administration de la justice n’était pas informatisée il y a vingt ans de cela, et qu’elle a longtemps accusé un retard certain sur la dématérialisation de son activité et de ses actes (K. Favro, « La justice en ligne », Lettre mensuelle, du Guide Permanent Droit et Internet, Les Éditions Législatives, août 2002). En dépit de nombreux plans de « rattapage », les retards informatiques restent patents, sans parler plus simplement des retards dans la rédaction des jugements (P. Januel, « Un pas pour l’open data des décisions de justice », D. Actu., 3 juillet 2020).

Nécessité d’une régulation des algorithmes. Pour avancer, il aura donc fallu trois longues années de réflexion, la remise du rapport du Professeur Loïc Cadiet dédié à l’open data des décisions de justice à la garde des Sceaux le 9 janvier 2018 dans le cadre d’une mission d’étude de préfiguration de l’open data (composée de représentants des juridictions suprêmes, des juridictions du fond, de la Commission nationale de l’informatique et des libertés et du Conseil national des barreaux ), et l’adoption d’une nouvelle loi, non pas pour venir à bout du processus mais essentiellement prendre conscience des perspectives d’évolution de la justice.

Ce rapport pose très clairement les grands enjeux (connaissance de la jurisprudence – qualitativement et quantitativement – de s’intéresser à son caractère prévisible, automatique pour réaliser une analyse algorithmique de type prédictive, d’utiliser l’IA pour pseudonymiser les décisions de justice lorsque le big data sera constitué à cet effet) et formule des recommandations réalistes sur les effets de l’IA invitant à réguler les algorithmes qui exploitent les données issues des décisions. Il invite également à s’assurer de la protection des données à caractère personnel ainsi que de la vie privée des parties, et des personnels de justice mentionnés dans la décision ; de centraliser auprès des juridictions suprêmes la collecte et la gestion des données de manière à définir les principes directeurs de l’open data des décisions de justice (Mission d’étude et de préfiguration sur l’ouverture au public des décisions de justice, sous la dir. de L. Cadiet, http://www.justice.gouv.fr/publications-10047/rapports-thematiques-10049/remise-du-rapport-sur-lopen-data-des-decisions-de-justice-31165.html).

Si le dispositif juridique se construit brique par brique, il n’est pas suffisant pour prévenir les dérives et en appelle à la régulation des algorithmes utilisés pour le traitement des décisions de justice. Dans une déclaration commune, le vice-président du Conseil d’État, la présidente du Conseil national des barreaux et le président de l’Ordre des avocats au Conseil d’État et à la Cour de cassation, souhaitent la création d’un dispositif de régulation et de contrôle des algorithmes et plus exactement la désignation d’une autorité publique chargée de cette régulation de manière à respecter les cinq principes de la Charte éthique de la Commission européenne pour l’efficacité de la justice : respect des droits fondamentaux, non-discrimination, qualité et sécurité, transparence et maitrise par l’utilisateur (communiqué de presse du 6 juillet 2020). Les auteurs de la démarche justifient la mise en œuvre de la régulation dans le but de maintenir des équilibres institutionnels et de préserver le caractère humain de la justice, l’attachement au débat contradictoire, et la portée normative des décisions de justice. Aussi louable soit le procédé, il intervient tardivement car la mise en œuvre d’une régulation des algorithmes aurait dû précéder l’intervention du législateur à partir d’une démarche globale d’analyse de risques opérée par les hautes juridictions pour déterminer le rôle des parties prenantes.

Autrement dit, en mettant « la charrue avant les bœufs », cela peut donner l’illusion de maitriser un processus, pourtant désormais aux mains des algorithmes débridés par les LegalTechs. Mais ce que l’on peut souligner sans détour procède bien une fois encore, de l’absence d’anticipation des pouvoirs publics.

L’architecture de l’open data, une compétence nouvelle pour les hautes juridictions. Dans le prolongement de la mission Cadiet, le décret du 29 juin 2020 prévoit que le Conseil d’État et la Cour de cassation sont responsables de la mise à disposition du public des décisions de justice sous format électronique, relevant de leur ordre de juridiction dans les deux mois à compter de la date de la décision pour les juridictions administratives, et dans les six mois à compter de leur mise à disposition au greffe de la juridiction. Si la solution semble logique au regard du fonctionnement des ordres de juridiction et de la centralisation de la donnée, elle met l’administration de la justice face à ses propres dysfonctionnements et plus particulièrement ses usages. Pour les décisions de l’ordre administratif, le texte ne prévoit pas de restrictions car toutes les décisions sont concernées par la mise à disposition conformément à sa pratique qui ne distingue pas le contentieux du huis clos.

Il en va différemment pour les juridictions judiciaires qui ont toujours été plus frileuses créant de nombreuses exceptions parfois sans cohérence. Il y avait donc, d’emblée un travail d’harmonisation à entreprendre, réalisé dans le cadre de la loi du 23 mars 2019 excluant de la mise à disposition les débats et les jugements, en matière gracieuse, portant sur l’état et la capacité des personnes, la vie privée, le secret des affaires dans les conditions déterminées selon les cas par la loi ou par décret. Le décret précise que sont mises à disposition, les décisions rendues publiques et accessibles à tous, sans autorisation préalable. Celles soumises à autorisation peuvent l’être à condition de présenter un « intérêt particulier ».

Toutes les décisions de justice ne présentent pas d’intérêt. Le choix de la donnée est crucial pour donner du sens à l’open data. D’ailleurs, l’ouverture ne doit pas être perçue comme une nouvelle forme de publicité, ce n’est qu’un outil de mise à disposition qu’il ne faut pas juridiquement surestimer. Les délais prévus par la loi devront, quant à eux, être tenus ce qui renvoie cette fois-ci au fonctionnement même des juridictions. Par conséquent, l’open data s’appliquera aux décisions rendues à compter d’une date déterminée par arrêté et sera mis en œuvre de façon progressive par niveau d’instance et type de contentieux.

Par ailleurs, l’architecture de la mise à disposition des décisions de justice dans un format ouvert, devra être revue. Les deux Hautes juridictions disposent d’un service de documentation (le Centre de recherches et de diffusion juridiques du Conseil d’État, et le Service de documentation, des études et du rapport pour la Cour de cassation) et respectivement de bases de données : Jurinet et Jurica pour les décisions judiciaires et Ariane pour les décisions des juridictions administratives. Mais le traitement numérique des décisions entrepris dès 2016 y était « artisanal » d’où la nécessité non seulement de travailler sur des logiciels permettant un traitement plus massif des données de justice, ainsi que sur des interfaces de programmation applicative de manière à faciliter la réutilisation des données. C’est ainsi que les juridictions, avec le soutien actif de la Chancellerie, dans le cadre d’un projet piloté par la mission publique Etalab, ont investi dans des procédés d’automatisation conçus spécialement pour les juridictions (B. Pireyre, « Open data des décisions de justice : « plusieurs incertitudes affectent encore ce processus complexe », D. Actu, 28 novembre 2018). Outre les sites internet du Conseil d’État et de la Cour de cassation, le décret prévoit que la mise à la disposition du public des décisions de justice sera réalisée sur un portail internet placé sous la responsabilité du garde des Sceaux, ce qui exclut Legifrance et oriente le débat sur Justice.fr. Ce portail renverra vers les services du Conseil d’État et de la Cour de cassation afin que les justiciables puissent faire valoir leurs droits d’accès et de rectification en application de la loi Informatique et libertés. Il mentionnera les coordonnées des autorités auprès desquelles s’exerceront les demandes d’occultation ou de levée d’occultation, qui proposées à titre complémentaires, ne relèveront que des seuls chefs de juridiction.

La pseudonymisation des données à caractère personnel : la référence législative à l’occultation. La loi pour une République numérique imposait une analyse de risque de manière à éviter la ré-identification des personnes sans préciser les mesures de maitrise des risques à mettre en place. Pour les décisions de justice, c’est la pseudonymisation qui est envisagée et non l’anonymisation car les données ne perdent pas leur caractère de donnée personnelle. En effet, la pseudonymisation est un traitement de données à caractère personnel réalisé de façon à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires. Il s’agit de remplacer les données directement identifiantes d’un jeu de données par des données indirectement identifiantes par un numéro, un alias, etc. Les données à caractère personnel sont traitées sans que l’on puisse théoriquement ré-identifier les individus concernés sauf à utiliser des données tierces car la pseudonymisation est réversible. C’est pourquoi des données pseudonymisées demeurent des données à caractère personnel. Alors que l’anonymisation aboutit à la dépersonnalisation de la donnée car elle est irréversible (non personnalisation, non corrélation, non inférence) (https://www.cnil.fr/fr/lanonymisation-des-donnees-un-traitement-cle-pour-lopen-data). D’un point de vue sémantique, le législateur a fait le choix d’une terminologie débarrassée des aspects techniques, englobant à la fois la pseudonymisation et l’anonymisation. En effet, il fait référence à l’occultation.

La méthode d’occultation. Si l’anonymisation garantit une meilleure protection des données à caractère personnel, elle implique une déperdition d’informations trop importante au regard ce qui est déjà admis pour les informations publiques. C’est pourquoi, lorsque les administrations diffusent des documents contenant des données à caractère personnel, l’occultation préalable des éléments à caractère personnel est généralement une obligation qui s’impose à elles en application de l’article L. 312-1-2 du Code des relations entre le public et l’administration, sauf dans certains cas particuliers. La mission Etalab précise que « pour les documents qui contiennent des données non structurées, en particulier du texte libre, le curseur de la « quantité d’information » à retirer d’un jeu de données pour éviter tout risque de ré-identification est difficile à évaluer » (https://guides.etalab.gouv.fr/pseudonymisation/pourquoi-comment/#qu-est-ce-que-la-pseudonymisation). Pour les décisions de justice, sont retirés notamment les noms, prénoms, adresses, dates civiles (naissance, décès, mariage) des personnes physiques. D’autres catégories d’informations, comme les noms d’entreprises, la description de faits (dates et montants d’une transaction par exemple) pourraient permettre, en les recoupant avec d’autres informations, de ré-identifier une personne physique. Cependant, en retirant une quantité trop importante de catégories d’informations, l’appauvrissement du contenu est à craindre. Il y a donc un équilibre à trouver entre la minimisation du risque de ré-identification et la préservation de l’utilité des données qui rend nécessaire la réalisation d’une analyse de risques.

Cet équilibre suppose de penser la donnée de justice en fonction de sa ré-utilisation et pas seulement en fonction de sa production. En effet, juger de l’utilité de conserver ou non certaines catégories de données dépendra aussi des usages envisagés de ces données et de la décision d’espèce, d’où la possibilité offerte aux chefs de Cour de procéder à des occultations complémentaires. Ces mesures supplémentaires ont permis, par ailleurs, de rassurer les magistrats eux-mêmes dans une proportion qui a d’ailleurs cristallisé le débat, puisque le décret prévoit qu’il est possible d’occulter des éléments d’identification des personnes physiques (comme les parties, tiers, magistrats ou membres de greffe), en cas d’atteinte à leur vie privée ou leur sécurité, à la discrétion du juge ou du chef de juridiction. Ainsi, lorsque l’occultation concerne une partie ou un tiers, la décision est prise par le président de la formation de jugement ou le juge ayant rendu la décision. Lorsque l’occultation concerne un membre du Conseil d’État, un magistrat ou un agent de greffe de l’ordre administratif, la décision est prise, selon le cas, par le président de la section du contentieux du Conseil d’État, le président de la cour administrative d’appel ou le président du tribunal administratif. Enfin, en matière judiciaire, lorsque l’occultation vise un magistrat ou un membre du greffe, la décision est prise par le président de la juridiction concernée.

La crainte des magistrats et des greffiers s’exprime dans ce dispositif qui vise à limiter l’analyse des algorithmes à partir du nom des personnes ayant rendu les décisions. On voit bien de quelle manière de telles analyses pourraient conditionner leur carrière, par-delà les simples qualificatifs de « magistrat bienveillant » ou « sans empathie » desquels ils sont régulièrement affublés! La délivrance de copies aux tiers est envisagée à condition d’occulter le nom des parties ou des tiers. Il appartient au greffier d’y procéder préalablement à la remise de la décision. Il appartiendra aux avocats d’y veiller (N. Fricéro, « Open data et avocats : comment garantir les droits fondamentaux des parties ? » Procédures, n°10, octobre 2020, étude 23).

Les techniques d’occultation. Lorsque les données à caractère personnel sont contenues dans du texte libre, le ciblage des éléments à occulter est complexe. Cette tâche est chronophage car elle est réalisée par des agents qui ne sont pas nécessairement experts dans la matière traitée. L’automatisation de la tâche est envisageable par le traitement du langage naturel en remplaçant un terme prédéterminé par un autre ce qui peut se révéler également complexe en fonction du sens des mots. L’utilisation de l’IA pour automatiser la pseudonymisation de documents peut être également envisageable. L’utilisation de modèles supervisés sont des algorithmes qui prennent en entrée des données, représentant chacun des mots du document à pseudonymiser, et le label qu’on leur attribue est la catégorie sémantique à laquelle il se rattache : nom, prénom, adresse, etc. L’algorithme doit retrouver seul le bon label. Ceci dit, ce modèle ne peut fonctionner que si l’algorithme dispose d’une grande quantité de données brutes de qualité, évaluées par des datas scientists et annotées, pour disposer d’une base d’exemples corrects. Ces données sont traitées par des modèles de traitement du langage qui s’appuient sur des neurones profonds, de type deep learning, et qui requièrent des ressources dédiées et exigeantes (https://guides.etalab.gouv.fr/pseudonymisation/pourquoi-comment/#qu-est-ce-que-la-pseudonymisation).

De l’utilisation de modèles de machine learning pour amorcer une justice prédictive, à l’utilisation de modèles de deep learning (modèles de traitement du langage récents, basés sur des réseaux de neurones profonds) pour pseudonymiser les décisions de justice ; la boucle est bouclée… l’IA sera donc le moteur de la justice du XXIème siècle !

Publié dansSécurité