La Commission nationale de l'informatique et des libertés,
Saisie d'une demande d'avis sur un projet d'arrêté relatif à la création au sein de la direction générale de la concurrence, de la consommation et de la répression des fraudes (DGCCRF) d'un traitement de données à caractère personnel dénommé « Polygraphe » ;
Vu la directive (UE) 2016/680 du Parlement européen et du Conseil du 27 avril 2016 relative à la protection des personnes physiques à l'égard du traitement des données à caractère personnel par les autorités compétentes à des fins de prévention et de détection des infractions pénales, d'enquêtes et de poursuites en la matière ou d'exécution de sanctions pénales, et à la libre circulation de ces données, et abrogeant la décision-cadre 2008/977/JAI du Conseil ;
Vu le code de la consommation, notamment ses articles L. 121-2 et suivants, L. 521-2 et D. 111-16 ;
Vu la loi n° 78-17 du 6 janvier 1978 modifiée relative à l'informatique, aux fichiers et aux libertés, notamment ses articles 89-II et 31-II ;
Après avoir entendu le rapport de M. Philippe-Pierre CABOURDIN, commissaire, et les observations de M. Benjamin TOUZANNE, commissaire du Gouvernement,
Emet l'avis suivant :
Le projet d'arrêté soumis pour avis de la Commission a pour objet la création au sein du ministère de l'économie, des finances et de la souveraineté industrielle et du numérique (direction générale de la concurrence, de la consommation et de la répression des fraudes - DGCCRF) d'un traitement de données à caractère personnel dénommé « Polygraphe ».
La finalité de ce traitement est de permettre aux agents de la DGCCRF de vérifier que les avis déposés en ligne des consommateurs correspondent à la définition réglementaire prévue par à l'article D. 111-16 du code de la consommation. L'analyse d'impact sur la protection des données (AIPD) précise que le traitement collecte et analyse l'ensemble des avis concernant les professionnels, déposés sur les plateformes « Google Maps » et « Tripadvisor ».
Il vise à fournir aux agents de la DGCCRF des éléments permettant d'aider à l'engagement d'investigations à l'encontre de professionnels suspectés de recourir à des faux avis de consommateurs, pratique commerciale trompeuse susceptible de sanctions administratives et/ou pénales. La Commission remarque que l'exploitation des faits rapportés par des avis quant à d'éventuelles pratiques répréhensibles du professionnel n'est pas l'objet du traitement présenté.
Le projet d'arrêté est soumis à la Commission sur le fondement des dispositions des articles 89-I et 31-I-2° de la loi du 6 janvier 1978 modifiée (ci-après loi « informatique et libertés »), soit sous le régime prévu par la directive 2016/680 du 27 avril 2016 visée (ci-après directive « police-justice »), ce qui n'appelle pas d'observations particulières.
Le ministère a transmis une analyse d'impact relative à la protection des données (AIPD) avec la demande d'avis, conformément à l'article 90 de la loi du 6 janvier 1978 modifiée.
A titre liminaire, le projet d'arrêté prévoit la possibilité pour l'administration de collecter puis d'analyser, au moyen de traitements automatisés, l'ensemble des contenus librement accessibles publiés sur internet par les utilisateurs de certains opérateurs de plateformes en ligne mentionnées à l'article L. 111-7-I-2° du code de la consommation concernant les professionnels. Les professionnels visés sont ceux soumis au code de la consommation, à savoir, toute personne physique ou morale, publique ou privée, qui agit à des fins entrant dans le cadre de son activité commerciale, industrielle, artisanale, libérale ou agricole, y compris lorsqu'elle agit au nom ou pour le compte d'un autre professionnel.
La Commission s'est prononcée à plusieurs reprises sur de tels traitements, notamment par sa délibération n° 2019-114 du 12 septembre 2019 portant avis sur le projet d'article 9 du projet de loi de finances pour 2020 ou encore par sa délibération n° 2022-030 du 10 mars 2022 portant avis sur un projet de décret relatif à la mise œuvre par le pôle d'expertise de la régulation numérique (PEReN), placé sous l'autorité conjointe des ministres chargés de l'économie, de la communication et du numérique, de traitements informatisés et automatisés permettant la collecte de données publiquement accessibles mises à disposition du public par les opérateurs de plateformes.
De manière générale, la seule circonstance que les données soient accessibles sur internet n'autorise pas à les collecter et à les exploiter pour quelque finalité que ce soit. La licéité de chaque traitement doit être appréciée au cas par cas. De plus, la nature de tels traitements est susceptible de porter atteinte aux droits et libertés fondamentaux, dont la liberté d'expression et la liberté d'opinion. De telles atteintes ne peuvent être admises que si des garanties suffisantes sont prévues.
Les objectifs poursuivis par la DGCCRF, à savoir lutter contre les « faux avis » sur internet et améliorer l'efficience des contrôles de ses agents sont légitimes, et peuvent justifier que les avis librement accessibles puissent être traités. Le traitement envisagé consiste à analyser automatiquement l'ensemble des avis postés sur les deux principales plateformes, pour l'ensemble des professionnels.
Il est pris acte des garanties mises en œuvre par le ministère, telles que l'exclusion de toute décision de contrôle automatisée ou encore la séparation entre les services chargés du traitement envisagé et ceux chargés des enquêtes et de la collecte de preuve d'activités potentiellement frauduleuses. La Commission appelle toutefois à une vigilance particulière quant à l'application du principe de minimisation des données et de protection des données dès la conception.
En dépit des garanties prévues, la mise en œuvre de ce type de traitement témoigne d'un changement d'échelle significatif dans le cadre des prérogatives confiées à la DGCCRF pour l'exercice de ses missions. Il convient de faire preuve d'une grande prudence quant au développement de ce type de traitements informatisés permettant de collecter les contenus librement accessibles et publiés sur internet, eu égard à leurs potentielles conséquences importantes en matière de protection de données à caractère personnel.
De manière générale, la Commission constate un recours croissant par les acteurs publics aux outils permettant d'aspirer de manière massive et indifférenciée des contenus sur internet (« Webscraping »). Elle appelle le législateur à fixer un cadre général dans lequel les administrations pourraient, si nécessaire, recourir à de tels outils, afin de garantir un équilibre entre les missions des administrations et la protection des droits des individus.
En tout état de cause, la Commission estime, d'une part, que le traitement devrait être prévu par un décret en Conseil d'Etat, pour les raisons exposées ci-dessous. D'autre part, ce projet de traitement devrait faire l'objet d'une phase d'expérimentation qui permettrait de documenter tant la faisabilité de ce traitement que la pertinence des indicateurs retenus ainsi que les mesures mises en œuvre pour minimiser les données collectées. La phase de suppression des données sensibles et des données non pertinentes, argument important de la question de la proportionnalité de ce traitement n'étant en rien documenté à ce stade. Un bilan intermédiaire et un bilan final devraient être réalisés et communiqués à la CNIL selon le calendrier qui lui sera communiqué avec le projet de décret. Elle rappelle à cet égard que le bilan, prévu par la loi de finances pour 2020, de l'expérimentation de collecte de données personnelles sur les plateformes afin de lutter contre la fraude ne lui a pas été communiqué à ce stade et appelle à ce qu'il le soit rapidement.
Sur les caractéristiques du traitement Polygraphe :
Sur le principe de minimisation
Le dispositif se décomposera en quatre phases :
- tout d'abord, une phase d'extraction des données des plateformes concernées relatives aux pages des professionnels et de chaque utilisateur ayant posté un avis sur celles-ci. La collecte des données à caractère personnel sera réalisée par une technique d'aspiration du contenu des pages web via des scripts (« webscraping »). Cette méthode permettra de récupérer toutes les données disponibles pour chaque professionnel, notamment le texte complet de commentaires laissés à son sujet ;
- les données collectées feront ensuite l'objet d'une analyse afin de supprimer les données sensibles ;
- les données restantes seront analysées selon plusieurs critères prédéfinis tels que l'évolution de la note moyenne, la divergence des notes, ou encore la présence d'avis signalant de faux avis ;
- l'agrégation de ses critères permet d'obtenir un score global de suspicion par professionnel.
Les résultats obtenus seront visualisables par les agents habilités après authentification individuelle. Pour chaque professionnel, les agents habilités pourront voir le score global de suspicion ainsi que le score particulier pour chaque critère. L'AIPD précise que si, après analyse des avis, l'agent estime qu'il est en présence de faux avis, il pourra transmettre ces analyses au service concerné chargé de diligenter des enquêtes.
Le traitement envisagé permet la collecte d'un grand nombre de données de manière indiscriminée. Par ailleurs, le projet d'arrêté ne prévoit pas la limitation aux plateformes « Google Maps » et « Tripadvisor », que seule l'AIPD mentionne. Le ministère a indiqué ne pas envisager l'extension du traitement à d'autres plateformes à ce stade.
Le projet d'arrêté prévoit « la collecte, le traitement, et l'analyse d'avis en ligne ». Or, il s'agit en pratique non de collectes ponctuelles, en fonction des besoins d'agents instructeurs, mais d'une aspiration automatique de l'ensemble des avis d'une plateforme. La Commission demande que l'acte autorisant le traitement décrive cette caractéristique essentielle, qui en modifie la nature, et précise expressément qu'est autorisée la collecte automatique de l'ensemble des avis déposés sur les plateformes visées.
S'agissant des indicateurs permettant d'établir un score de suspicion de faux avis, la Commission rappelle la nécessité de mettre en place un protocole d'évaluation rigoureux pour en mesurer l'efficacité, analyser les éventuelles erreurs et biais. Aussi, la présence d'avis d'utilisateurs refusant de partager leur profil ne devrait constituer un indicateur de suspicion qu'à compter d'une proportion importante de tels avis sur la page d'un professionnel.
Au vu de la nature du traitement projeté, la Commission recommande que le traitement fasse l'objet d'une expérimentation et d'une évaluation approfondie des critères retenus (par exemple au sein du PEReN). Elle recommande également qu'un rapport d'expérimentation lui soit transmis pour avis, avant toute mise en œuvre effective du traitement. Ce rapport devrait viser à documenter notamment, comment les indicateurs retenus permettent de détecter de faux avis, la possibilité de privilégier des indicateurs mesurant le flux par opposition à l'analyse du texte des avis ainsi que la possibilité d'une suppression immédiate des données non pertinentes.
Sur les catégories de données concernées :
Le projet d'article 2-II énumère les catégories de données concernées par la collecte, à savoir, les données relatives aux professionnels, aux auteurs déclarés des avis y compris le texte des commentaires, ainsi que les données d'identification des agents habilités, de connexion et de journalisation.
Dans le cadre d'une collecte de données à caractère personnel librement accessibles, le responsable de traitement doit mettre en œuvre des moyens afin de s'assurer du respect des principes de minimisation des données et de protection des données dès la conception. En amont, des indicateurs et critères de pertinence doivent orienter et cibler la collecte afin de réduire l'extraction de données non pertinentes. A défaut d'avoir prévu les procédés techniques permettant d'opérer une distinction quant à la nature des données collectées, le ministère devra s'assurer de l'effectivité des mesures prévues dans la phase 2 de son traitement permettant de procéder à la suppression immédiate des données considérées comme non pertinentes.
En aval de la collecte et du traitement d'analyse automatique, l'outil « Polygraphe » offrira deux modes d'affichage aux agents. Le premier mode, dit de « ciblage de 1er niveau », permet un accès moins détaillé aux données en masquant notamment l'identité des contributeurs et le texte des avis. Il permet notamment la consultation du score global de suspicion. Le second mode, dit « ciblage de 2e niveau », permet l'accès à l'ensemble des données collectées relatives au professionnel ciblé, y compris l'identité des contributeurs et le texte des avis.
La Commission prend acte des mesures protectrices prises par le ministère afin de restreindre les accès abusifs à ce deuxième niveau, comme la formation des agents, l'avertissement dans le logiciel, ou encore la journalisation des actions d'accès ou de modification réalisées au second niveau de ciblage.
Sur le traitement de données sensibles :
En premier lieu, le traitement « Polygraphe » est susceptible de collecter des données sensibles dès lors qu'il n'est pas envisagé d'exclure certaines catégories de professionnels susceptibles d'aboutir à la révélation de données sensibles relatives à l'auteur de l'avis, comme par exemple un cabinet médical ou un commerce de fournitures confessionnelles. Or, l'article 88 de la loi « informatique et libertés » permet le traitement de données sensibles uniquement en cas de nécessité absolue au regard de la finalité poursuivie. La Commission a bien pris note que la phase 2 du traitement consistait à exclure les données sensibles de l'analyse. Elle regrette une nouvelle fois que le ministère ne se soit pas donné les moyens d'éviter de collecter de telles données, dès lors qu'il n'y aurait pas de nécessité absolue de les traiter au regard des missions poursuivies par la DGCCRF.
Conscient que la technique d'extraction du contenu d'un site web via des scripts (ou « webscraping ») est, par nature, susceptible de collecter des données sensibles mentionnées dans les champs libres des avis, le ministère s'est engagé à supprimer de telles données, si elles étaient collectées, dans un délai de cinq jours. La Commission constate que cette durée qui pourrait être ramenée à l'immédiateté, a été intégrée au projet de texte.
En deuxième lieu, le ministère considère que le traitement de données sensibles peut être autorisé par un arrêté dès lors que les données sensibles qui seront traitées sont manifestement rendues publiques par la personne concernée et qu'elles seront détruites dans un délai déterminé.
Or l'article 89 de la loi « informatique et libertés » dispose que si le traitement est mis en œuvre pour le compte de l'Etat pour au moins l'une des finalités énoncées au premier alinéa de l'article 87 (notamment de prévention et de détection des infractions pénales, d'enquêtes et de poursuites), il est prévu par une disposition législative ou réglementaire prise dans les conditions prévues à l'article 31 de cette loi.
Il résulte des dispositions du II de l'article 31 de la loi du 6 janvier 1978 que les traitements de données à caractère personnel mis en œuvre pour le compte de l'Etat, ayant pour objet la prévention, la recherche, la constatation ou la poursuite des infractions pénales, d'enquêtes et de poursuites et qui portent sur des données sensibles, mentionnées au I de l'article 6 de cette loi, doivent être autorisés par décret en Conseil d'Etat pris après avis motivé et publié de la Commission nationale de l'informatique et des libertés.
La Commission considère que le projet de traitement présenté ne peut être autorisé sur la base d'un arrêté.
Sur les opérateurs de plateformes visés :
L'article 1er prévoit que seront collectées les données « issues d'avis en ligne de contributeurs, avis librement accessibles et manifestement rendus publics ». L'AIPD précise que les plateformes concernées dans le cadre de l'outil « Polygraphe » seraient uniquement « Google Maps » et « Tripadvisor ». La Commission a pris acte de ce que le ministère n'envisageait pas d'élargir le périmètre des plateformes concernées et qu'un tel élargissement, s'il était décidé, ferait l'objet d'une information de la Commission. Outre le rapport d'expérimentation, la Commission recommande de réaliser un bilan du dispositif préalablement à tout élargissement, en particulier sur l'évaluation du score de suspicion de faux avis.
Le ministère indique mettre en place une série de garanties relatives à l'usage du présent traitement mentionnées dans l'AIPD. A cet égard, il est pris acte de l'absence de prise de décision automatisée, et de l'engagement du ministère de procéder à la formation des agents habilités afin notamment de limiter les biais de confirmation ou d'automatisation dans l'usage du traitement « Polygraphe ». La Commission recommandait et prend acte de l'engagement du ministère de préciser qu'aucune décision automatisée ne sera prise sur le fondement du présent traitement.
Sur les durées de conservation :
Compte tenu du volume important de données susceptibles d'être collectées et, plus particulièrement, d'informations se révélant potentiellement non nécessaires aux finalités poursuivies par le traitement, les données considérées comme non pertinentes devront être supprimées le plus rapidement possible à l'issue de leur collecte, et si possible immédiatement et automatiquement.
L'article 3 du projet d'arrêté indique que les données sont conservées pour la durée nécessaire à la réalisation d'une campagne de récupération et de leur analyse, sans que cette durée ne puisse excéder six mois. Le ministère indique par ailleurs que la durée de conservation n'est pas modulée en fonction du score global de suspicion des avis relatifs à un professionnel.
Dans la mesure où les professionnels dont les avis présenteront un score de suspicion nul ne seront pas accessibles aux agents de la DGCCRF, la Commission recommande de les supprimer dès que possible. Elle invite le ministère à préciser le projet de texte sur ce point.
Sur l'information et les droits des personnes concernées :
Une information générale sera affichée de manière pérenne sur le site web de la DGCCRF, conformément à l'exigence de l'article 104 de la loi « informatique et libertés » qui impose au responsable de traitement de « mettre à disposition » des personnes concernées cette information, de façon permanente et sans demande de leur part. La Commission insiste sur la nécessité de délivrer une information compréhensible par le plus grand nombre afin de permettre aux internautes de prendre conscience des conditions précises dans lesquelles ces données à caractère personnel sont susceptibles d'être collectées.
L'article 5 du projet d'arrêté prévoit que les droits d'accès, d'effacement, de rectification et à la limitation s'exercent auprès du référent protection des données de la DGCCRF. Il est rappelé que l'article 104 de la loi « informatique et libertés » impose la transmission, le cas échéant, des coordonnées du délégué à la protection des données ce à quoi le ministère s'est engagé. Il est pris acte de ce que le droit d'opposition des personnes physiques est écarté, conformément à l'article 111 de la loi « informatique et libertés ».
Sur les accédants et destinataires :
Aucun destinataire du traitement n'est prévu, ce dont la Commission prend acte. Les accédants aux traitements sont prévus à l'article 1er du projet d'arrêté, et la Commission prend acte de ce que seuls les agents habilités au sein de ces services pourront accéder au traitement.
Sur les mesures de sécurité :
Le ministère indique qu'une analyse automatisée des journaux, permettant notamment la détection de tentatives d'intrusion, pourrait être envisagée. La Commission recommande qu'une telle analyse automatisée soit mise en œuvre.
Par ailleurs, la mise en œuvre d'un traitement d'un grand nombre de données, eu égard à la sensibilité qu'il présente, nécessite que des garanties spécifiques soient prises afin d'assurer que le logiciel de collecte et d'analyse ne puisse procéder qu'au seul calcul d'un score de suspicion. Il doit être impossible de requêter le dispositif afin de tirer des données collectées d'autres informations et conclusions que celles décrites dans ce traitement.
Au regard de la nature et du volume de données concentrées, une vigilance particulière devra être apportée à la définition et au maintien d'un niveau de sécurité adapté.Liens relatifs
La présidente,
M.-L. Denis