BUSINESSINDUSTRIELes contributeursLes ExpertsMARTECHMEDIATECH

Analyse du scandale Facebook/Cambridge Analytica, et les milliers d’autres qui vont arriver

Par Mehdi Medjaoui, co-fondateur de Webshell et des conférences OAuth.io et APIdays.io.

La démocratie se joue désormais à 0.0057% des suffrages

Facebook a désigné le fichage de masse dans sa plateforme de manière programmatique

Des APIs bien trop permissives dès 2010 à cause de l’Open Graph

Le problème du partage des données personnelles : Quand c’est dehors, c’est dehors.

Mise en adéquation des niveaux d’autorisation et des besoins de l’application.

Limitation du niveau appels d’APIs (Rate limiting)

Limiter le nombre d’utilisateurs par application ( OAuth token) en attendant un audit de l’application ou de la société

Plus de transparence dans la validation des applications

Certifications et contrats ad hoc

La RGDP ne fera qu’en sorte que les gens honnêtes restent honnêtes

Les leçons à retenir pour chaque internaute

La démocratie en jeu via le numérique

Je n’ai pas peur du suffrage universel, on dira aux gens pour qui voter

disait Alexis de Tocquveille de retour de son voyage aux USA en 1831, après lequel il publiera De la Démocratie en Amérique. Il développe dans son livre l’idée de la tyrannie de la majorité, qui se base sur la règle décidée par le nombre et non par le juste. Cette idée était déjà développée par les pères de la nation américaine Thomas Jefferson à propos de la démocratie directe où une majorité de votants peut élire un démagogue plutôt que quelqu’un qui oeuvrerait pour tous les citoyens. Près de deux siècles plus tard, cette idée vient nous frapper avec le scandale Cambridge Analytica, cette société qui a profité des règles trop permissives du partage de données de Facebook pour collecter celles  de 50 millions d’américains et faire influer/basculer le vote démocratique en faveur de Donald Trump aux Usa et en faveur du Brexit en Angleterre.

Une élection se joue désormais à 0.0057% des suffrages

La suffrage universel aux USA est un suffrage indirect où l’on vote pour des grands électeurs. On peut donc gagner l’élection avec moins de votants au total mais mieux répartis sur le territoire, et dans ce cadre les élections américaines se jouent souvent à quelques états. Certains états sont Républicain en grande majorité et le resteront, comme le Texas, certains sont démocrates et le resteront, comme la Californie. Tout se joue sur les états en ballotage, qu’ils appellent les swing states. Et l’élection américaine de 2016 s’est jouée notamment  sur 3 états habituellement Démocrates qui sont passés Républicains et qui ont voté pour Donald Trump à la grande surprise de beaucoup. En effet, Trump gagne la totalité des grands électeurs de Pennsylvanie, Michigan et du Wisconsin avec respectivement à 44,292, 22,748, 10,704 votes d’avance, ce qui fait un total de 77,744 voix. 77744 sur 136 millions d’électeurs, cela fait 0,0057% du corps électoral, qui a fait toute la différence. Et si vous appreniez que c’est via Facebook qu’on leur a “dit” pour qui voter?

Dans son documentaire Unfair Game : Comment Trump a manipulé l’Amérique , Thomas Huchon révèle 9 mois avant le scandale comment une société d’influence et de traitement de la donnée Cambridge Analytica a aidé Trump a influencé le vote  dans les états où il y a avait un grand nombre d’indécis. Dans un monde où les modèles scientifiques abdiquent devant la quantité de donnée à disposition, celui qui maîtrise la donnée maitrise le jeu. C’est ce que Cambridge Analytica a fait, en exploitant les données  légalement mises à disposition par Facebook d’une manière très (trop) permissive.

Facebook a conçu le fichage de masse dans sa plateforme de manière programmatique

Facebook est un réseau social où les gens remplissent leur profils avec leurs données personnelles, cherchent leurs amis et communiquent avec eux, disent ce qu’ils aiment, partagent ce qui les intéressent. Le modèle d’affaires est simple. Facebook utilise toutes ses données pour vendre de l’audience ciblée et des espaces publicitaires. L’ironie est que chaque utilisateur travaille pour Facebook quelque part, en remplissant lui même les données que va monétiser la plateforme, comme ce Français qui a envoyé une facture à Facebook pour un montant de 350,000 dollars par rapport à son temps de “travail ».

Dans le même temps, pour devenir une plus grande plateforme avec un plus grand nombre d’interactions entre tous ses utilisateurs, Facebook a ouvert des interfaces  de programmation pour les développeurs qui leur permet d’accéder aux données des utilisateurs du réseau, que l’on appelle des APIs. Et avec ces APIs, il peuvent créer plus facilement des applications sur Facebook, comme des jeux, des applications sociales et toutes les applications que l’on peut connaître où il faut se connecter avec un Facebook connect

Des APIs bien trop permissives dès 2010 à cause de l’Open Graph

Quand on ouvre des API pour accéder à sa plate-forme, on va concevoir des interactions programmables et automatisées avec d’autres applications. Cela va permettre de grossir rapidement, en validant automatiquement les applications qui remplissent les critères de la plateforme. Mais si les critères sont trop ouverts? Alors, on automatise la mauvaise utilisation des données de ses utilisateurs par des tiers et c’est ce qui est arrivé à Facebook.

Entre 2007 et 2010, Facebook autorise les développeurs à accéder aux données des utilisateurs avec leur consentement. Vous savez, ces fameuses fenêtres qui s’ouvrent et qui vous demandent : “Autorisez vous cette application d’accéder à votre, nom, votre email, votre date de naissance et à publier sur votre mur Facebook”? Cela permet aux applications d’utiliser Facebook comme la plateforme d’identité numérique. Cela sert surtout à accéder en un seul clic de l’utilisateur à des données, sans avoir à lui demander à nouveau de tout taper, ce qui peut avoir des effets dissuasifs à l’inscription. (Et aussi de ne pas avoir à stocker les mots de passe des utilisateurs pour des raisons de sécurité)

Les données dont nous parlons qui étaient accessible étaient : vos actions, vos activités, votre date de naissance, vos check-ins, votre historique, vos événements, votre activité de jeux, Les coupes auxquels vous êtes inscrits, , votre ville, vos intérêts (vos like), les lieux que vous avez visités. Vos notes, votre présence en ligne, vos photos et les tags de vos photos, vos vidéos et les tags de vos vidéos, votre situation amoureuse, les relations que vous avez avec vos amis, votre religion, vos opinions politiques, vos abonnements, votre site web, votre historique de travail.., en gros tout ce que vous avez mis dans votre  section “a propos de moi” sur Facebook et vos interactions avec la plateforme.

Jusque là il y un alignement entre le consentement de l’utilisateur et le partage de ses données. C’est en 2010 que tout va changer et mener le scandale Cambridge analytica.

En 2010, Facebook va ouvrir encore plus sa plateforme aux développeurs d’applications avec une nouvelle technologie : l’Open Graph, et les APIs qui vont avec dont l’API Graph v1.0.

Cette nouvelle API permet d’obtenir de la part d’un seul utilisateur ses données avec son consentement mais aussi les données de tous ses amis. Donc si un utilisateur à 500 amis et autorise une application à accéder a des données, et que l’application demande l’accès aux données de ses amis en même temps, alors il peut au nom de ses 500 amis donner accès à l’ensemble à l’application. C’est une délégation de pouvoir que la très grande majorité des utilisateurs Facebook n’a jamais directement consenti en ajoutant quelqu’un en “ami”. Et nous avons tous un ami qui joue à des jeux additifs, ou qui fait des tests de personnalité sur Facebook et qui nous partagent le résultat dont on se fiche bien souvent. Et bien de 2010 à 2014, il se peut bien que cet “ami” ait partagé vos données en même temps que les siennes à un très grand nombre d’applications.

Et c’est ce qui s’est passé avec Cambridge Analytica. En produisant des jeux et des tests de personnalité sur Facebook durant la période 2010-2014 et en les promouvant sur la plateforme, 1 million de joueurs a accepté de partager ses donnés avec ces applications , ce qui a représenté au total 50 millions d’américains (et surement plus dans le monde). Et il y a des milliers d’autres Cambridge Analityca encore en action, dont seul Facebook connaît l’existence. Comme ce développeur d’application qui a lui seul avec un jeu Facebook avec des vaches, a stocké les données de 6 millions de personnes.

En 2014, Facebook décide d’arrêter cette ouverture massive de données pour redonner le pouvoir à l’utilisateur mais c’est trop tard, ce qu’ils avaient conçu a marché exactement comme ils le voulaient. Comme indiqué dans ce memo Facebook interne sorti dans la presse, Andrew Bosworth, lieutenant fidèle de Mark Zuckerberg, la croissance à tout prix est justifiée par le fait que ce ne sont pas les meilleurs produits qui gagnent la guerre commerciale, mais ceux que tout le monde utilise. Il faut donc gagner la guerre de l’usage, et c’est cette philosophie qui a poussé Facebook à programmer le laxisme dans le partage de données, pour ces interactions qui feront la différence, quels qu’en soit le prix plus tard. Alors via l’Open Graph Ils ont attiré les développeurs avec une quantité de donnée énorme mise à disposition, avec un consentement non direct des utilisateurs, qui a permis à Facebook de passer de 2010 à 2014 de 470 millions d’utilisateurs  à 1,3 milliards d’utilisateurs.

Une fois cette taille supercritique atteinte et la bataille gagnée contre les autres plateformes sociales, une fois la position de defacto monopole, ils ont décidé de fermer les vannes des données personnelles de la plateforme. Un peu comme la stratégie de Blitzscaling, mot-valise mélange de Blitzkrieg et Scaling développée par Reid Hoffman (fondateur de Linkedin) et Benchmark Venture (un des fonds d’investissement les plus puissant de la Silicon Valley). Cette théorie préconise de grossir suffisamment vite et fort quel qu’en soit le prix pour prendre des positions dominantes, et se rémunérer plus tard sur le monopole induit, ayant asséché tous les concurrents par les sommes investis et la guerre des prix et des offres. Car une fois que facebook a 1,3  milliards d’utilisateurs, ils ont la taille et l’argent pour soutenir le scandale et respecter la règle bien connue des startups : Ne demandez pas la permission, vous demanderez qu’on vous excuse plus tard “Ask for forgiveness, not for permission”. Et la dernière interview et les récents post de Mark Zuckerberg ressemblent bien a des excuses.

Dans le data-déluge, Facebook a défendu ses intérêts avant la vie privée des utilisateurs

Facebook s’est-il fait hacké par Cambridge Analytica? Non. Cambridge Analytica a t-il fait quelque chose d’illégal par rapport à Facebook ? Non. Cambridge Analytica a obtenu les données légalement et en accord avec les règles de la plateforme Facebook mais n’a juste pas respecté une partie des règles sur le stockage des données. Que peut faire Facebook maintenant ? Plus grand chose. Car le problème du partage des données personnelles  est que : quand c’est dehors, c’est dehors. Il n’y a pas de solution technique pour inverser.

Dans le monde numérique, quand des plateformes veulent programmer et automatiser leurs interactions avec leur écosystème de développeurs , elles publient en même temps que leurs APIs les Conditions d’utilisations qui vont avec, pour indiquer ce qui est autorisé et ce qui ne l’est pas. Vous le verrez souvent sous la forme “APIs Terms of Service” ou “Platform Guidelines” Dans ce document , vous trouverez ce que vous avez le droit de faire avec les données, si vous avez le droit de les stocker et combien de temps, si vous avez le droit de les exporter dans d’autres plateformes, si vous avez le droit de la modifier etc…selon les règles de la plateforme et la loi du pays en vigueur.

Après l’ouverture en 2010 et l’avalanche de données déversées dans son écosystème, Facebook a commencé d’abord  par protéger ses intérêts plutôt que ceux de ses utilisateurs en limitant le partage et l’utilisation des données des utilisateurs dans les réseaux sociaux concurrents. C’est ainsi qu’ils vont successivement limiter l’accès aux donnés de Facebook pour Twitter, Vine, et Google, mais pas pour tous les “Cambridge Analytica”

Par exemple en 2012 Facebook avait une politique de plateforme et d’APIs qui clamait :

Competing social networks: (a) You may not use Facebook Platform to export user data into a competing social network without our permission; (b) Apps on Facebook may not integrate, link to, promote, distribute, or redirect to any app on any other competing social network.

Ensuite Facebook va mettre à jour leurs conditions d’utilisation et adopter ce qu’ils appellent leur règle de réciprocité :

Reciprocity and Replicating core functionality: (a) Reciprocity: Facebook Platform enables developers to build personalized, social experiences via the Graph API and related APIs. If you use any Facebook APIs to build personalized or social experiences, you must also enable people to easily share their experiences back with people on Facebook. (b) Replicating core functionality: You may not use Facebook Platform to promote, or to export user data to, a product or service that replicates a core Facebook product or service without our permission.

Cela signifie que si vous ne permettez pas aux utilisateurs de votre site web ou applications ou réseau social de re-contribuer à l’expérience Facebook, ou bien si vous ne permettez pas à vos utilisateurs certaines fonctionnalités que Facebook offre, ou bien que vous copiez des fonctionnalités de Facebook, la plateforme vous coupera l’accès aux données.

A cause sûrement du nombre d’applications qui ont été créées dans la période 2010-2014 et  la quantité de données qui était en dehors de la plate-forme ( sans le consentement direct de la majorité des utilisateurs, obtenu de la part de leur “amis” Facebook) Facebook a décidé en 2014 comme dit plus haut d’arrêter ce data-déluge.

Facebook n’a plus aucun contrôle sur ces données et des milliers de sociétés comme Cambridge Analytica peuvent les garder sur des ordinateurs pendant plusieurs années, sans que Facebook ne le sache, et les utiliser comme agents dormants quelques années plus tard comme pour une élection présidentielle ou un referendum sur la sortie de l’union européenne. C’est pour ça que Facebook ne parle pas de hacking mais de breach of trust, car c’est uniquement la confiance envers Cambridge analytica qui a été trompée et abusée. Si de grands pouvoirs impliquent de grandes responsabilités, et comme l’a dit Mark Zuckerberg dans une récente interview, “Si nous (Facebook) ne sommes pas capables d’assurer votre vie privée sur Facebook, alors nous ne méritons pas de vous servir »

Le seul moyen de vérifier cela a été la délation d’anciens employés sur les pratiques de leur société, mais en l’état il n’existe pas de solution de retrait,  de blocage ou d’effacement de données une fois qu’elles sont en dehors de la plateforme. Un peu comme un secret que vous partagez à un ami. ?une fois qu’il est dit il est dit et il n’existe pas vraiment de solution pour l’empêcher de l’écrire sur un carnet, ou de le partager à quelqu’un sans votre consentement. Dans le droit du commerce, on a beau faire des contrats de confidentialité, on ne peut pas bloquer la confidentialité a priori. C’est uniquement a posteriori que l’on peut avoir les preuves des fuites et attaquer en justice. C’est pareil pour les données dans le monde numérique.

Facebook avait des solutions pour limiter le breach of trust

Pour limiter ce déversement de données personnelles, Facebook avait des solutions liées à ce que l’on appelle l’API management, c’est à dire la management de l’usage des Interfaces de programmation pour les applications tierces.

Il faut rappeler que Facebook n’avait que des possibilité de prévention, mais il n’existe pas de solutions techniques pour reprendre une donnée ou effacer une donnée une fois qu’elle est sortie du système. Donc les solutions suivantes ne sont que des solutions à suivre pour éviter ou limiter le problème, qui sont de bonnes pratiques en terme de sécurité : minimiser le risque, et limiter les dégâts en cas de problèmes.

Mise en adéquation des niveaux d’autorisation et des besoins de l’application.


Tout d’abord Facebook pouvait vérifier plus en amont les demandes liées aux données utilisateur des applications tierces

En effet à chaque fois qu’une application demande à accéder aux API de Facebook, elle déclare les données personnelles qu’elle va demander aux utilisateurs. Facebook se doit alors de vérifier que ces données sont en adéquation avec les besoins réels de l’application et ne doit pas par exemple demander accès à vos photos s’il n’y a pas d’intérêt dans l’application à les avoir. Cela peut prendre du temps et réduire l’instantanéité d’accès pour les développeurs et les freiner dans leur enthousiasme. Facebook fait cette vérification de manière quasi-automatique dans sa plateforme à cause nombre de demandes, ce qui n’aide pas identifier les fausses intentions et il suffit qu’une application se déclare : “test de personnalité” pour légitimement avoir accès à un grand nombre de données.  Mais c’est une première barrière.

Limitation du niveau appels d’APIs (Rate limiting)

Quand un développeur fait une application connectées aux APIs de Facebook, son application va faire des requêtes à chaque fois que des données sont demandées par ses utilisateurs et qu’elles se trouvent sur Facebook. Dans sa frénésie de croissance, Facebook autorisait de facto jusqu’à 100 million de requêtes par jour pour chaque application sans véritable garde fou. Il suffisait de passer les premières barrières

Limiter le nombre d’utilisateurs par application ( OAuth token) en attendant un audit de l’application ou de la société

En plus de limiter les appels d’API, Facebook peut aussi contraindre les applications à passer un audit une fois un certain nombre d’utilisateurs de l’application, disons 10,000 utilisateurs actifs. C’est à dire qu’une fois qu’une application dépasse les 10,000 jetons utilisateurs pour l’API (appelés aussi OAuth tokens). Cela peut réduire la vélocité de certaines applications dans l’écosystème Facebook de devoir passer un audit de l’application et de la société pour en vérifier la validité et la crédibilité, mais la validation des applications sur l’apple store prend parfois plusieurs semaines, et cela garantit une certaine qualité et un respect plus grand des conditions imposées par la plateforme.

Plus de transparence dans la validation des applications

Rendre testable publiquement les applications rendre publics les audits des applications et les données des audits. A l’opacité il faut répondre par de la transparence. Pour cela, Facebook devrait rendre les process d’audit de données publics (et donc potentiellement soumis à amélioration par la communauté et les utilisateurs) et rendre public les résultats de ces audits.

Certifications et contrats ad hoc

Facebook pourrait augmenter aussi son niveau de confiance dans ses développeurs partenaires en faisant des investigations plus poussées et signer des contrats plus engageants sur la mauvaise utilisation des données par rapport aux conditions de la plateforme. Ainsi Facebook aurait des recours légaux pour des audit technique aléatoires et impromptus à l’endroit de ses partenaires.

La RGPD fera en sorte que les gens honnêtes restent honnêtes

Le 25 mai prochain, sera mis en place au niveau Européen la RGDP (Réglementation Générale sur les Données Personnelles) va obliger toutes les sociétés qui détiennent des données personnelles de citoyens Européens à devoir les traiter dans un cadre légal plus respectueux.

Notamment :

  • Un consentement « explicite » et « positif » : les entreprises et organismes doivent donner aux citoyens davantage de contrôle sur leurs données privées.
  • Des principes de « protection des données dès la conception » et de « sécurité par défaut » : le règlement européen définit le principe de « protection des données dès la conception » (en anglais : Privacy by design) qui impose aux organisations de prendre en compte des exigences relatives à la protection des données personnelles dès la conception des produits, services et systèmes exploitant des données à caractère personnel. De plus, le règlement consacre la nouvelle règle de la « sécurité par défaut » qui impose à toute organisation de disposer d’un système d’information sécurisé

Dans ce cadre, Facebook n’aurait pas pu faire partager les données des amis de chaque utilisateur par le consentement d’un ami Facebook. Il aurait fallu que le consentement soit explicite pour chaque utilisateur.

  • Le droit à l’effacement (version allégée du droit à l’oubli) : la personne concernée a le droit d’obtenir du responsable du traitement l’effacement, dans les meilleurs délais, de données à caractère personnel la concernant et le responsable du traitement a l’obligation d’effacer ces données à caractère personnel dans les meilleurs délais pour 6 motifs (article 17).
  • Le droit à la portabilité des données personnelles : les personnes concernées ont le droit de recevoir les données à caractère personnel les concernant qu’elles ont fournies à un responsable du traitement, dans un format structuré, couramment utilisé et lisible par machine, et ont le droit de transmettre ces données à un autre responsable du traitement.
  • Profilage : toute personne a le droit de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l’affectant de manière significative de façon similaire (article 22 du règlement).

Chaque société qui ne respectera pas ces règles pourra avoir une amende allant jusqu’à 20 millions d’euros ou 4% du chiffre d’affaires mondial, et sera pris en compte le plus grand des deux chiffres. Mais encore une fois, ceci n’est que de la répression, et pour cela il faudra avoir accès aux ordinateurs de la société, ce qui représenterait pour Facebook près de 1 milliard d’euros d’amende aujourd’hui.

Mais les gens malhonnêtes pourront toujours avoir utiliser des sociétés écran dans des pays écran pour se cacher. Comme le dit le développeur du jeux de vaches cité plus haut :

“Not everyone cares about violating the Facebook terms of service.”

(Tout ne le monde ne se préoccupe pas de respecter les termes d’utilisation de Facebook)

Partager c’est donner

Mais soyons clairs, même si nous pouvons faire respecter le contrat légal, nous ne pourrons jamais récupérer les données en appliquant techniquementinformatiquement le contrat. C’est un peu comme quand vous partagez un secret avec un tiers dans une discussion hors ligne. Même si vous signez une close de confidentialité, ce tiers sera toujours capable de le partager aussi secrètement avec quelqu’un d’autre. Parce que les idées et les pensées sont  de libres parcours , et une fois que c’est partagé, vous ne pouvez pas le reprendre. S’il vous arrive de le découvrir, vous pouvez les poursuivre en justice, mais ce qui est sorti est sorti. Cela devrait nous rappeler la vigilance numérique et ce vieux proverbe arabe, généralement sur les mots que j’adapte aux données dans ce contexte: « Les données que vous gardez secrètes sont vos esclaves, les données que vous partagez sont vos maîtres« .

Le contributeur :

Mehdi Medjaoui est entrepreneur, ingénieur et organisateur d’événements technologiques. Il est le cofondateur de Webshell et des conférences OAuth.io et APIdays.io. Il est en train d’écrire un livre intitulé «Man Versus Software: The Great Substituion».

Retrouve-le sur Twitter et LinkedIn.

Découvrez WE, le nouveau media d'intelligence économique consacré à l'innovation en europe. Retrouvez les informations de plus de 4500 startups et 600 fonds d'investissements Pour en savoir plus, cliquez ici
Bouton retour en haut de la page
Share This