Comment vos amis sur Twitter peuvent abandonner votre anonymat

Comment vos amis sur Twitter peuvent vous donner votre anonymat

Lorsque vous naviguez sur Internet, les annonceurs en ligne suivent presque tous les sites que vous visitez, amasser une mine d'informations sur vos habitudes et vos préférences. Lorsque vous visitez un site d'actualités, ils peuvent voir que vous êtes un fan de romans de basket-ball, d'opéra et de mystère, et donc sélectionner des publicités adaptées à vos goûts.

Les annonceurs utilisent cette information pour créer des expériences hautement personnalisées, mais ils ne savent généralement pas exactement qui vous êtes. Ils observent seulement votre trace numérique, pas votre identité elle-même, et vous pourriez donc avoir l'impression d'avoir conservé un certain degré d'anonymat.

Mais, dans un document que j'ai co-écrit avec Ansh Shukla, Sharad Goel et Arvind Narayanan, nous montrons que ces enregistrements de navigation Web anonymes peuvent en fait souvent être liés à des identités réelles.

Pour tester notre approche, nous avons construit un site où les gens pouvaient donner leur historique de navigation aux fins de cette étude. Nous avons ensuite essayé de voir si nous pouvions relier leur historique à leurs profils Twitter en utilisant uniquement des données accessibles au public. Soixante-douze pour cent des personnes que nous avons essayé d'anonymiser ont été correctement identifiées comme les meilleurs candidats dans les résultats de recherche, et 81 pour cent étaient parmi les meilleurs candidats 15.

privacy2 2 8Captures d'écran du site de deanonymisation

C'est, à notre connaissance, la plus grande démonstration de la désanonymisation à ce jour, car il choisit l'utilisateur correct parmi des centaines de millions d'utilisateurs potentiels de Twitter. En outre, notre méthode nécessite seulement qu'une personne clique sur les liens apparaissant dans leurs flux de médias sociaux, pas qu'ils affichent du contenu - donc même les personnes qui font attention à ce qu'elles partagent sur Internet sont toujours vulnérables à cette attaque.

Comment ça marche

À un niveau élevé, notre approche est basée sur une observation simple. Chaque personne a un réseau social très distinctif, comprenant la famille et les amis de l'école, le travail et les différentes étapes de leur vie. En conséquence, l'ensemble des liens dans vos flux Facebook et Twitter est très distinctif. En cliquant sur ces liens laisse un signe révélateur dans votre historique de navigation.


Obtenez les dernières nouvelles d'InnerSelf


En regardant l'ensemble des pages Web visitées par un individu, nous avons pu sélectionner des flux de médias sociaux similaires, donnant une liste de candidats qui ont probablement généré cet historique de navigation sur le Web. De cette manière, nous pouvons lier l'identité réelle d'une personne à l'ensemble presque complet de liens qu'elle a visités, y compris des liens qui n'ont jamais été publiés sur un site de média social.

La mise en œuvre de cette stratégie implique deux défis majeurs. Le premier est théorique: comment quantifiez-vous la similarité d'un flux de médias sociaux spécifique à un historique de navigation sur un site donné? Un moyen simple consiste à mesurer la fraction de liens dans l'historique de navigation qui apparaît également dans le flux. Cela fonctionne raisonnablement bien dans la pratique, mais il surestime la similarité pour les grands flux, car ceux-ci contiennent simplement plus de liens. Nous prenons plutôt une approche alternative. Nous postulons un modèle stylisé et probabiliste de comportement de navigation Web, puis calculons la probabilité qu'un utilisateur ayant ce flux de médias sociaux génère l'historique de navigation observé. Ensuite, nous choisissons le flux de médias sociaux le plus probable.

Le deuxième défi consiste à identifier les flux les plus similaires en temps réel. Ici, nous nous tournons vers Twitter, car les flux Twitter (contrairement à Facebook) sont largement publics. Cependant, même si les flux sont publics, nous ne pouvons pas simplement créer une copie locale de Twitter sur laquelle nous pouvons exécuter nos requêtes. Au lieu de cela, nous appliquons une série de techniques pour réduire considérablement l'espace de recherche. Nous combinons ensuite des techniques de mise en cache avec des analyses de réseau à la demande pour construire les flux des candidats les plus prometteurs. Sur cet ensemble réduit de candidats, nous appliquons notre mesure de similarité pour produire les résultats finaux. Compte tenu d'un historique de navigation, nous pouvons généralement effectuer tout ce processus en moins de 60 secondes.

Notre méthode est plus précise pour les personnes qui naviguent sur Twitter plus activement. Quatre-vingt-dix pour cent des participants qui ont cliqué sur 100 ou d'autres liens sur Twitter pourraient correspondre à leur identité.

De nombreuses entreprises ont les ressources de suivi pour mener une attaque comme celle-ci, même sans le consentement du participant. Nous avons tenté de divanonymiser chacun de nos participants à l'expérience en utilisant uniquement les parties de leurs historiques de navigation qui étaient visibles par des sociétés de suivi spécifiques (parce que les entreprises ont des trackers sur ces pages). Nous avons constaté que plusieurs entreprises avaient les ressources nécessaires pour identifier avec précision les participants.

confidentialité 2 8Autres études de deanonymisation

Plusieurs autres études ont utilisé des empreintes de pas publiquement disponibles pour anonymiser des données sensibles.

Peut-être que l'étude la plus célèbre dans ce sens a été réalisée par Latanya Sweeney à l'Université Harvard à 2002. Elle a découvert que 87 pour cent des Américains étaient uniquement identifiables basé sur une combinaison de leur code postal, le sexe et la date de naissance. Ces trois attributs étaient disponibles dans les deux données publiques d'inscription des électeurs (qu'elle a achetées pour 20 en dollars US) et dans les données médicales anonymes (qui ont été largement distribuées, car les gens pensaient que les données étaient anonymes). En connectant ces sources de données, elle a trouvé les dossiers médicaux du gouverneur du Massachusetts.

En 2006, Netflix a lancé un concours améliorer la qualité de ses recommandations de films. Ils ont publié un ensemble de données anonymisées sur les évaluations de films des gens, et ont offert $ 1 millions à l'équipe qui pourrait améliorer leur algorithme de recommandation par 10 pour cent. Informaticiens Arvind Narayanan et Vitaly Shmatikov remarqué que les films regardés étaient très distinctifs, et la plupart des personnes dans l'ensemble de données étaient identifiables de manière unique sur la base d'un petit sous-ensemble de leurs films. En d'autres termes, en se basant sur les choix de films Netflix et les revues IMDB, les chercheurs ont pu déterminer qui étaient ces utilisateurs de Netflix.

Avec la montée des médias sociaux, de plus en plus de gens partagent des informations qui semblent inoffensives, mais révèlent en réalité beaucoup d'informations personnelles. Une étude menée par Michal Kosinski à l'Université de Cambridge a utilisé Facebook aime prédire les gens orientation sexuelle, opinions politiques et traits de personnalité.

Une autre équipe, dirigée par Gilbert Wondracek à l'Université de Technologie de Vienne, a construit une «machine de désanonymisation» qui a déterminé quels groupes faisaient partie du réseau social Xing, et l'a utilisé pour déterminer qui ils étaient - puisque les groupes dont vous faites partie sont souvent suffisants pour identifier toi.

Ce que tu peux faire

La plupart de ces attaques sont difficiles à défendre, sauf si vous arrêtez d'utiliser Internet ou de participer à la vie publique.

Même si vous arrêtez d'utiliser Internet, les entreprises peuvent toujours collecter des données sur vous. Si plusieurs de vos amis téléchargent leurs contacts téléphoniques sur Facebook et que votre numéro se trouve dans toutes leurs listes de contacts, alors Facebook peut faire des prédictions à votre sujet, même si vous n'utilisez pas leur service.

La meilleure façon de se défendre contre les algorithmes de deanonymizing comme le nôtre est de limiter l'ensemble des personnes qui ont accès à vos données de navigation anonymes. Les extensions de navigateur comme Ghostery bloquer les trackers tiers. Cela signifie que, même si la société dont vous visitez le site Web sait que vous êtes en train de leur rendre visite, les sociétés de publicité qui diffusent des annonces sur leur page ne pourront pas rassembler vos données de navigation et les regrouper sur plusieurs sites.

Si vous êtes un webmaster, vous pouvez aider à protéger vos utilisateurs en les laissant naviguer sur votre site en utilisant HTTPS. La navigation à l'aide de HTTP permet aux pirates d'obtenir votre historique de navigation en détectant le trafic réseau, ce qui leur permet d'effectuer cette attaque. De nombreux sites Web sont déjà passés au protocole HTTPS. Lorsque nous avons répété notre expérience de désanonymisation du point de vue d'un sniffeur de trafic réseau, seul 31 pour cent des participants a pu être anonymisé.

Cependant, il y a très peu de choses que vous pouvez faire pour vous protéger contre les attaques de désanonymisation en général, et peut-être que la meilleure chose à faire est d'ajuster vos attentes. Rien n'est privé à l'ère numérique.

A propos de l'auteur

Jessica Su, Ph.D. Étudiant à Stanford, L'Université de Stanford

Cet article a été publié initialement le La Conversation. Lis le article original.

Livres connexes

{amazonWS: searchindex = Livres; mots-clés = confidentialité en ligne; maxresults = 3}