Comment le modèle de ciblage Facebook de Cambridge Analytica a vraiment fonctionné

Comment le modèle de ciblage Facebook de Cambridge Analytica a vraiment fonctionnéAvec quelle précision pouvez-vous être profilé en ligne? Andrew Krasovitckii / Shutterstock.com

Le chercheur dont le travail est au centre de la Facebook-Cambridge Analytica analyse de données et le tollé de la publicité politique a révélé que sa méthode fonctionnait beaucoup comme celle Netflix utilise pour recommander des films.

Dans un courriel, Aleksandr Kogan, chercheur à l'Université de Cambridge, a expliqué comment son modèle statistique traitait les données de Facebook pour Cambridge Analytica. La précision qu'il prétend suggère qu'il fonctionne à peu près aussi bien que méthodes établies de ciblage des électeurs basé sur des données démographiques comme la race, l'âge et le sexe.

Si confirmé, le compte de Kogan signifierait que la modélisation numérique utilisée par Cambridge Analytica était à peine la boule de cristal virtuelle quelques-uns ont réclamé. Pourtant, les chiffres fournis par Kogan montrer aussi qu'est-ce qui est - et n'est pas - réellement possible by combiner des données personnelles avec apprentissage automatique à des fins politiques.

En ce qui concerne une préoccupation publique clé, cependant, les chiffres de Kogan suggèrent que les informations sur la personnalité des utilisateurs ou "psychographie"Était juste une partie modeste de la façon dont le modèle ciblait les citoyens. Ce n'était pas un modèle de personnalité à proprement parler, mais plutôt un modèle qui démultipliait la démographie, les influences sociales, la personnalité et tout le reste en un gros morceau corrélé. Cette approche de la «saturation, de la corrélation et de l'appel de la personnalité» semble avoir créé un outil de campagne précieux, même si le produit vendu n'était pas tout à fait tel qu'il avait été facturé.

La promesse de ciblage de la personnalité

Dans la foulée des révélations que les consultants de la campagne Trump Cambridge Analytica ont utilisé les données de 50 millions d'utilisateurs de Facebook pour cibler la publicité politique numérique lors de l'élection présidentielle américaine 2016, Facebook a perdu des milliards en valeur boursière, les gouvernements sur les deux côtés de l'Atlantique souvent enquêtes ouvertes, et un naissant mouvement social appelle les utilisateurs à #DeleteFacebook.

Mais une question clé est restée sans réponse: Cambridge Analytica était-il vraiment capable de cibler efficacement les messages de campagne aux citoyens en fonction de leurs caractéristiques de personnalité - ou même de leur "?démons intérieurs, "Comme un dénonciateur d'entreprise allégué?

Si quelqu'un savait ce que Cambridge Analytica a fait avec ses données massives sur Facebook, ce serait Aleksandr Kogan et Joseph Chancellor. c'était leur démarrage Global Science Research qui a recueilli des informations de profil de 270,000 Facebook utilisateurs et des dizaines de millions de leurs amis en utilisant une application de test de personnalité appelée "thisisyourdigitallife".

Une partie de ma propre recherche se concentre sur la compréhension apprentissage machine méthodes, et mon prochain livre discute de la façon dont les entreprises numériques utilisent des modèles de recommandation pour créer un public. J'avais une idée du fonctionnement du modèle de Kogan et du chancelier.

J'ai donc envoyé un courriel à Kogan pour demander. Kogan est toujours un chercheur à l'Université de Cambridge; son collaborateur Chancelier travaille maintenant à Facebook. Kogan a répondu par une démonstration remarquable de courtoisie académique.

Sa réponse nécessite un déballage, et un peu d'arrière-plan.

Du prix Netflix à la «psychométrie»

De retour dans 2006, quand il était encore une entreprise de DVD par mail, Netflix offrait un récompense de 1 millions $ à tous ceux qui ont développé une meilleure façon de faire des prédictions sur le classement des films des utilisateurs que l'entreprise avait déjà. Un grand compétiteur surprise était un développeur de logiciels indépendant utilisant le pseudonyme Simon Funk, dont l'approche de base a finalement été intégrée dans toutes les entrées des meilleures équipes. Funk a adapté une technique appelée "décomposition de la valeur singulière, "Condenser les évaluations des utilisateurs de films dans un série de facteurs ou de composants - essentiellement un ensemble de catégories inférées, classées par importance. Comme Funk expliqué dans un article de blog,

"Ainsi, par exemple, une catégorie peut représenter des films d'action, avec des films avec beaucoup d'action en haut, et des films lents en bas, et par conséquent des utilisateurs qui aiment les films d'action en haut, et ceux qui préfèrent les films lents au bas."

Les facteurs sont des catégories artificielles, qui ne sont pas toujours comme le genre de catégories que les humains trouveraient. le facteur le plus important dans le premier modèle Netflix de Funk a été défini par des utilisateurs qui aimaient des films comme "Pearl Harbor" et "The Wedding Planner" tout en détestant des films comme "Lost in Translation" ou "Eternal Sunshine of Spotless Mind." Son modèle a montré comment l'apprentissage automatique peut trouver des corrélations entre groupes de des gens, et des groupes de films, que les humains eux-mêmes ne verraient jamais.

L'approche générale de Funk utilisait les facteurs les plus importants pour 50 ou 100, tant pour les utilisateurs que pour les films, afin de faire une bonne estimation de la façon dont chaque utilisateur évaluerait chaque film. Cette méthode, souvent appelée réduction de la dimensionnalité ou la factorisation matricielle, n'était pas nouvelle. Les chercheurs en science politique ont montré que techniques similaires utilisant des données de vote par appel nominal pourrait prédire les votes des membres du Congrès avec 90 précision pour cent. En psychologie, le "Grand cinq"Modèle a également été utilisé pour prédire le comportement en regroupant des questions de personnalité qui avaient tendance à être répondu de manière similaire.

Pourtant, le modèle de Funk était un grand progrès: il permettait à la technique de bien fonctionner avec d'énormes ensembles de données, même ceux avec beaucoup de données manquantes - comme l'ensemble de données Netflix, où un utilisateur typique n'évaluait que quelques dizaines de milliers de films. bibliothèque. Plus d'une décennie après la fin du concours du Prix Netflix, Méthodes basées sur SVDou modèles connexes pour les données implicites, sont toujours l'outil de choix pour de nombreux sites Web pour prédire ce que les utilisateurs vont lire, regarder ou acheter.

Ces modèles peuvent également prédire d'autres choses.

Facebook sait si vous êtes un républicain

Dans 2013, les chercheurs de l'Université de Cambridge Michal Kosinski, David Stillwell et Thore Graepel ont publié un article sur le pouvoir prédictif des données Facebook, en utilisant les informations recueillies grâce à un test de personnalité en ligne. Leur analyse initiale était presque identique à celle utilisée pour le prix Netflix, en utilisant SVD pour catégoriser les utilisateurs et les choses qu'ils "aimaient" dans les meilleurs facteurs 100.

Le document a montré qu'un modèle factoriel réalisé avec les "likes" Facebook des utilisateurs était seul 95 pour cent précis à distinguer entre les répondants noirs et blancs, 93 pourcentage exact à distinguer les hommes des femmes, et 88 pour cent précis de distinguer les personnes qui ont identifié comme hommes homosexuels des hommes qui ont identifié comme hétéros. Il pourrait même distinguer correctement les républicains des démocrates 85 pour cent du temps. Il était également utile, mais pas aussi précis, prédire les scores des utilisateurs sur le test de personnalité "Big Five".

Il y avait tollé en réponse; en quelques semaines Facebook avait rendu les goûts des utilisateurs privés par défaut.

Kogan et chancelier, également des chercheurs de l'université de Cambridge à l'époque, commençaient à utiliser les données Facebook pour le ciblage des élections dans le cadre d'une collaboration avec SCL, la société mère de Cambridge Analytica. Kogan a invité Kosinski et Stillwell à rejoindre son projet, mais n'a pas fonctionné. Kosinski aurait soupçonné Kogan et le chancelier pourraient avoir ré-ingénierie du modèle "j'aime" de Facebook pour Cambridge Analytica. Kogan a nié ceci, en disant son projet "construit tous nos modèles en utilisant nos propres données, recueillies en utilisant notre propre logiciel. "

Qu'ont réellement fait Kogan et Chancelier?

En suivant l'évolution de l'histoire, il est devenu clair que Kogan et le chancelier avaient effectivement recueilli beaucoup de leurs propres données grâce à l'application thisisyourdigitallife. Ils auraient certainement pu construire un modèle SVD prédictif comme celui présenté dans la recherche publiée par Kosinski et Stillwell.

J'ai donc envoyé un courriel à Kogan pour lui demander si c'était ce qu'il avait fait. Un peu à ma grande surprise, il a répondu.

"Nous n'avons pas vraiment utilisé SVD", écrit-il, notant que SVD peut se débattre lorsque certains utilisateurs ont beaucoup plus de "likes" que d'autres. Au lieu de cela, Kogan a expliqué: «La technique est quelque chose que nous avons nous-mêmes développé ... Ce n'est pas quelque chose qui est dans le domaine public.» Sans entrer dans les détails, Kogan a décrit leur méthode comme «une étape cooccurrence approche."

Cependant, son message continua à confirmer que son approche était en effet similaire à SVD ou à d'autres méthodes de factorisation matricielle, comme dans le concours Netflix Prize, et le modèle Facebook de Kosinki-Stillwell-Graepel. La réduction de la dimensionnalité des données Facebook était au cœur de son modèle.

Quelle était la précision?

Kogan a suggéré que le modèle exact utilisé n'a pas beaucoup d'importance, cependant - ce qui importe est l'exactitude de ses prédictions. Selon Kogan, la «corrélation entre les scores prédits et réels ... était autour de [30%] pour toutes les dimensions de la personnalité.» En comparaison, les scores précédents des Big Five d'une personne sont à propos de 70 à 80 pour cent précis en prédisant leurs scores lorsqu'ils repassent le test.

Les demandes de précision de Kogan ne peuvent être vérifiées de façon indépendante, bien sûr. Et toute personne au milieu d'un tel scandale pourrait avoir intérêt à sous-estimer sa contribution. Dans son apparition sur CNN, Kogan a expliqué à un Anderson Cooper de plus en plus incrédule que, en fait, les modèles n'avaient pas vraiment très bien fonctionné.

Aleksandr Kogan répond aux questions sur CNN.

En fait, l'exactitude que Kogan affirme semble un peu faible, mais plausible. Kosinski, Stillwell et Graepel ont rapporté des résultats comparables ou légèrement meilleurs, autres études académiques utiliser des empreintes digitales numériques pour prédire la personnalité (bien que certaines de ces études aient plus de données que Facebook "aime"). Il est surprenant que Kogan et le chancelier se donnent la peine de concevoir leur propre modèle exclusif si les solutions disponibles sur le marché semblent tout aussi exactes.

Fait important, cependant, la précision du modèle sur les scores de personnalité permet des comparaisons des résultats de Kogan avec d'autres recherches. Les modèles publiés avec une précision équivalente dans la prédiction de la personnalité sont tous beaucoup plus précis pour deviner les données démographiques et les variables politiques.

Par exemple, le modèle similaire SVD de Kosinski-Stillwell-Graepel était 85 pour cent précis dans l'estimation de l'appartenance à une partie, même sans utiliser d'informations de profil autres que les goûts. Le modèle de Kogan avait une précision similaire ou meilleure. Ajouter même une petite quantité d'informations sur les amis ou la démographie des utilisateurs augmenterait probablement cette précision au-dessus du pourcentage 90. Les suppositions concernant le genre, la race, l'orientation sexuelle et d'autres caractéristiques seraient probablement plus précises que 90.

De manière critique, ces suppositions seraient particulièrement bonnes pour les utilisateurs les plus actifs de Facebook - les personnes que le modèle était principalement utilisé pour cibler. Les utilisateurs ayant moins d'activité à analyser ne sont probablement pas sur Facebook de toute façon.

Quand la psychographie est principalement démographie

Savoir comment le modèle est construit aide à expliquer les déclarations apparemment contradictoires de Cambridge Analytica le rôle - ou l'absence de - que le profilage de la personnalité et la psychographie ont joué dans sa modélisation. Ils sont tous techniquement compatibles avec ce que Kogan décrit.

Un modèle comme Kogan donnerait des estimations pour chaque variable disponible sur n'importe quel groupe d'utilisateurs. Cela signifie qu'il serait automatiquement estimer les scores de personnalité Big Five pour chaque électeur. Mais ces scores de personnalité sont la sortie du modèle, pas l'entrée. Tout le modèle sait que certains goûts de Facebook, et certains utilisateurs, ont tendance à être regroupés.

Avec ce modèle, Cambridge Analytica pourrait dire qu'il s'agissait d'identifier les personnes ayant une faible ouverture à l'expérience et un haut niveau de névrose. Mais le même modèle, avec exactement les mêmes prédictions pour chaque utilisateur, pourrait tout aussi bien prétendre identifier des hommes républicains moins éduqués.

Les informations de Kogan aident également à clarifier la confusion quant à savoir si Cambridge Analytica effectivement supprimé son trésor de données Facebook, lorsque les modèles construits à partir des données semblent toujours circuler, Et même en cours de développement.

La ConversationLe but d'un modèle de réduction de dimension est de représenter mathématiquement les données sous une forme plus simple. C'est comme si Cambridge Analytica prenait une photo en très haute résolution, la redimensionnait pour qu'elle soit plus petite, puis supprimait l'original. La photo existe toujours - et tant que les modèles de Cambridge Analytica existent, les données le sont aussi.

A propos de l'auteur

Matthew Hindman, professeur agrégé des médias et des affaires publiques, Université George Washington

Cet article a été publié initialement le La Conversation. Lis le article original.

Livres connexes

{amazonWS: searchindex = Livres; mots-clés = confidentialité en ligne; maxresults = 3}