Que sont les vidéos Deepfake et la détection de leur clignotement d'un oeil

Une nouvelle forme de désinformation devrait se propager dans les communautés en ligne à mesure que les campagnes électorales à mi-parcours de 2018 se développent. Appelé "deepfakes" après le compte en ligne pseudonyme qui a popularisé la technique - qui a peut-être choisi son nom parce que le processus utilise une méthode technique appelée «apprentissage en profondeur» - ces fausses vidéos sont très réalistes.

Jusqu'à présent, les gens ont utilisé des vidéos deepfake dans pornographie et satire pour faire croire que des gens célèbres font des choses qu'ils ne feraient pas normalement.

Mais c'est presque certain Deepfakes apparaîtra pendant la saison de campagne, prétendant représenter des candidats dire des choses ou aller des lieux le vrai candidat ne serait pas.

C'est Barack Obama - ou est-ce?

{youtube}cQ54GDm1eL0{/youtube}

Parce que ces techniques sont tellement nouvelles, les gens ont du mal à faire la différence entre les vidéos réelles et les vidéos deepfake. Mon travail, avec mon collègue Ming-Ching Chang et notre doctorat Yuezun Li, étudiant, a trouvé un moyen de raconter de manière fiable de vraies vidéos à partir de vidéos deepfake. Ce n'est pas une solution permanente, car la technologie va s'améliorer. Mais c'est un début et offre l'espoir que les ordinateurs pourront aider les gens à dire la vérité à partir de la fiction.


graphique d'abonnement intérieur


Qu'est-ce qu'un "deepfake"?

Faire une vidéo deepfake ressemble beaucoup à la traduction entre langues. Des services comme Google translate utiliser l'apprentissage automatique - analyse informatique de dizaines de milliers de textes en plusieurs langues - à détecter les modèles d'utilisation des mots qu'ils utilisent pour créer la traduction.

Les algorithmes Deepfake fonctionnent de la même manière: ils utilisent un type de système d’apprentissage automatique appelé réseau de neurones profonds examiner les mouvements du visage d'une personne. Ensuite, ils synthétisent des images du visage d'une autre personne en effectuant des mouvements analogues. Cela permet de créer une vidéo de la personne cible qui semble faire ou dire les choses que la personne source a faites.

Comment les vidéos deepfake sont faites.

{youtube}8LhI-e2B8Lg{/youtube}

Avant qu'ils puissent fonctionner correctement, les réseaux de neurones profonds ont besoin de beaucoup d'informations source, telles que des photos des personnes constituant la source ou la cible de l'usurpation d'identité. Plus le nombre d'images utilisées pour entraîner un algorithme deepfake est élevé, plus l'emprunt d'identité numérique sera réaliste.

Détecter le clignotement

Il y a encore des failles dans ce nouveau type d'algorithme. L'une d'elles concerne la manière dont les visages simulés clignotent - ou non. Les humains sains adultes clignent des yeux quelque part entre chaque seconde 2 et 10, et un seul clignement prend entre un dixième et quatre dixièmes de seconde. C'est ce qu'il serait normal de voir dans une vidéo d'une personne qui parle. Mais ce n'est pas ce qui se passe dans beaucoup de vidéos deepfake.

Une vraie personne clignote en parlant.

{youtube}https://www.youtube.com/watch?v=-MMXXEA3UaM{/youtube}

Un visage simulé ne clignote pas comme une personne réelle.

{youtube}EttSA9-YIuI{/youtube}

Lorsqu'un algorithme deepfake est formé sur les images de visage d'une personne, cela dépend des photos disponibles sur Internet qui peuvent être utilisées comme données d'entraînement. Même pour les personnes photographiées souvent, peu d'images sont disponibles en ligne et leurs yeux sont fermés. Non seulement les photos sont rares - parce que les yeux des gens sont ouverts la plupart du temps - mais les photographes ne publient généralement pas d’images où les yeux des sujets principaux sont fermés.

Sans les images d'entraînement des personnes qui clignotent, les algorithmes deepfake sont moins susceptibles de créer des visages qui clignotent normalement. Lorsque nous calculons le taux global de clignotement et que nous le comparons à la plage naturelle, nous avons constaté que les caractères dans les vidéos DeepFake clignotent beaucoup moins souvent que les personnes réelles. Notre recherche utilise l'apprentissage automatique pour examiner les yeux ouvrant et fermant dans les vidéos.

Cela nous donne une inspiration pour détecter les vidéos deepfake. Par la suite, nous développons une méthode pour détecter le moment où la personne dans la vidéo clignote. Pour être plus précis, il scanne chaque image d’une vidéo en question, détecte les visages qu’elle contient et localise automatiquement les yeux. Il utilise ensuite un autre réseau de neurones profonds pour déterminer si l'œil détecté est ouvert ou fermé, en utilisant l'apparence de l'œil, les caractéristiques géométriques et le mouvement.

Nous savons que notre travail tire parti d’une faille dans le type de données disponibles pour former les algorithmes DeepFake. Pour éviter de tomber en proie à un défaut similaire, nous avons formé notre système sur une vaste bibliothèque d'images à la fois ouvertes et fermées. Cette méthode semble bien fonctionner et, par conséquent, nous avons atteint un taux de détection de plus de 95.

Ce n'est pas le dernier mot sur la détection des deepfakes, bien sûr. La technologie est améliorer rapidement, et la concurrence entre la génération et la détection de fausses vidéos est analogue à un jeu d’échecs. En particulier, le clignotement peut être ajouté aux vidéos approfondies en incluant des images de visage avec des yeux fermés ou en utilisant des séquences vidéo pour l'entraînement. Les gens qui veulent confondre le public seront plus à même de créer de fausses vidéos - et nous et d’autres membres de la communauté technologique devront continuer à trouver des moyens de les détecter.The Conversation

A propos de l'auteur

Siwei Lyu, professeur agrégé d'informatique; Directeur, Laboratoire de vision par ordinateur et d'apprentissage automatique, Université d'Albany, Université d'État de New York

Cet article a été publié initialement le The Conversation. Lis le article original.

Livres connexes

at Marché InnerSelf et Amazon