Comment un ordinateur sait-il où vous regardez?

Imaginez conduire une voiture, en utilisant une projection d'affichage tête-haute sur le pare-brise pour naviguer dans une ville inconnue. C'est la réalité augmentée (AR); l'information est utilisée non seulement pour vous guider le long d'un itinéraire, mais aussi pour vous avertir de l'information importante dans votre environnement, comme les cyclistes ou les piétons. Le placement correct du contenu virtuel est non seulement crucial, mais peut-être une question de vie ou de mort.

Les informations ne peuvent pas masquer d'autres informations et doivent être affichées suffisamment longtemps pour que vous puissiez les comprendre, mais pas trop longtemps. Les systèmes informatiques doivent effectuer ces déterminations en temps réel, sans que l'information soit gênante ou gênante. Nous ne voulons certainement pas d'avertissement au sujet d'un cycliste sur le point de traverser devant la voiture pour obscurcir la cycliste elle-même!

En tant que chercheur en AR, je passe beaucoup de temps à essayer de trouver la bonne information sur l'écran d'un utilisateur, au bon endroit et au bon moment. J'ai appris que montrer trop d'informations peut dérouter l'utilisateur, mais ne pas montrer assez peut rendre une application inutile. Nous devons trouver le sweet spot entre les deux.

Il s'avère que l'élément crucial est de savoir où les utilisateurs regardent. Ce n'est qu'alors que nous pouvons fournir l'information dont ils ont besoin dans un endroit où ils peuvent la traiter. Notre recherche consiste à mesurer où le l'utilisateur regarde dans la vraie scène, comme un moyen d'aider à décider où placer le contenu virtuel. Avec AR prêt à infiltrer de nombreux domaines de notre vie - de conduite à actuellement à récréation - Nous devrons résoudre ce problème avant de pouvoir compter sur AR pour fournir un support pour des actions sérieuses ou critiques.

Déterminer où placer l'information

Il est logique que l'information apparaisse là où l'utilisateur regarde. Lors de la navigation, un utilisateur peut regarder un bâtiment, une rue ou un autre objet réel pour révéler les informations virtuelles associées; le système sait cacher tous les autres affichages pour éviter d'encombrer la scène visible.


graphique d'abonnement intérieur


Mais comment savons-nous ce que quelqu'un regarde? Il se trouve que les nuances de la vision humaine nous permettent d'examiner aux yeux d'une personne et calculer où ils cherchent. En jumelant ces données avec des caméras montrant le champ de vision d'une personne, nous pouvons déterminer ce que la personne voit et ce qu'elle regarde.

Les systèmes de suivi des yeux sont apparus pour la première fois dans les 1900. À l'origine, ils étaient principalement utilisés pour étudier les modèles de lecture; certains pourraient être très intrusifs pour le lecteur. Plus récemment, l'eye-tracking en temps réel est apparu et est devenu plus abordable, plus facile à utiliser et plus petit.

Eye trackers peuvent être attachés à la écran ou intégré dans des lunettes portables ou des visiocasques. Les yeux sont suivis en utilisant une combinaison de caméras, projections et algorithmes de vision par ordinateur pour calculer la position de l'oeil et le point de regard sur un moniteur.

Nous examinons généralement deux mesures lors de l'examen des données de suivi oculaire. Le premier s'appelle un fixation, et est utilisé pour décrire quand nous arrêtons notre regard, souvent sur un endroit intéressant dans une scène parce qu'il a attiré notre attention. Le second est un saccade, l'un des mouvements oculaires rapides utilisés pour positionner le regard. De courtes périodes de fixation sont suivies de mouvements rapides, appelés saccades. Fondamentalement, nos yeux se précipitent d'un endroit à l'autre en prenant des informations sur des parties d'une scène. Notre cerveau a ensuite rassemblé les informations de ces fixations pour former une image visuelle dans nos esprits.

{youtube}tdFIvRMvFQI{/youtube}

Combiner le suivi des yeux avec AR

Souvent, le contenu AR est ancré à un objet ou un emplacement du monde réel. Par exemple, une étiquette virtuelle contenant un nom de rue devrait être affichée sur cette rue. Idéalement, nous aimerions que les étiquettes AR apparaissent près de l'objet réel auquel elles sont associées. Mais nous devons également veiller à ne pas laisser plusieurs étiquettes d'AR se chevaucher et devenir illisibles. Il existe de nombreuses approches pour gérer le placement des étiquettes. Nous explorons une option: calculer où la personne regarde dans la scène réelle et afficher les étiquettes AR seulement à cet endroit.

Supposons, par exemple, qu'un utilisateur interagisse avec une application mobile qui l'aide à acheter des céréales à faible teneur en calories dans l'épicerie. Dans la demande AR, chaque céréale a des informations caloriques associées. Plutôt que de ramasser physiquement chaque boîte de céréales et de lire le contenu nutritionnel, l'utilisateur peut tenir son appareil mobile et le diriger vers une boîte de céréales particulière pour révéler les informations pertinentes.

Mais pensez à la densité de l'allée de céréales d'un magasin avec différents forfaits. Sans aucun moyen de gérer l'affichage des étiquettes AR, les étiquettes d'informations sur les calories pour toutes les boîtes de céréales seraient affichées. Il serait impossible d'identifier le contenu calorique de la céréale qui l'intéresse.

En suivant ses yeux, nous pouvons déterminer quelle boîte de céréales individuelle l'utilisateur regarde. Ensuite, nous affichons les informations sur les calories pour cette céréale particulière. Quand il déplace son regard vers une autre boîte, nous affichons les chiffres pour le prochain qu'il considère. Son écran est épuré, l'information qu'il veut est facilement disponible et quand il a besoin d'informations supplémentaires, nous pouvons l'afficher.

Ce type de développement en fait un moment passionnant pour la recherche AR. Notre capacité à intégrer des scènes du monde réel à l'infographie sur les écrans mobiles s'améliore. Cela alimente la perspective de créer de nouvelles applications étonnantes qui élargissent notre capacité à interagir avec le monde qui nous entoure, à en tirer des leçons et à nous divertir.

A propos de l'auteur

Ann McNamara, professeure agrégée de visualisation, Université Texas A & M

Cet article a été publié initialement le The Conversation. Lis le article original.

Livres connexes

at