//php echo do_shortcode(‘[responsivevoice_button voice=”US English Male” buttontext=”Listen to Post”]’) ?>
Pendant des décennies, la promesse d’une réalité virtuelle (VR) et d’une réalité augmentée (AR) véritablement immersives a semblé terriblement proche, mais à chaque introduction de nouvelles applied sciences, elle semble tout simplement hors de portée. La bonne nouvelle est que nous nous rapprochons de plus en plus. Pourtant, pour que la réalité augmentée et la réalité virtuelle soient vraiment immersives, tous nos sens doivent croire que l’expérience est réelle.
La création d’expériences VR et AR crédibles dépend de la précision et de la cohérence avec lesquelles les ingénieurs peuvent reproduire les éléments qui, ensemble, composent notre notion de la réalité, à commencer par la compréhension de la physiologie humaine et des neurosciences. Nous devons comprendre les signaux multisensoriels indispensables à la notion des constructions 3D dans le monde réel, puis les imiter à l’aide de applied sciences intégrées aux casques.
Atteindre la réalité basée sur la technologie
Les dispositifs VR obstruent la imaginative and prescient des utilisateurs, présentant un environnement simulé où les stimuli sensoriels procurent des sensations de présence et d’interactions avec des objets virtuels. Les dispositifs AR superposent des objets virtuels sur l’environnement physique, avec des signaux sensoriels assurant la cohérence entre les éléments physiques et augmentés. Également connus sous le nom d’appareils à réalité mixte, les systèmes 3D AR mélangent des éléments du monde réel dans un environnement virtuel.
Chaque configuration a des exigences uniques, mais les développements communs qui font avancer ces systèmes incluent la détection et le suivi 3D en temps réel, un traitement informatique puissant et économe en énergie, un rendu et des affichages graphiques haute fidélité, un son immersif, des algorithmes d’apprentissage automatique et d’intelligence artificielle, des ressources humaines intuitives. interfaces et nouvelles functions.
Une expérience visuelle immersive
Grâce à des applied sciences graphiques et d’affichage innovantes, nous pouvons restituer des objets numériques de haute fidélité et regrouper plus de pixels dans des zones plus petites avec une clarté et un éclairage plus importants que jamais auparavant, mais il reste encore beaucoup à faire. Il ne s’agit pas seulement de rendre des photographs réalistes, mais de le faire avec un champ de imaginative and prescient (FOV) suffisamment giant sur de petits écrans proches de l’œil avec les repères visuels requis.
Les écrans de smartphone haute résolution d’aujourd’hui restituent plus de 500 pixels par pouce (PPI). Mais pour les visuels immersifs du casque, mesurer le PPI n’est pas suffisant. Les pixels par degré (PPD) du champ visuel couvert par l’affichage sont une mesure plus pertinente.
Au level de imaginative and prescient centrale, l’œil humain typique a une résolution angulaire d’environ 1/60 de degré. Chaque œil a un champ de imaginative and prescient horizontal d’environ 160 et un champ de imaginative and prescient vertical d’environ 175. Les deux yeux travaillent ensemble pour une notion stéréoscopique de la profondeur sur environ 120 de giant et environ 135 de haut. Tout cela signifie que nous devons fournir environ 100 mégapixels (MP) pour chaque œil et environ 60 MP pour la imaginative and prescient stéréo pour fournir une acuité visuelle de 60 PPD. Comparez cela avec un écran de casque VR grand public à la pointe de la technologie aujourd’hui à environ 3,5 MP.
Étant donné que la technologie de fabrication ne prend pas encore en cost cette densité de pixels, les concepteurs doivent faire des compromis pour rendre les events saillantes des scènes visuelles en haute résolution, sur la base d’une compréhension du fonctionnement du système visuel humain.
Suivi oculaire et rendu fovéal
L’acuité visuelle humaine élevée est limitée à un très petit champ visuel d’environ 1 autour de l’axe optique de l’œil, centré sur la fovéa. Cela signifie que la imaginative and prescient est plus nette au centre et plus floue sur les bords. En utilisant des capteurs en temps réel pour suivre le regard d’un utilisateur, nous pouvons rendre un plus grand nombre de polygones dans la zone centrale du regard en y concentrant la puissance de calcul et faire chuter de manière exponentielle la fidélité graphique (densité de polygones) ailleurs. Ce rendu fovéal peut réduire considérablement la cost de travail graphique et la consommation électrique associée.
Des chercheurs du monde entier étudient cette query et les concepteurs d’appareils explorent des configurations multi-écrans, dans lesquelles un écran haute résolution couvre la imaginative and prescient fovéale et des écrans à nombre de pixels relativement inférieur couvrent la imaginative and prescient périphérique. Les futures architectures d’affichage permettront une projection dynamique en temps réel de contenu visuel à plus haute résolution dans et autour de la route du regard.
Inadéquation de l’lodging et de la convergence
Une autre préoccupation clé est d’assurer la cohérence des signaux oculomoteurs pour corriger l’lodging oculaire et l’inadéquation de la convergence. Les humains voient le monde de manière stéréoscopique, leurs deux yeux convergeant vers un objet. Grâce à l’lodging, la lentille de chaque œil change de forme pour focaliser la lumière provenant de différentes profondeurs. La distance à laquelle les deux yeux convergent est la même que la distance à laquelle chaque œil s’adapte.
Dans les casques VR et AR commerciaux d’aujourd’hui, il existe un décalage entre la convergence et les distances d’hébergement. La lumière du monde réel est modifiée par des réflexions et des réfractions provenant de diverses sources à des distances variables. Dans un casque, toute la lumière est générée par une supply à une distance. Lorsque les yeux convergent pour voir un objet virtuel, leurs formes de lentilles doivent constamment s’ajuster pour focaliser la lumière à distance fixe émanant de l’écran, provoquant divers degrés de décalage entre les distances, entraînant souvent une fatigue ou une désorientation des yeux.

Diverses approches sont explorées, telles que des optiques dynamiquement mobiles et des lentilles à cristaux liquides accordables qui peuvent changer la distance focale lorsque la stress est ajustée.
Audio spatial 3D
Pour une véritable immersion, l’expérience audio AR/VR doit correspondre et se coordonner avec l’expérience visuelle afin que l’emplacement d’un son s’aligne parfaitement avec ce que l’utilisateur voit. Dans le monde réel, la plupart des gens peuvent fermer les yeux et comprendre l’emplacement approximatif du son. Ceci est basé sur le cerveau percevant et traduisant l’heure d’arrivée et l’intensité d’un son. Cela se produit immédiatement et automatiquement dans le monde réel, mais dans les casques VR, l’audio spatial 3D doit être programmé et traité.
Le défi est que chaque personne ressent les signaux sonores différemment, le spectre du sign étant modifié en fonction de facteurs tels que la taille, la forme et la masse de la tête et des oreilles. C’est ce qu’on appelle la fonction de transfert liée à la tête, quelque selected que les applied sciences d’aujourd’hui visent à rapprocher. Les recherches en cours pour personnaliser cette fonction permettront aux utilisateurs de casques de percevoir les sons émanant d’objets virtuels avec des repères spatiaux corrects.
Suivi de l’intérieur vers l’extérieur à faible latence
Suivre le mouvement de la tête d’un utilisateur en temps réel est une nécessité évidente en VR/AR. À tout second, les systèmes doivent être en mesure de déterminer la place du casque dans l’espace 3D par rapport à d’autres objets, tout en garantissant une grande précision et une faible latence pour restituer et présenter les informations visuelles et sonores correspondantes en fonction de la place et de l’orientation de la tête de l’utilisateur et mettre à jour rapidement au fur et à mesure que l’utilisateur se déplace.
Jusqu’à récemment, les casques VR suivaient les mouvements de la tête à travers l’extérieur dans des méthodes de suivi, en utilisant des capteurs externes qu’un utilisateur plaçait autour de son environnement. Aujourd’hui, cependant, le suivi à l’envers fournit une technologie de localisation et de cartographie simultanée et une odométrie visuelle-inertielle, basée sur une combinaison de imaginative and prescient par ordinateur et de capteurs de mouvement finement réglés, permettant le suivi des mouvements à partir d’un casque.

Un défi everlasting, cependant, consiste à obtenir une faible latence mouvement-photon, le délai entre le début d’un mouvement de l’utilisateur et l’émission de photons à partir du dernier pixel de la trame d’picture correspondante sur l’affichage. En d’autres termes, c’est le temps whole pris par l’acquisition et le traitement des données du capteur, les interfaces, les calculs graphiques, le rendu d’picture et les mises à jour de l’affichage.
Dans le monde réel, nous suivons les mouvements de notre tête en fonction des changements du champ visuel déterminés à partir de notre vue ainsi que des informations de mouvement détectées par notre système sensoriel vestibulaire. De longues latences dans un casque VR peuvent provoquer une inadéquation visuo-vestibulaire, entraînant une désorientation et des étourdissements. Les systèmes d’aujourd’hui peuvent généralement atteindre des latences mouvement-photon de 20 à 40 ms, mais des expériences perceptuellement transparentes nécessitent que cela soit inférieur à 10 ms.
Apports humains et interactions
L’expérience immersive nécessite également que les utilisateurs puissent interagir de manière réaliste avec des objets virtuels. Ils doivent être capables de tendre la foremost et de saisir un objet, et celui-ci doit réagir en temps réel en suivant les lois de la physique.
Les casques à la pointe de la technologie d’aujourd’hui permettent aux utilisateurs de sélectionner des objets avec des gestes de base de la foremost, et à mesure que la technologie de imaginative and prescient par ordinateur proceed de s’améliorer avec les progrès rapides de l’IA, les futurs casques incluront des fonctionnalités de contrôle gestuel plus riches.
Les appareils de prochaine génération offriront également des interactions multimodales, où la technologie de suivi oculaire permettra aux utilisateurs de faire des sélections en concentrant leur regard sur des objets virtuels, puis de les activer ou de les manipuler avec des gestes de la foremost. Bientôt, à mesure que la technologie de l’IA continuera de se développer et que le traitement native à faible latence deviendra une réalité, les casques auront également une reconnaissance vocale en temps réel.

Regarder vers l’avant
Aujourd’hui, nous pouvons faire l’expérience de certaines functions VR grand public et de RA industrielles prometteuses, mais elles ne sont pas totalement immersives. Bien que le chemin ne soit pas immédiat, avec des milliards de {dollars} d’investissement dans les applied sciences connexes, le potentiel est presque illimité. Par exemple, McKinsey estime que le métaverse pourrait générer entre 4 000 et 5 000 milliards de {dollars} d’ici 2030.
En nous attaquant constamment aux obstacles strategies, nous pourrons reproduire des expériences réalistes grâce à la technologie, diminuant finalement les différences entre le monde réel et le monde virtuel au fur et à mesure que nous les vivons.
Vous pouvez en savoir plus sur ces développements et voir les derniers produits AR et VR lors de la Show Week 2023.
Achin Bhowmik est président de la Society for Data Show, ainsi que directeur approach et vice-président exécutif de l’ingénierie chez Starkey.