Dans cet article, on explore les Intelligences Artificielles de l’Apple Vision Pro qui n’ont pas été dévoilées lors du WWDC 2023.
Apple a réalisé l’exploit, malgré la popularité du domaine, de ne pas mentionner une seule fois le mot « intelligence artificielle » lors de sa conférence annuelle.
Pourtant, l’entreprise a bien prévu d’investir le secteur avec son nouveau produit : le Apple Vision Pro.
Plus d’une vingtaine de capteurs équipent ce casque futuriste. Ils permettent d’analyser et de collecter des informations sur l’environnement des utilisateurs. De quoi ravir les Data Scientists et les ML Engineers passionnés de données.
L’entreprise ne s’en cache pas, et les utilisateurs qui achèteront l’objet en 2024 ont déjà pu prendre connaissance des mesures de sécurité et de contrôle de vie privée prises par Apple.
Mais, malgré la conférence, les secrets de l’Apple Vision Pro n’ont pas tous été révélés. C’est ce qu’on peut déduire en analysant le type de données collectées par les capteurs de cette nouvelle technologie et, en se renseignant sur les derniers brevets publiés par l’entreprise.
Apple Vision Pro – Systèmes de recommandation & micro-localisation
Systèmes de recommandation
De nos jours, une application mobile basée sur la création de contenu ne peut fonctionner sans un système de recommandation.
Un système de recommandation est un algorithme de Deep Learning capable de prédire le contenu qu’un utilisateur appréciera en se basant sur le contenu qu’il a précédemment apprécié.
Ainsi, les systèmes de recommandation proposent aux utilisateurs le contenu qui a la plus haute probabilité de correspondre à leurs goûts.
Cette capacité est décisive pour améliorer la satisfaction des utilisateurs et accélérer l’adoption d’une nouvelle application.
Grâce à ces algorithmes de Deep Learning, une application de musique comme Spotify peut détecter qu’un individu est fan de pop-rock US des années 60. Au moment opportun, l’application peut alors lui diffuser la musique idéale pour illuminer son trajet en voiture : California Dreamin.
Actuellement, les systèmes de recommandation sont performants. Mais dans le futur, un nouvel algorithme utilisant d’autres types de données pourrait les rendre désuets.
Certes, il est déjà possible de développer de manière significative les systèmes de recommandation avec nos technologies actuelles. Par exemple, en prenant en compte, en plus du contenu précédemment apprécié par l’utilisateur, des facteurs secondaires comme l’heure ou le jour de la semaine, qui influencent notre sensibilité à certains contenus.
En effet, selon l’heure qu’il est et le jour de la semaine, nos goûts et nos habitudes diffèrent. On n’écoutera pas la même musique lorsque l’on se lève le matin pour aller travailler que lorsque l’on sort le samedi soir avec des amis.
Les applications peuvent prendre en compte ces facteurs secondaires. Mais ce n’est pas la clé qui permettra aux algorithmes d’améliorer drastiquement leurs performances.
Localisation spatiale
Même si l’on se base sur des facteurs temporels pour recommander du contenu, lorsque l’utilisateur décidera de briser ses habitudes, par exemple de rester à la maison le samedi soir au lieu de rejoindre ses amis, l’algorithme n’en aura pas conscience. Il proposera alors, un contenu adapté aux habitudes de l’utilisateur… mais en décalage complet avec son humeur réelle.
Les systèmes de recommandation actuels ne sont pas aboutis car les facteurs affectant notre humeur ne sont pas tous pris en compte.
Mais Apple compte bien changer cela en faisant avancer d’un pas de géant les performances de ses algorithmes.
Un facteur plus important que l’heure de la journée affecte notre humeur. Ce facteur est notre localisation spatiale.
L’emplacement où l’on se situe détermine, avec une certaine précision, l’action que l’on est en train de réaliser. Cette même action peut fournir des informations considérables sur notre humeur.
Lorsqu’une personne est assise sur une chaise, avec son ordinateur allumé sur son bureau et la fenêtre de mail ouverte, cela indique normalement qu’elle est en plein travail. À cet instant, son humeur penche plus vers la concentration.
Mais lorsqu’elle est debout dans sa cuisine, en mouvement constant, il y a plus de chances pour qu’elle soit en pleine préparation d’un petit plat. Ici, son humeur penche plus vers la distraction.
Si une technologie prenait en compte ces facteurs, elle pourrait grandement participer à l’amélioration des performances des systèmes de recommandation. Cela permettrait de faire correspondre, avec un plus haut degré de précision, le contenu proposé par les algorithmes à l’humeur des utilisateurs.
LiDAR
Justement, le Apple Vision Pro possède un LiDAR, une technologie permettant, d’une part, de détecter la micro-localisation de l’utilisateur et, d’autre part, de créer une carte 3D virtuelle de son environnement.
Avec cette technologie, les capacités des systèmes de recommandation seront décuplées.
Il sera possible de déterminer l’emplacement d’un utilisateur dans son habitation et l’action qu’il est en train d’effectuer. Ainsi, les systèmes de recommandation pourront déceler plus nettement l’humeur de l’utilisateur et lui proposer un contenu approprié qui le satisfera.
Et même si l’Apple Vision Pro n’est pas encore accessible au grand public, les successeurs de Steve Jobs ont déjà prévu le coup.
C’est ce que révèle le brevet intitulé Microlocations using tagged data (en français : « Micro-localisations à l’aide de données étiquetées ») déposé en 2023.
Officiellement, ce brevet vise à améliorer l’expérience des utilisateurs en déterminant leur position dans leur habitation et en identifiant l’application la plus pertinente à ouvrir dans la pièce où ils se situent.
Apple pourrait utiliser cette technologie, par exemple, pour ouvrir automatiquement l’application Netflix lorsque l’utilisateur entre dans son salon, ou encore pour activer l’ouverture automatique de la porte de garage lorsque l’utilisateur entre dans celui-ci.
De plus, si Apple utilise les données de micro-localisation pour améliorer ses systèmes de recommandation, on peut également supposer que l’entreprise pourra partager ces mêmes données, après accord de l’utilisateur, à des applications tierces, comme Spotify.
Micro-localisation
Les données de micro-localisation offriraient ainsi de nouvelles perspectives pour améliorer les systèmes de recommandation actuels.
Lorsqu’un utilisateur est dans sa cuisine et qu’il prépare à manger, Spotify pourrait alors détecter sa situation et lui proposer un contenu adapté à son humeur, comme l’écoute d’un podcast. Puis, lorsqu’il va dans sa chambre pour se coucher, l’application pourrait modifier le contenu diffusé pour lui proposer de la musique douce et relaxante avant de s’endormir.
Ce brevet ne mentionne pas explicitement l’Apple Vision Pro, sa description est intentionnellement floue et imprécise quant aux appareils utilisés et aux données qui seront exploitées. Néanmoins, il est certain que le LiDAR sera une technologie clé dans la collecte de nouveaux types de données 3D permettant de repousser les limites des algorithmes de Deep Learning.
L’Apple Vision Pro, équipé d’un LiDAR, pourrait repousser drastiquement les limites des algorithmes de Deep Learning, notamment des systèmes de recommandations. En exploitant les données de micro-localisation des utilisateurs, Apple pourra connaître leur emplacement et les actions qu’ils effectuent. Ces données fourniront des indications significatives pour connaître l’humeur des utilisateurs et ainsi, optimiser la qualité des propositions de contenu par les systèmes de recommandation.
Au fait, si ton objectif est d'apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.
7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :
- Planifie ton apprentissage
- Structure tes projets
- Développe tes algorithmes d’Intelligence Artificielle
J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.
Pour y accéder, clique ici :
À présent, on peut revenir à ce que je mentionnais précédemment.
Apple Vision Pro -Expérience utilisateur & état attentionnel
LED et caméras infrarouges
Le LiDAR n’est pas le seul outil à disposition de l’Apple Vision Pro pour révolutionner l’intelligence artificielle. Parmi les multiples capteurs et écrans, on trouve, à l’intérieur du casque, des LED et des caméras infrarouges.
Ces technologies, combinées entre elles, forment un système de suivi des yeux permettant de collecter des données ultra-précises sur le regard des utilisateurs.
Grâce à cela, les détenteurs du casque futuriste pourront sélectionner un élément sans avoir besoin de diriger une souris ou un joystick dessus, mais simplement en y dirigeant leur regard.
Le but de cette fonctionnalité : se libérer d’outils externes et fluidifier la navigation dans cet « ordinateur spatial ».
Toutefois, ce n’est pas la seule fonctionnalité de ce système de suivi des yeux. Une autre, plus subtile, n’est pas exposée sur la page de présentation de l’Apple Vision Pro.
État attentionnel
Elle est révélée dans un brevet déposé, un peu avant l’annonce d’Apple, le 12 avril 2023, intitulé : Eye-Gaze based Biofeedback (en français : « Retour d’information biologique basé sur le regard »).
Ce brevet décrit une innovation « capable de déterminer l’état attentionnel d’un utilisateur au cours d’une expérience, sur la base des caractéristiques de son regard, et dans le but d’améliorer son expérience ».
L’état attentionnel est le niveau d’attention ou de concentration d’une personne sur une tâche, un objet ou une situation particulière.
Il décrit un état d’esprit au cours duquel une personne est activement engagée dans l’observation, le traitement et la réponse aux stimuli de son environnement. Plus le niveau d’attention est élevé, plus la réponse aux stimuli observés est forte.
De plus, l’état attentionnel et le regard sont étroitement liés. En effet, les mouvements oculaires peuvent refléter les changements d’attention et fournissent des informations précieuses sur ce à quoi un individu est attentif dans son environnement.
Par conséquent, les données relatives au regard sont une clé essentielle pour entraîner des algorithmes de Deep Learning à la détection de l’état attentionnel.
La recherche publique dans cette direction a déjà commencé, par exemple avec l’article Decoding Attention from Gaze (en français : « Décoder l’attention à partir du regard ») publié le 21 octobre 2022.
Malheureusement, la collecte de ce nouveau type de données est ardue et nécessite de surmonter de nombreux défis, comme le détaillent les chercheurs Shreya Ghosh et al. dans l’article Automatic Gaze Analysis (en français : « Analyse automatique du regard »).
Mais la technologie décrite dans le brevet d’Apple a la capacité de détecter et de catégoriser l’état attentionnel des utilisateurs.
Regard et attention
Grâce à son « ordinateur spatial », Apple a peut-être trouvé le moyen de collecter des données de qualité et, à défaut de faire avancer la recherche publique, faire avancer sa recherche privée pour créer un algorithme de Deep Learning capable de catégoriser les états attentionnels.
L’idée derrière le brevet est de détecter, pendant la diffusion d’un contenu, le niveau de concentration d’un utilisateur. Puis, lorsqu’il commence à décrocher et, à devenir distrait, modifier le contenu en temps réel pour ramener l’utilisateur à un état de concentration élevé.
On a du mal à imaginer cette innovation utilisée lors du visionnage d’un film. Le scénario ne va pas se modifier en temps réel pour s’adapter aux envies des utilisateurs. Mais on peut facilement l’imaginer utilisée dans une application de méditation.
Dans ce type d’application, l’utilisateur doit se concentrer sur un point fixe. Déterminer son état attentionnel permettrait alors de modifier l’expérience en temps réel pour améliorer la qualité de sa méditation.
Ces applications n’étant pas encore disponibles, il est difficile de se prononcer sur l’effet réel que provoquera cette innovation.
Néanmoins, ce système de suivi des yeux pourra collecter des données d’un nouveau type. Et lorsque des données sont présentes, l’intelligence artificielle se trouve à la porte à côté.
Grâce à une combinaison de LED et de caméras infrarouges, l’Apple Vision Pro a la capacité de suivre le regard de ses utilisateurs. En plus de se débarrasser d’outils externes, comme la souris, et de fluidifier la navigation, cette propriété pourrait détecter l’état attentionnel d’un utilisateur lors d’une expérience. Si cet état diverge de l’état recherché, une intelligence artificielle pourrait modifier le contenu de l’expérience pour l’améliorer.
Conclusion
Avec son nouveau casque de réalité étendue, Apple a le potentiel de révolutionner l’Intelligence Artificielle. Ce potentiel ne réside pas tant dans la création d’intelligences artificielles dépassant des limites que l’on croyait indépassables, comme l’a fait OpenAI, mais dans la généralisation de l’exploitation de données d’un nouveau type :
- données 3D de micro-localisation
- données infrarouges d’analyse du regard
Ces données sont déjà exploitées dans le domaine des voitures autonomes et, en général, dans la recherche scientifique. Mais Apple pourrait démocratiser l’utilisation de ces capteurs et l’exploitation de ces nouvelles données.
Bien que la déposition de brevets n’implique pas la sortie d’innovations (un brevet peut être déposé sans jamais être exploité), l’éventail de capteurs du Apple Vision Pro sera exploité par l’entreprise, à n’en pas douter.
Ainsi, même sans évoquer une seule fois le mot « intelligence artificielle » lors de sa conférence, les créateurs du Macintosh ont bel et bien toutes les cartes en main pour révolutionner le domaine.
La décennie 2020 est celle de l’Intelligence Artificielle – Apple l’a bien compris.
Si tu veux faire partie de cette révolution et ne pas laisser filer le train, j’ai conçu pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.
À l’intérieur, tu trouveras des méthodes scientifiques et mes techniques personnelles que j’utilise au quotidien pour faire du Deep Learning.
Si ça t’intéresse, clique ici – c’est gratuit :
sources :
- Apple – Apple Vision Pro
- Patently Apple – An Apple Patent reveals an advanced Machine Learning System for Home apps using Microlocations’ Tagged Data
- Onscope – Microlocations using tagged data
- Patently Apple – Apple invents Eye-Gaze based Biofeedback to determine and correct a user’s attentive state to enhance entertainment, education & more
- Espacenet – Eye-gaze based biofeedback
- OpenReview – Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models
- Arxiv – Automatic Gaze Analysis: A Survey of Deep Learning based Approaches
Un dernier mot, si tu veux aller plus loin et apprendre le Deep Learning - j’ai préparé pour toi le Plan d’action pour Maîtriser les Réseaux de neurones.
7 jours de conseils gratuits d’un ingénieur spécialisé en Intelligence Artificielle pour apprendre à maîtriser les réseaux de neurones à partir de zéro :
- Planifie ton apprentissage
- Structure tes projets
- Développe tes algorithmes d’Intelligence Artificielle
J’ai basé ce programme sur des faits scientifiques, des approches éprouvées par des chercheurs mais également mes propres techniques que j'ai conçues au fil de mes expériences dans le domaine du Deep Learning.
Pour y accéder, clique ici :