DeepMind, la filiale de Google spécialisée dans l’intelligence artificielle (IA), a conçu un système capable de lire sur les lèvres et retranscrire les conversations… Et il s’avère que le programme est beaucoup plus performant qu’un humain ! À terme, une intelligence artificielle capable de lire sur les lèvres pourrait améliorer les systèmes d’assistance vocale. Elle pourrait aussi retranscrire des paroles dans des films muets… Les perspectives semblent un peu limitées pour l’instant, à moins que cette technologie n’atterrisse directement dans les services de surveillance ! Parions que d’ici peu, au vu des innovations toujours plus folles, cette nouvelle faculté donnée à l’IA aura toute son utilité dans notre quotidien.

Deep Mind, l’intelligence artificielle de Google capable de lire sur les lèvres

Google crée une intelligence artificielle capable de lire sur les lèvres : le bon plan pour les services de surveillance ?Vous avez certainement déjà entendu parlé de DeepMind. La célèbre filiale de Google spécialisée dans l’Intelligence Artificielle (IA) a encore innové. Cette fois-ci, ses ingénieurs ont conçu un programme informatique capable de lire sur les lèvres et de retranscrire les conversations. Le système, développé en deep learning (apprentissage profond), a donc appris sa tâche en ingurgitant 5 000 heures de programmes télévisés américains (exclusivement de la BBC !), soit 118 000 phrases et 18 500 mots uniques. En bref, sur une séquence télé (série, émission) durant laquelle les ingénieurs coupent le son, l’intelligence artificielle peut retranscrire 46.8 % de la conversation et, pour ce faire, se base uniquement sur le mouvement de lèvres lors les échanges verbaux.

46.8 % de réussite pour l’intelligence artificielle contre 12.4 % pour un humain

Google crée une intelligence artificielle capable de lire sur les lèvres : le bon plan pour les services de surveillance ?Vous trouvez ce score trop faible ? Sachez qu’un humain a un taux de réussite de 12.4 %. Le gros challenge de Deep Mind est surtout de retranscrire le bon mot lorsqu’ils font partie d’une famille d’homophones, c’est-à-dire un groupe de mots qui se prononcent de la même manière, mais qui ont un sens différent (mère, mer et maire, par exemple, ou toux et tout ; cent et sang). Le mouvement des lèvres est alors identique, mais l’IA de DeepMind étant de plus en plus maline, elle réussit à capter le sens d’une phrase pour, grosso modo, identifier le mot adéquat.

Google crée une intelligence artificielle capable de lire sur les lèvres : le bon plan pour les services de surveillance ?Au sujet des perspectives et applications d’une IA capable de lire sur les lèvres, les technologies d’assistance vocale pourrait en être les premières bénéficiaires. En premier lieu, nos assistants virtuels intégrés dans nos Smartphones ou dans nos boîtiers connectés (les assistants virtuels de maison) pourraient mieux comprendre nos requêtes vocales dans un environnement bruyant (à condition de parler à notre téléphone face caméra – Ce qui peut mettre mal à l’aise dans un lieu public, là tout de suite, mais qui sait, deviendra peut-être la norme d’ici peu ?). Pourquoi pas aussi retranscrire les paroles d’un film muet ?

Une intelligence artificielle intégrée aux caméras de surveillance capable de lire sur les lèvres ?

Google crée une intelligence artificielle capable de lire sur les lèvres : le bon plan pour les services de surveillance ?Plus spectaculaire, le domaine de l’espionnage pourrait se voir bouleverser par cette technologie. Quid d’un microphone subtilement dissimulé dans une pièce, capable de filmer, d’enregistrer … Et de lire sur les lèvres lorsque les personnes sont trop éloignées pour permettre de capter les sons ? Ce type de technologie pourrait être intégré dans les caméras de surveillance des lieux publics, par exemple ; d’autant que l’analyse de l’image par l’intelligence artificielle est un domaine qui passionne les chercheurs et qui se perfectionne lui aussi à vitesse grand V.

Notez qu’une autre équipe de chercheurs, de l’Université d’Oxford cette fois-ci, a communiqué il y a peu les résultats de leurs travaux réalisés sur le même thème. Leur intelligence artificielle entraînée à lire sur les lèvres (appelée LipNet) a obtenu un taux de réussite de 93.4 % contre 52.3 % pour le panel humain sollicité sur le même exercice. Ici, les séquences utilisées pour l’expérience ont été spécialement préparées à cet effet et ne contenaient que 51 mots uniques, d’où la réussite plus élevée en termes de statistiques.