26/11/16

- Des intelligences artificielles lisent désormais sur les lèvres

 


DeepMind, qui appartient à Google, a développé un programme informatique capable de lire sur les lèvres de façon plus efficace que les humains

Dans un article de recherche, ils expliquent que cette technologie d’intelligence artificielle réussit à lire sur les lèvres 46,8 % du temps, alors qu’un professionnel ayant dix ans d’expérience, soumis au même test, y parvient 12,4 % du temps.

5 000 heures de vidéo

Pour que la machine parvienne à ce résultat, les chercheurs l’ont « entraînée » avec 5 000 heures de vidéos issues d’émissions politiques et d’actualité de la chaîne britannique BBC, couplées à des sous-titres. La machine s’est servie de ces exemples pour apprendre à lire sur les lèvres, grâce à la technologie du « deep learning » – la même qui a permis à DeepMind de concevoir un programme capable de battre l’humain au jeu de go. En tout, les vidéos qui lui ont été soumises contenaient 118 000 phrases différentes composées de 17 500 mots.

Plus tôt dans le mois, une autre équipe de chercheurs d’Oxford avait elle-même dévoilé un programme du même type, appelé LipNet. Si son efficacité est impressionnante (93,4 % de réussite, contre 52,3 % pour l’humain), c’est que le matériau de base était beaucoup moins complexe que celui utilisé par DeepMind.

LipNet fonctionne en effet sur des vidéos entièrement conçues pour lui, dans lesquelles des êtres humains, de face, prononcent des phrases de trois secondes, d’une structure toujours identique et avec quelques dizaines de mots seulement – ce qui explique ces scores de réussite très élevés, tout comme ceux de l’humain.

Le programme de DeepMind, quant à lui, a travaillé sur des vidéos qui n’ont pas été pensées pour lui, sélectionnées dans des émissions de télévision classiques.

Malentendants et surveillance

A quoi peuvent donc servir de telles technologies ? Les chercheurs expliquent qu’elles pourraient aider les personnes malentendantes à comprendre les conversations. Si les logiciels de reconnaissance vocale sont déjà très efficaces pour retranscrire un discours, ils fonctionnent toutefois moins bien dans un environnement bruyant, contrairement aux technologies dévoilées par DeepMind et Oxford.

Les scientifiques évoquent aussi la possibilité, à l’avenir, d’interagir avec des assistants vocaux, comme Siri ou Cortana… mais sans utiliser la voix. Ce qui pourrait servir, estiment-ils, quand l’utilisateur ne veut pas déranger les gens qui l’entourent.

Toutefois, ce type de technologie pourrait aussi être utilisé, à terme, à des fins de surveillance, puisqu’elle permet de comprendre ce que dit une personne même sans micro. Les chercheurs affirment que leur programme ne fonctionne que dans certaines conditions, et que la définition d’une caméra de surveillance est insuffisante pour qu’il comprenne correctement les mots prononcés, sur des images souvent sombres et des personnages lointains. Mais jusqu’à quand ?

Lire aussi :   Comment le « deep learning » révolutionne l'intelligence artificielle

ILe Chat, Philippe Geluck

 Pour aller plus loin:

L'intelligence artificielle n'aura pas lieu.

Nous pensions dépassé le fantasme d'une « intelligence artificielle qui pourrait mettre fin à l'humanité » ou bien surpasser l'intelligence humaine. Et pourtant c'est bien dans la bouche d'un grand scientifique (ces propos sont dans la vidéo du document en lien) que cette sempiternelle contre-vérité scientifique revient.

Bien entendu, cet humain a aussi le droit de dire des conneries, surtout quand il s'exprime sous la pression médiatique hors de son champ de connaissance avec des arguments qui ne relèvent pas d'une démarche scientifique, mais d'un "pourquoi pas" qui n'a rien de réfutable.

Pour faire le point, donnons la parole à un collègue moins médiatique mais qui a le mérite de connaître le sujet : Nicolas Rougier.

Lire l'intégralité de l'article sur:
http://www.scilogs.fr

 

 

Posté par Arkebi à 18:35 - - Commentaires [0] - Permalien [#]
Tags :