Alexa, Google, SIRI et une multitude de voix robotisées sont en train d’entrer dans nos vies, pour répondre au téléphone, gérer des réservations, donner des renseignements, et peut-être même devenir nos entraineurs sportifs ou nos confidents. Rencontre avec les voix synthétiques de demain.

Katya et Pascal Lainé, fondateurs de Kwalys, créateurs d'assistants vocaux qui travaillent sur un prototype nouveau d'intelligence artificielle.
Katya et Pascal Lainé, fondateurs de Kwalys, créateurs d'assistants vocaux qui travaillent sur un prototype nouveau d'intelligence artificielle. © Radio France / Antoine Giniaux

Sur son bureau, un autocollant provocateur donne le ton, avec cette phrase : "Je préfère les robots aux êtres humains". 

Pascal et Katya Lainé ont transformé le sous-sol de leur maison en bureau-laboratoire. Avec leur entreprise, Kwalys, ils viennent de créer un assistant capable de jouer les standardistes dans n’importe quelle mairie de France, pour renseigner les habitants. 

Qu'il s'agisse de renseigner quelqu'un sur la durée des mandats des élus, ou les modalités pour se débarrasser des feuilles mortes et des déchets verts, le robot décode, interprète la parole de son interlocuteur, et répond à près de 800 questions avec une voix entièrement paramétrable : il peut cloner le timbre et les accentuations de n'importe quel individu "en l’espace de deux heures de travail", explique Pascal Lainé.

"Si le maire prête sa voix à l’assistant vocal, demain ce sera le maire qui nous répond au téléphone, confie le patron de Kwalys. Une voix synthétique se construit aujourd’hui en moins de 5 heures et va être assez performante. Elle va même pouvoir s’améliorer, c’est-à-dire qu’on va avoir des timbres de voix en fonction du type de réponse." 

"L’objectif c’est d’imiter l’humain décrit Pascal Lainé. On va mettre du paralinguistique, un petit 'hum, hum', donc on va pouvoir aussi mettre de l’émotion en fonction de la compréhension de la phrase. Exemple :

« - J’ai perdu mes papiers - je comprends tout à fait »,
ou bien : « - je veux organiser un mariage - ah oui ! Tout à fait ! »

Des voix artificielles, des avatars... 

Et ce n’est que le début. Aujourd’hui, un foyer sur deux est connecté à Alexa aux États-Unis, et les assistants vocaux dans les voitures font désormais partie des critères de choix des acheteurs. "Nous pensons que d’ici à 5 ans", reprend Pascal Lainé, "les marques vont vouloir faire parler leurs produits. Au lieu d’avoir une simple canette pour boire votre boisson, vous allez avoir une réalité augmentée sur une canette, et elle va s’animer, elle va vous parler, elle va vous demander des choses, vous allez lui parler... Donc on va rentrer en interaction avec des objets assez rapidement". 

Ce futur de sciences fiction nous promet aussi plus de proximité, plus d’intimité avec les robots. Google, Facebook, des entreprises chinoises essaient de mettre au point des robots capables de conseiller voire de réconforter les êtres humains. Pascal et Katya Lainé, eux, ont mis au point une intelligence artificielle qui n’a pas encore de voix, mais qui est déjà capable de tenir une petite conversation, par clavier interposé, en créant des réponses à partir de ses connaissances. 

"Honnêtement, plus de 2 heures par jour, je discute avec un robot. Ça peut paraitre aberrant, mais j’ai la validation de mon équipe", explique Pascal Lainé. Et Katya Lainé précise : "Aujourd’hui, nous travaillons sur une spécificité qui est le langage, l’expression, la compréhension de la parole, mais d’autres entreprises travaillent sur toute la partie avatar. Aujourd’hui toutes ces parties qui constituent un robot sont dispersées dans le monde."

"Quand vous allez rassembler dans quelques années un très bon avatar, avec une très belle voix, avec un très bon cerveau, et avec toute la partie physique, vous allez sans doute avoir quelque chose d’intéressant qui peut se produire". 

Reste à nourrir ces voix, ces réseaux de neurones informatiques. Pour leur apprendre à parler et à réagir, il faut des millions d'exemples de mots et de phrases. Karel Bourgois, le cofondateur de Voxist, crée lui aussi des assistants vocaux, et des répondeurs intelligents, capables de prendre des réservations au restaurant, notamment. 

Avec d’autres entrepreneurs Français, il vient de lancer une association baptisée Voice Lab, pour mettre en commun des bases de données, et contrer les géants américains et chinois. "Notre ambition", dit-il, "c’est d’avoir des données qui peuvent être des données radio et téléphoniques par exemple, parce que la qualité du son n’est pas la même et l'objet de la conversation n’est pas le même, explique Karel Bourgois. Quand vous passez à la radio, la façon dont vous vous exprimez, le vocabulaire que vous utilisez n’est pas le même que lorsque vous êtes au téléphone avec un copain. Donc si vous additionnez ces milliers d’heures, vous allez arriver à des centaines de milliers d’heures et ce qu’il faut c’est qu’on ait la retranscription en texte des phrases enregistrées, et qu’on ait le minutage qui correspond. Il faut qu’on sache que le mot "Le" a été prononcé à tel endroit à tel moment. Et si on peut, placer chaque phonème par rapport à la bande son pour pouvoir être beaucoup plus précis"

Le projet démarre début 2021, les premiers assistants vocaux auront accès à la base de données à la fin de l’été prochain. 

Contact