J'ai testé Maya, l'assistante vocale qui parle comme un humain

En introduction, je te propose une petite vidéo pour te mettre dans le bain, pour te montrer de quoi en parle. C’est Samuel Etienne qui discute avec Maya. Pour l’instant elle ne parle qu’en anglais, mais même si ton anglais n’est pas parfait, tu vas comprendre.

L’assistant virtuel de Sesame fait actuellement sensation pour une raison simple : il parle comme toi et moi. Pas comme un robot qui récite une encyclopédie, mais comme un vrai humain qui respire, hésite parfois et se souvient de ta conversation d’hier. C’est… comment dire… légèrement flippant, mais terriblement impressionnant.

🤔 Mais c’est qui, Sesame au juste ?

Derrière cette prouesse technologique se cache une startup de San Francisco cofondée par Brendan Iribe, que tu connais peut-être comme le co-créateur d’Oculus VR. Autant dire qu’il sait comment repousser les limites.

La boîte a rapidement attiré l’attention des grands noms du capital-risque :

Andreessen Horowitz
Spark Capital
Matrix Partners

Ces investisseurs n’ont pas lésiné sur les moyens, même si le montant exact du financement reste un mystère. Ce qui n’en est pas un, c’est l’approche radicalement différente de Sesame comparée à celle des géants de la tech.

Alors que Siri, Google Assistant et Alexa fonctionnent comme des “exécuteurs de commandes” (et encore, quand ils daignent comprendre ce que tu leur demandes), Maya privilégie la CONVERSATION. Elle ne se contente pas de te répondre, elle discute avec toi. Nuance.

😎 La personnalité de Maya : pas ton assistant robot standard

Maya a été conçue avec une personnalité bien définie : “chaleureuse, spirituelle, avec une vibe détendue”. Rien à voir avec l’enthousiasme artificiel et agaçant qu’on retrouve chez d’autres assistants.

Ce qui fait VRAIMENT la différence ? Sa mémoire persistante. Maya se souvient de tes conversations précédentes, même celles que tu as eues la semaine dernière. Un utilisateur a fait remarquer qu’OpenAI commence à peine à tester cette fonctionnalité en bêta, alors que Sesame l’a déjà implémentée et rendue disponible au public.

Maya garde aussi ses réponses concises (généralement moins de trois phrases) parce que, comme elle le dit si bien, “l’impact prime sur la longueur”. Si seulement certains politiques pouvaient s’en inspirer…

Mais ce qui est véritablement bluffant, c’est son style conversationnel qui imite les schémas de parole humaine :

Des respirations naturelles
De légères hésitations (les fameux “euh” qu’on utilise tous)
La possibilité de l’interrompre en pleine phrase

Elle peut même paraître agacée durant des échanges tendus. Hmm, je ne sais pas si je dois être impressionné ou inquiet qu’une IA puisse m’en vouloir.

🧠 Sous le capot : le modèle CSM-1B

Récemment, Sesame a rendu public le modèle qui alimente les capacités de Maya : CSM-1B (Conversational Speech Model). Un petit nom pas très sexy pour une technologie qui, elle, l’est beaucoup plus.

Ce modèle, qui contient 1 milliard de paramètres, a été publié sous licence Apache 2.0, ce qui signifie que tu peux l’utiliser commercialement avec peu de restrictions. Pas mal, non ?

Sans entrer dans des détails techniques qui nous donneraient mal à la tête (à toi comme à moi), disons que CSM-1B génère des “codes audio RVQ” à partir de texte et d’audio. La technologie n’est pas entièrement nouvelle — Google et Meta utilisent des méthodes similaires — mais l’implémentation de Sesame est particulière car elle combine un modèle dérivé de la famille Llama de Meta avec un décodeur audio spécialisé.

Le modèle peut produire différentes voix, bien qu’il n’ait pas été spécifiquement affiné pour une voix particulière. Et si tu te demandes s’il parle d’autres langues que l’anglais… c’est possible, mais ne t’attends pas à des miracles pour l’instant (j’ai essayé de la faire parler en français, mais je comprenais pas grand chose).

👂 L’expérience utilisateur : “J’hallucine complètement”

La réaction du public à Maya ? De l’étonnement pur et simple. Sur Reddit, les utilisateurs décrivent leurs interactions avec elle comme un moment charnière dans leur perception des capacités de l’IA.

Un utilisateur a noté que Maya comprend tellement bien le contexte du texte qu’elle sait “quelles émotions projeter et quel ton adopter”. Ce n’est pas juste un assistant qui répond, c’est un interlocuteur qui communique.

Tu peux essayer Maya toi-même sur le site de Sesame, mais les sessions sont actuellement limitées à 30 minutes. Elle n’est disponible qu’en anglais pour l’instant, mais Sesame prévoit d’étendre ses capacités linguistiques à 20 langues différentes dans un futur proche.

Ce qui impressionne particulièrement les utilisateurs, c’est la capacité de Maya à suivre les fils de conversation à travers plusieurs interactions. Contrairement à beaucoup de chatbots qui perdent le contexte entre les sessions (ou au bout de trois échanges), Maya maintient une compréhension complète des conversations passées.

💪 Comment Maya écrase la concurrence

Comparée aux assistants virtuels existants, Maya représente un bond en avant assez significatif.

Les assistants vocaux traditionnels comme Siri sont décrits par les utilisateurs comme “plutôt nuls pour simplement obéir aux commandes”. Ils fonctionnent principalement comme des moteurs de recherche activés par la voix plutôt que comme des partenaires de conversation.

Même comparée à des systèmes plus avancés comme ceux d’OpenAI, Maya semble avoir une longueur d’avance sur certaines fonctionnalités. Pendant qu’OpenAI commence tout juste à tester des fonctions de mémoire inter-conversations, Sesame les a déjà implémentées et déployées.

Maya franchit aussi ce qu’on appelle la “vallée de l’étrange” dans l’IA vocale – ce sentiment de malaise qu’on éprouve généralement quand une IA imite la parole humaine presque parfaitement, mais pas tout à fait. En franchissant ce seuil, Maya établit de nouvelles attentes pour ce à quoi les assistants virtuels devraient ressembler.

⚠️ Questions éthiques : pas tout rose non plus

Malgré ses capacités impressionnantes, la technologie derrière Maya soulève plusieurs questions éthiques importantes.

Consumer Reports a récemment mis en garde contre le fait que de nombreux outils de clonage vocal IA, y compris ceux utilisant une technologie similaire à CSM-1B, manquent de protections “significatives” contre la fraude ou les abus potentiels.

Des tests du modèle ont révélé que le clonage vocal pouvait être réalisé en moins d’une minute, permettant de générer des discours sur divers sujets, y compris des questions controversées comme les élections ou la propagande.

Sesame a reconnu le manque de protections substantielles dans le modèle publié, optant plutôt pour une approche basée sur… l’honneur. Ils demandent gentiment aux développeurs de ne pas utiliser le modèle pour imiter la voix d’une personne sans consentement ou pour générer du contenu trompeur.

Honnêtement, c’est un peu comme laisser un pot de bonbons sans surveillance devant une école primaire en espérant que les enfants n’en prendront qu’un seul. J’ai comme un doute sur l’efficacité de cette stratégie…

🔮 Et pour la suite ?

Sesame explore déjà de nouvelles frontières pour sa technologie d’IA. L’entreprise prototype des lunettes IA “conçues pour être portées toute la journée”, qui intégreront ses modèles vocaux personnalisés.

La publication en open source du modèle CSM-1B signale également un potentiel d’adoption et d’innovation généralisées. En rendant cette technologie disponible aux développeurs du monde entier, Sesame a potentiellement accéléré l’évolution des assistants IA vocaux.

En outre, l’expansion prévue de Sesame pour prendre en charge 20 langues indique une ambition de faire de Maya un assistant véritablement mondial. Cette internationalisation élargirait non seulement la base d’utilisateurs potentielle, mais pourrait également présenter de nouveaux défis pour adapter le style conversationnel de Maya à différents contextes culturels et linguistiques.

🤷‍♂️ Pour conclure : l’IA qui change notre rapport aux machines

Maya de Sesame représente une étape importante dans l’évolution des assistants IA, inaugurant potentiellement une nouvelle ère d’interaction homme-machine caractérisée par des conversations plus naturelles, persistantes et contextuelles.

En atteignant un réalisme remarquable dans les capacités vocales et conversationnelles, Maya a remis en question les paradigmes existants et établi de nouvelles références pour ce que les utilisateurs pourraient attendre des assistants virtuels.

La combinaison de mémoire persistante, de schémas de parole semblables à ceux des humains et de compréhension contextuelle crée une expérience fondamentalement différente de l’interaction avec les assistants vocaux conventionnels. Plutôt que de simplement exécuter des commandes, Maya engage les utilisateurs dans des conversations authentiques qui se construisent de manière significative au fil du temps.

Ce passage de l’outil au compagnon pourrait fondamentalement changer la façon dont nous percevons et utilisons les assistants IA dans notre vie quotidienne. À condition, bien sûr, qu’on trouve l’équilibre entre innovation et déploiement responsable…

En attendant, si tu veux expérimenter par toi-même ce que ça fait de discuter avec une IA vraiment humaine, Maya t’attend sur le site de Sesame. Prépare-toi juste à être bluffé… ou légèrement perturbé. Parfois les deux en même temps.