Deep Voice Paris

Deep Voice Paris

"Imaginer l'avenir des technologies vocales".

Un événement organisé par SCAI et l'Ircam.

  • Du Au

  • 10:00 - 17:00
  • Colloque
  • Centre international de conférence de Sorbonne Université.
    Campus Pierre et Marie Curie, 4 place Jussieu 75005 Paris

Deep Voice est l'événement parisien dédié à la voix et à l'intelligence artificielle dont l'objectif est de réunir l'expertise technique et l'innovation business/entrepreneuriale. Cet événement de 2 jours combinera une présentation keynote, deux ateliers pratiques, une table ronde thématique et des moments de networking afin de favoriser l'échange et la collaboration entre tous les participants. 

Inscriptions.

Le 23 juin

10h - Keynote - Text-to-Speech neuronal expressif - Thomas Drugman (Amazon)
Les progrès récents de la synthèse vocale basée sur l'apprentissage profond ont rendu les voix artificielles presque indiscernables de la parole humaine dans les contenus neutres et courts. Cependant, il existe encore une lacune importante lorsqu'il s'agit de savoir comment les systèmes basés sur l'IA sont capables de rendre les émotions. Cet exposé se concentrera sur nos efforts, chez Amazon, pour combler ce fossé en rendant nos modèles génératifs plus expressifs et plus humains. Nous verrons comment ce progrès technologique a amélioré des produits tels qu'Amazon Alexa ou AWS Polly.

14h - Atelier #1
Synthèse neuronale de la parole - Nicolas Obin (Ircam, CNRS, Sorbonne Université - modérateur)

Le 24 juin

10h - Table ronde - Assistants, emo/co-bots et réalité virtuelle : comment la simulation des émotions va-t-elle modifier notre rapport affectif aux machines et notre immersion dans un monde social artificiel ? 
Susana Sánchez Restrepo (SoftBank Robotics), Nadia Guerouaou (CHRU Lille), Catherine Pelachaud (CNRS, Sorbonne Université), Jean-Julien Aucouturier (CNRS), Serge Tisseron (Université de Paris, Académie des technologies) / Nicolas Obin (Ircam, CNRS, Sorbonne Université - modérateur)
 

14h - Atelier #2
Vocodeur neuronal - Axel Röbel (Ircam)

Les 2 ateliers présenteront le fonctionnement des deux blocs essentiels d'un TTS neuronal à l'exemple du Tacotron 2.
Le premier atelier introduira aux concepts de linguistique générale, de la communication parlée, et du traitement automatique de la parole, puis présentera les détails de l'architecture Tacotron et de ses évolutions. Le second atelier expliquera le fonctionnement des réseaux post-net (WavNet et autres) utilisés pour reconstruire un signal de parole à partir d'une représentation en Mel-spectrogramme.

Le public visé par ces ateliers sont des ingénieurs ayant une bonne connaissance en deep learning et connaissant les environnements de programmation dédiés désireux de monter en compétences sur les architectures spécifiques en traitement automatique du langage et de la parole.

Intervenants

Jean-Julien Aucouturier est chercheur en informatique. Il a occupé plusieurs postes en neurosciences cognitives (RIKEN Brain Science Institute à Tokyo, Université de Bourgogne) avant de travailler à l'Ircam. Il travaille maintenant à l'Institut FEMTO-ST à Besançon.

Thomas Drugman est responsable scientifique au sein de l'équipe de recherche Amazon TTS. Il a obtenu son doctorat en 2011 à l'Université de Mons, remportant le prix IBM Belgique pour la "Meilleure thèse en informatique". Sa thèse de doctorat a étudié l'utilisation de l'analyse de la source glottale dans le traitement de la parole. Il a ensuite fait un post-doc de 3 ans sur l'analyse parole/audio pour deux applications biomédicales : la reconstruction de la parole trachéo-oesophagienne et la détection de la toux dans les maladies respiratoires chroniques. En 2014, il a rejoint Amazon en tant que scientifique dans l'équipe Alexa ASR. Il a ensuite été transféré dans l'équipe TTS en 2016, où il est responsable scientifique depuis 2017. Il a contribué à rendre le TTS neuronal d'Amazon plus naturel et expressif, notamment en enrichissant l'expérience d'Alexa avec différents styles de parole : émotions, journaliste, chuchotement, etc. Ses recherches actuelles portent sur l'amélioration du naturel et de la fluidité d'interactions vocales synthétiques plus longues. Il a publié environ 125 articles dans le domaine du traitement de la parole. Il a reçu le prix Interspeech Best Student Paper en 2009 et 2014 (en tant que superviseur). Il est également membre de l'IEEE Speech and Language Technical Committee depuis 2019.

Nadia Guerouaou est psychologue clinicienne et neuropsychologue en recherche clinique, son approche de l'être humain se situe au carrefour des sciences humaines, des sciences et de l'ingénierie. Ses activités au sein du Centre d'Investigation Clinique lui permettent de se tenir au courant des différentes avancées thérapeutiques dans les domaines de la psychologie, de la psychiatrie et des neurosciences.
Ses intérêts de recherche clinique sont principalement axés sur les émotions, les états modifiés de conscience et leur relation avec la psychopathologie. L'apport des techniques neuroscientifiques telles que le biofeedback et le neurofeedback à la pratique clinique fait également partie de ses centres d'intérêt.

Nicolas Obin est un chercheur en traitement du signal audio, apprentissage automatique et modélisation statistique des signaux sonores, avec une spécialisation dans le traitement de la parole. Son principal domaine de recherche est la modélisation générative de l'expressivité des voix parlées et chantées, avec des applications dans divers domaines tels que la synthèse vocale, les agents conversationnels et la musicologie computationnelle. Il participe activement à la promotion des sciences et technologies numériques pour les arts, la culture et le patrimoine.

Catherine Pelachaud est directrice de recherche CNRS à l'ISIR, Sorbonne Université. Ses recherches portent sur le calcul émotionnel et les agents socio-émotionnels. Elle a été et est rédactrice en chef adjointe de plusieurs revues, notamment IEEE Transactions on Affective Computing, ACM Transactions on Interactive Intelligent Systems et International Journal of Human-Computer Studies. Pendant de nombreuses années, elle et ses collaborateurs ont travaillé au développement de la plateforme d'agents conversationnels Greta. Elle a reçu le prix ACM - SIGAI Autonomous Agents Research Award en 2015. Son article du Siggraph '94 a reçu le prix Influential paper de l'IFAAMAS (International Foundation for Autonomous Agents and Multiagent Systems) en 2017.

Axel Röbel est directeur de recherche à l'IRCAM et travaille sur l'analyse, la modélisation et la transformation du signal audio en utilisant notamment des représentations du signal dans le domaine fréquentiel. Ses recherches sont axées sur la transformation de signaux de haute qualité basée sur la représentation du vocodeur de phase, les modèles de signaux additifs utilisant des algorithmes avancés pour l'analyse et la représentation de signaux non stationnaires, les modèles de signaux structurés et les descripteurs de signaux pertinents sur le plan perceptif, la décomposition des signaux, l'estimation du f0 polyphonique.

Susana Sánchez Restrepo est docteur en robotique et ingénieur de recherche en logiciel chez SoftBank Robotics Europe, spécialisée dans l'interaction homme-machine. Après 4 années consacrées à la programmation de bras robotiques collaboratifs et de robots mobiles pour l'industrie, Susana travaille désormais avec des robots humanoïdes et de service. En tant que membre de l'équipe Expressivity, elle étudie l'expression mutlimodale des émotions par les robots et son impact sur l'interaction humaine.

Serge Tisseron est psychiatre, membre de l'Académie des Technologies, docteur en psychologie, docteur en sciences humaines cliniques, membre du Conseil scientifique du Centre de recherches Psychanalyse, Médecine et Société (CRPMS, EAD N°3522), Université de Paris.
Ses recherches s'articulent autour de trois axes : les secrets liés aux traumatismes et leurs répercussions sur plusieurs générations ; les relations que nous établissons avec les différentes formes d'images ; et enfin la manière dont les nouvelles technologies bouleversent notre rapport aux autres, à nous-mêmes, au temps, à l'espace et au savoir.

Université d'été

Profitez de la période estivale pour garder le rythme et vous enrichir grâce aux cycles de conférences ouverts à tout public durant le mois de juillet !
 



L’abstraction

Par Arnauld Pierre et Pascal Rousseau

Sorbonnavirus

Par Pierre-Marie Chauvin et Annick Clement

Regards sur la crise du coronavirus

Graduate

25 000

Étudiantes et étudiants

1 200

Enseignantes et enseignants

720

Personnels

Formations

Découvrez toute notre offre de formation

Médecine

La faculté de Médecine assure l’enseignement des 3 cycles d’études médicales : de la PASS (intégrée à la faculté) au 3e cycle incluant des DES, DESC, DU et DIU. Les enseignements sont dispensés principalement sur deux sites : Pitié-Salpêtrière et Saint-Antoine. La faculté dispense également des enseignements paramédicaux : l’orthophonie, la psychomotricité et l’orthoptie. Le site Saint-Antoine intègre une école de sage-femme.

Etudier à
la faculté de Médecine

La diversité des étudiants et de leurs parcours est l’une de nos richesses. Sorbonne Université s’engage pour la réussite de chacun de ses étudiants et leur propose une large offre de formations ainsi qu’un accompagnement adapté à leur profil et à leur projet.

La vie associative

La diversité des étudiants et de leurs parcours est l’une de nos richesses. Sorbonne Université s’engage pour la réussite de chacun de ses étudiants.

21 393

usagers

17 527

étudiants

715

hospitalo-universitaires

12

centres de recherche

Chiffres-clés


Découvrir les dernières parutions

Toutes les parutions

Sorbonnavirus

Par Pierre-Marie Chauvin et Annick Clement

Regards sur la crise du coronavirus

La Rue qui nous sépare

Par Célia Samba

Les langues de la médecine

Par Pascaline Faure

La vague. L'épidémie vue du terrain

Par Renaud Pialoux

La médecin

Par Karine Lacombe, Fiamma Luzzati

Une infectiologue au temps du corona

Le Cinéma intérieur

Par Lionel Naccache

Projection privée au cœur de la conscience

Miction impossible

Par Pr Corinne Isnard Bagnis

Face aux risques

Par Pascal Griset, Jean-Pierre Williot, Yves Bouvier

Une histoire de la sûreté alimentaire à la santé environnementale

Ça se passe à la Faculté des Sciences et Ingénierie

Tout voir

Des formations riches et exigeantes

La faculté accompagne plus de 20 000 étudiants vers le monde professionnel grâce à une très large offre de formations adossées à la recherche, disciplinaires et interdisciplinaires, afin de répondre à tous les défis, scientifiques, technologiques et sociétaux. Son cycle d’intégration pluridisciplinaire et son dispositif majeure-mineure en licence, ses 80 parcours de masters, ses formations internationales, ses cursus en apprentissage et son offre de formation continue permettent de proposer des parcours riches et exigeants, adaptés aux projets de chacun, nourris par les recherches de ses enseignants-chercheurs et chercheurs.

Recherche

Couvrant tous les champs de la connaissance en sciences et ingénierie, la Faculté des Sciences et Ingénierie soutient la recherche au cœur des disciplines, la recherche aux interfaces, le développement de partenariat avec les entreprises, et favorise l'émergence de nouvelles thématiques pour répondre aux grands enjeux  du XXIe siècle.

La vie à
la Faculté des Sciences et Ingénierie

Que ce soit sur le campus Pierre et Marie Curie, ou dans ses trois stations biologiques, à Banyuls, Roscoff et Villefranche, la Faculté des Sciences et Ingénierie constitue à la fois un lieu d'enseignement, de recherche et d'épanouissement intellectuel, où cours, conférences, colloques, congrès, expositions et autres manifestations scientifiques rythment la vie de ses étudiants et de ses personnels.

La vie associative à la faculté des Sciences et Ingénierie

Vie associative

Découvrez la vie associative de la Faculté des Sciences et Ingénierie.