NVIDIA: Investigación de Síntesis de Voz Expresiva en Interspeech

NVIDIA Comparte la Investigación de Síntesis de Voz Expresiva en Interspeech.

@reaccionfmtv

NVIDIA presenta innovaciones en MODELOS de IA Conversacional en INTERSPEECH

Interspeech es el evento que reune a más de 1,000 investigadores para mostrar trabajos pioneros en la tecnología del habla y es por eso que NVIDIA se ha unido este año a las conferencias para demostrar los avances que su equipo de investigadores han logrado en la arquitectura de modelos de IA conversacional.

Sabemos que la IA ha transformado el habla sintetizada y hay grandes avances que eliminan ese tono monótono de computadora en los diferentes dispositivos con los que interactuamos día con día, sin embargo, aún hay una brecha y algunos desafios para poder emular el ritmo y la entonación de las complejas formas de hablar de los humanos.

NVIDIA esta creando modelos y herramientas para una síntesis de voz controlable y de alta calidad que capture la riqueza del habla humana sin artefactos de audio. Estos modelos ayudaran en líneas de servicio al cliente autmatizadas por voz, dar vida a personajes en videos o videojuegos, audiolibros y proporcionar estas mismas ventajas en tiempo real para avatares digitales.

La síntesis de voz expresiva es sólo un elemento de trabajo del área de investigación de NVIDIA en lo que se refiere a la inteligencia artificial conversacional, ya que también se abarca el procesamiento de lenguaje natural, el reconocimiento de voz, detección de palabras clave, la mejora del audio y mucho más.

De la mano de la investigación NVIDIA a dado acceso a un kit de herramientas de código abierto llamada NeMo disponible en NGC. Las APIS son sencillas de usar y los modelos previamente entrenados en NeMo ayudan a los investigadores a desarrollar y personalizar modelos para conversión de texto a voz, procesamiento de lenguaje natural y reconocmiento de voz automatizado en tiempo real.

Varios de los modelos se entrenan durante más de 100,000 horas en sistemas NVIDIA DGX en conjuntos de datos de código abierto y se pueden ajustar para el caso de uso de un desarrollador mediante la computación de precisión mixta en las GPU NVIDIA Tensor Core.

NVIDIA NeMo también ofrece modelos entrenados en Mozilla Common Voice a través de NGC, un conjunto de datos con casi 14,000 horas de datos de voz de origen colectivo en 76 idiomas. Con el apoyo de NVIDIA, el proyecto tiene como objetivo democratizar la tecnología de voz con el conjunto de datos de voz de datos abiertos más grande del mundo.

Screen-Shot-2020-10-08-at-7.14.16-PM-696x304

Los investigadores y profesionales creativos de NVIDIA no se limitan a hablar sobre la IA conversacional, sino que hacen lo propio y ponen en práctica modelos innovadores de síntesis de voz en nuestra serie de vídeos I AM AI.

Estos videos destacan las vastas aplicaciones de la IA en todas las industrias, pero hasta hace poco, fueron siempre narrados por un ser humano. Los modelos de síntesis de voz existentes ofrecían un control limitado sobre el ritmo y el tono de una voz sintetizada, por lo que los intentos de narración de IA no evocaban la respuesta emocional en los espectadores que un locutor humano talentoso podía lograr.

Eso cambió el año pasado, cuando nuestro equipo de investigación de texto a voz desarrolló modelos de síntesis de voz más potentes y controlables como RAD-TTS, que se utiliza en la demostración ganadora de NVIDIA en la competencia SIGGRAPH Real-Time Live. Al alimentar el modelo de texto a voz entre 5 y 30 minutos de audio de entrenamiento del habla de un individuo, la IA puede convertir cualquier mensaje de texto en la voz del hablante.

Otra de sus funciones es la conversión de voz, en la que las palabras de un hablante (o incluso el canto) se transmiten con la voz de otro hablante. Inspirada en la idea de la voz humana como instrumento musical, la interfaz RAD-TTS brinda a los usuarios un control detallado a nivel de cuadro sobre el tono, la duración y la energía de la voz sintetizada.

Con esta interfaz, nuestro productor de video podría grabarse a sí mismo leyendo el guión del video y luego usar el modelo de IA para convertir su discurso en la voz de la narradora. Usando esta narración de línea de base, el productor podría dirigir la IA como un actor de voz, ajustando el discurso sintetizado para enfatizar palabras específicas y modificando el ritmo de la narración para expresar mejor el tono del video.

Las capacidades del modelo de inteligencia artificial van más allá del trabajo de voz en off: la conversión de texto a voz se puede utilizar en games, para ayudar a las personas con discapacidades vocales o incluso para ayudar a los usuarios a traducir entre idiomas con su propia voz. Incluso puede recrear las actuaciones de cantantes icónicos, haciendo coincidir no solo la melodía de una canción, sino también la expresión emocional detrás de las voces.

Podrás conocer MÁS de los proyectos de síntesis y reconocimiento de voz hasta el 03 de Septiembre en las diferentes conferencias de INTERSPEECH 2021 en las siguientes sesiones dirigidas por oradores de NVIDIA:

Vea las siguientes sesiones dirigidas por oradores de NVIDIA:

Scene-Agnostic Multi-Microphone Speech Dereverberation — Martes, 31 de Agosto
SPGISpeech: 5,000 Hours of Transcribed Financial Audio for Fully Formatted End-to-End Speech Recognition — Miércoles – 1ª de Septiembre
Hi-Fi Multi-Speaker English TTS Dataset — Miércoles – 1ª de Septiembre
TalkNet 2: Non-Autoregressive Depth-Wise Separable Convolutional Model for Speech Synthesis with Explicit Pitch and Duration Prediction — Jueves, 2 de Septiembre
Compressing 1D Time-Channel Separable Convolutions Using Sparse Random Ternary Matrices — Viernes, 3 de Septiembre
NeMo Inverse Text Normalization: From Development To Production — Viernes, 3 de Septiembre