DeepMind de Google ahora está aprendiendo a hablar como un humano

DeppMind de Google es un increíble proyecto de inteligencia artificial y uno de computación de redes neuronales, que ya ha dado frutos increíbles, como la victoria absoluta contra Lee Sedol, el campeón mundial de Go a manos AlphaGo, o convertirse en jugador profesional de Atari en cuestión de horas.

Pero allí no termina todo. Parece que Google quiere experimentar por todos lados, el potencial que tiene esta singular computadora, y es por ello que ha abierto el proyecto WaveNet, que tiene como objetivo perfeccionar el habla de las computadoras.

Hasta ahora todos estamos acostumbrados a escuchar la voz mecanizada de Siri, Google Now y otros asistentes de voz, que usan mecanismos de transformación de texto a voz, que no son perfectos y nos permiten identificar claramente que se trata de una máquina. Sin embargo, el objetivo de WaveNet es producir una salida de voz casi tan perfecta, que no nos podríamos decidir si se trata de una maquina o una persona de verdad. Juzguen los primeros resultados por ustedes mismos.

Para lograr estos resultados tan sorprendentes, Google se ha alejado de las aproximaciones tradiciones para convertir el texto a voz, conocidas como concateniativas y paramétricas. Las concatenativas se basan en una extensa base de datos de fragmentos de sonidos que son unidos para formar frases. Sin embargo, el resultado es un poco dispar y muchas veces carente de las acentuaciones naturales que hacemos al hablar para dar énfasis a las palabras. Por su lado las técnicas paramétricas usan algoritmos para tratar de emular la voz humana cuando se le dan parámetros especiales sobre acentuación y velocidad. No obstante, el resultado suena incluso más robotizado que el modelo concatenativo.

WaveNet en lugar de usar un input como texto o datos para buscar la salida en una base de datos, usa sus algoritmos predictivos para modelar directamente las ondas de sonido que se van a producir, utilizando todo lo que ha aprendido en ocasiones pasadas al escuchar cientos de conversaciones humanas naturales. De esta manera WaveNet puede modelar casi cualquier tipo de sonido al que se le de aprender, como la voz humana o incluso la música, convirtiéndose en compositor de música clásica si se quiere.

De esta forma una onda de audio de un segundo, puede contener miles de cálculos realizados por WaveNet, donde cada punto en la onda se genera en conformidad con el resto de puntos anteriores, para armonizar y crear un sonido natural. Los resultados de esta técnica son tan buenos, que incluso cuando no se le da un texto para hablar a la computadora, sino que se la deja balbucear a su gusto sonidos inentendibles, pareciera como si escucháramos a una persona hablar en un idioma que no conocemos pero que de igual manera suena natural.

Ahora, cuando el mismo experimento se hace con música, y se permite a la computadora “hablar” la música que ella quiera, el resultado entonces no es una pieza musical descoordinada, sino una bonita melodía que pareciera tener su propio ritmo.

Más información y ejemplos de audio en WaveNet.

Recibe "", nuestra newsletter semanal

Explora en nuestros medios