Síntesis de habla

voz artificial, generada mediante un proceso de sintetización del habla / De Wikipedia, la enciclopedia libre

La síntesis de habla es la producción artificial del habla. El sistema computarizado que es usado con este propósito es llamado computadora de habla o sintetizador de voz y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.[1]

Stephen Hawking fue una de las personas más famosas en emplear un sintetizador de voz para comunicarse

El habla sintetizada puede ser creada a través de la concatenación de fragmentos de habla grabados que son almacenados en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos y difonos permite un mayor rango de sonidos pero carece de claridad. Para usos específicos, el tamaño del almacenamiento de palabras completas u oraciones permite una mayor calidad de audio. De manera alternativa, un sintetizador puede incorporar un modelo de tracto vocal u otras características de la voz humana para recrear completamente una voz "sintética".[2]

La calidad de un sintetizador de voz se juzga por la similitud que tenga con la voz humana y su habilidad para ser entendido con claridad. Un programa de conversión de texto en habla inteligible permite que las personas con discapacidades visuales o dificultades para leer puedan escuchar textos en una computadora. Muchos sistemas operativos tienen sintetizadores de voz integrados desde principios de los noventa.

Diagrama de un sistema TTS típico

Un sistema o "motor" de texto a habla (TTS) está compuesto de dos partes:[3] un front-end y back-end. El front-end tiene dos tareas principales. Primero, convertir el texto con caracteres, números, símbolos y abreviaciones en su equivalente en palabras escritas. Este proceso es llamado como "normalización del texto", "pre-procesamiento" o "tokenización", posteriormente el front-end asigna una transcripción fonética a cada palabra, marca y divide el texto en unidades prosódicas, como frases, cláusulas y oraciones. El proceso de asignar transcripciones fonéticas a las palabras es llamado conversión "texto a fonema" o "grafema a fonema". La información de transcripciones fonéticas o prosódicas preparan la información de la representación simbólica lingüística que es el resultado del front-end. El back-end, comúnmente referido como el "sintetizador", convierte la representación simbólica lingüística en sonido. En algunos sistemas, esta parte incluye el cómputo de "intención prosódica" (tono del perfil, duración de los fonemas),[4] el cual es implementado en la voz de salida.