Los conflictos entre usuarios y los diccionarios de pronunciación de las síntesis de voz

Los usuarios con discapacidad visual severa habitualmente utilizan para acceder a sus dispositivos electrónicos un producto de apoyo conocido como lector de pantalla. Este tipo de software utiliza habitualmente una voz sintética para transmitir al usuario ciego la información del dispositivo.

Estas voces sintéticas o síntesis de voz suelen utilizar un diccionario de reglas y un conjunto fonético apropiado para el idioma del usuario. Incluso hay distintas versiones de un mismo idioma según la región como por ejemplo inglés de Estados unidos, británico o australiano así como español de España, de Méjico o español de Estados unidos.

Problemas de dicción y pronunciación

Algunos fabricantes de voces sintéticas utilizan locutores para grabar las voces originales y, tras un laborioso proceso de digitalización y análisis, se obtiene un cuadro fonético para crear los sonidos base para pronunciar los diversos contenidos textuales.

Algunas voces sintéticas son famosas por su calidad pero también las hay famosas por sus errores de dicción. Estos errores pueden originarse por un problema del locutor o por un error en el análisis previo de la información sonora. Por ejemplo, es conocido un error en una de las voces de la empresa Acapela group a la hora de pronunciar el monema type. En lugar de pronunciar tipe o táip se podía escuchar un silbido. Esto se debió a un error de asignación para el valor ype o type al que asignaron los fabricantes un tiempo concreto de la grabación en el que el locutor silbó para grabar posibles elementos para aportar emotividad a la síntesis de voz utilizando grabaciones de carcajadas, lloros, silbidos y demás.

Otro gran problema de pronunciación se origina en el diccionario de pronunciación que incluyen muchas voces. Este servicio es incluido por los fabricantes para aportar un poco de inteligencia a su síntesis de voz. El problema es que normalmente no hay un mecanismo para desactivar este diccionario de pronunciación interno y encontramos que algunos lectores de pantalla, al encontrar las siglas VB refiriéndose a Visual Basic la síntesis de voz pronuncia visto bueno. Otro problema conocido es el de signos de puntuación o caracteres no alfabéticos. Por ejemplo, es conocido el problema en OSX a la hora de pronunciar el carácter arroba (@), en lugar de pronunciar el carácter en castellano pronuncia algo parecido a alas.

Por último indicar un grave problema relacionado con la pronunciación de siglas, números romanos expresiones matemáticas imposibles o palabras en otros idiomas. Algunos ejemplos de estos problemas podemos encontrarlos a la hora de recorrer la agenda de contactos, por ejemplo, Carlos Vicente,al tener un nombre muy largo sólo se mostrará en la agenda como Carlos V y el lector de pantallas pronunciará Carlos quinto. Una versión de una voz sintética para Windows dejaba de funcionar si encontraba una expresión matemática imposible como era el ordinal femenino de 0 (0 ª). Podía pronunciar primera, segunda, tercera, … pero la expresión cerera no existe. Una voz sintética para Linux era incapaz de pronunciar, utilizando la voz en inglés o español, ciertas palabras en alemán u holandés donde se encontraban varias consonantes consecutivas sin ningún tipo de vocal. La síntesis de voz terminaba por marcar un error de ejecución y cerraba el lector de pantallas.

Soluciones a estos problemas

En un primer lugar el usuario puede transmitir al fabricante de la voz sintética y del lector de pantallas el problema. En el caso de no hacer caso como sucede con Apple, Freedom scientific o Acapela, podemos personalizar nuestro propio diccionario de pronunciación.

Los lectores de pantalla más avanzados suelen incluir una característica de personalización para el usuario para la corrección de errores de pronunciación. Así el nombre Jonathan podría pronunciarse correctamente como Yónathan.

Los lectores de pantallas más comunes para equipos de escritorio como JAWS, NVDA, Orca, VoiceOver o Dolphin Hal incluyen esta característica.

Convertidores de texto a voz

Las personas ciegas, desde hace unas décadas, han tomado el hábito de leer utilizando grabaciones de los textos de su interés. Para ello se han utilizado multitud de formatos mediante cintas magnetofónicas, las clásicas cassettes hasta llegar a la última tecnología de sonido digital utilizando CDs en formato Daisy.

El problema de leer un texto mediante una grabación de voz era que había que esperar a que un locutor, fuese de una organización de ciegos, una persona voluntaria o una colaboración con una institución, grabase el libro en audio y se editase para su correcta lectura. Esto provocaba que un ciego debiese esperar, al menos, 12 meses desde la aparición de un libro hasta la posibilidad, no asegurada, de leerlo en cinta.

En los últimos años la tecnología ha permitido la aparición de una alternativa más que fantástica, la utilización de la síntesis de voz digital, propia de equipos informáticos, para convertir textos digitales a grabaciones sonoras.

Al principio las voces eran demasiado metálicas y monótonas, por lo que este tipo de software era utilizado por personas que realmente lo necesitasen. En la actualidad la calidad de las voces ha mejorado tanto que es utilizado por multitud de personas y servicios de atención y comunicación sonora. Es un claro ejemplo de tecnología de uso exclusivo de personas con discapacidad que se ve empujada por el creciente interés de todos los públicos por su gran utilidad.

Las voces digitales dependen de un motor de síntesis de voz, capáz de comunicarse con la tarjeta de sonido del equipo informático para reproducir los diversos sonidos encadenados que formarán las frases habladas. Además, este motor de voz tendrá encuenta reglas lingüísticas y de entonación. Pero el motor de voz necesita de unos patrones sonoros o de pequeñas grabaciones de pronunciación que permitan definir el tono, el acento y la sonoridad final que tendrá la grabación, a este conjunto de datos se le conoce como una voz para un motor de síntesis.

En los sistemas operativos pertenecientes a la familia Microsoft Windows existen unas librerías para poder utilizar diversos motores de voz de forma sencilla para aumentar la compatibilidad entre software. Estas librerías son conocidas como SAPI (Speech Application Program Interface).

Puedes obtener el motor de síntesis de voz SAPI 5.1 de la página de descarga de SAPI 5.1 aunque en las versiones actuales de Microsoft Windows, más concretamente a partir de la versión de Windows XP, SAPI 5 ya viene incluida en el sistema.

En idioma castellano hay multitud de voces gratuítas para el formato SAPI 4. Para Microsoft Windows XP/2003/Vista (últimas versiones de este sistema operativo) se utiliza, de serie, el formato SAPI 5.1. Hay pocas voces gratuítas para este formato aunque podemos utilizar la voz de Isabel para SAPI 5.1. Hay compañías, como Loquendo o Nuance, que se dedican a crear voces de calidad para terminales de atención al cliente, puntos de venta automatizados o sistemas de megafonía para estaciones de transporte y aeropuertos.

En los equipos con MacOS X, el sistema operativo de Apple para sus equipos portátiles y de sobremesa, existe integrado en el sistema un motor de voz genérico que puede ser utilizado por diversos programas y servicios del sistema. Actualmente se incluyen varias voces con diversos acentos y efectos sonoros aunque el problema es que todas las voces están en inglés. Se pueden adquirir voces para otros idiomas.

En GNU-Linux tenemos varios motores o librerías de síntesis de voz como Festival, Mbrola o una versión para GNU-Linux de Eloquence. Todos estos motores de voz se utilizan en el sistema a través de un interfazque comunique las aplicaciones del sistema con el motor de voz, un ejemplo de este tipo de interfaz es Gnome-speech.

En un equipo informático con un motor de síntesis de voz instalado, con sus correspondientes voces, podemos utilizar algunos programas especializados en convertir textos digitales a ficheros de audio. Son los programas conocidos como conversores de texto a voz. Estos programas nos permiten convertir largos textos en formato Word, TXT, RTF o PDF en un conjunto de ficheros de sonido en formato MP3 que podemos escuchar con nuestro reproductor portatil de música mientras caminamos o utilizamos el transporte público.

Una opción sencilla y gratuíta es el programa DSpeech, que funciona tanto con SAPI 4.0 y SAPI 5.1 permitiendo convertir textos a formato WAV o MP3. Puedes obtener DSpeech en castellano y valenciano de la web de Tifloinforma. Su instalación es muy sencilla ya que sólo debes descomprimir el fichero comprimido en la carpeta donde quieras guardar DSpeech y ejecutar el archivo .EXE que hay en su interior.

Para MacOS X existe el programa Ghost reader. Este programa nos permite convertir cualquier documento de texto que pueda abrir la vista previa en un fichero mp3 o m4b utilizando las voces del sistema o unas voces compatibles con este programa e incluir el resultado de la conversión directamente en nuestra librería de iTunes para poder leer el documento en nuestro iPod, iPhone o dispositivo móvil de Apple.