Kindle 3, esperanzas de accesibilidad en los lectores de libros electrónicos

En el día de hoy he tenido la oportunidad de probar un Kindle 3 de Amazon. Este dispositivo es uno de los lectores de libros electrónicos más conocidos del mercado.

Este modelo, aunque con menor relieve en las teclas físicas que modelos anteriores, sigue utilizando botones físicos fácilmente identificables por una persona ciega aunque hay que señalar que su principal interfaz es su pantalla de tinta electrónica.

Personalización de la visualización

El dispositivo permite ampliar el tamaño de letra y el espacio entre líneas de forma que una persona con problemas de visión parcial podría personalizar la visualización del texto para leer más cómodamente. Aunque hay que indicar que la pantalla es mate y sin retroiluminación. Tampoco permite invertir el color de la pantalla por lo que algunos perfiles de discapacidad visual pueden encontrar que las soluciones de visualización propuestas por Kindle resultan insuficientes para su perfil de discapacidad.

Síntesis de voz

Este modelo, importado de Reino Unido, incluye dos voces de bastante calidad. Personalmente opino que la voz masculina tiene mayor calidad que la femenina. El dispositivo permite 3 velocidades (lenta, normal y rápida). Las voces poseen bastante calidad de dicción y en el nivel normal de velocidad la entonación es muy buena.

El sistema de navegación en la obra es por páginas y modo lectura contínua.

Se desconoce si incluirá voces en castellano cuando Amazon abra su tienda en España por lo que aún no queda claro si el dispositivo resultará accesible para lectores ciegos que quieran leer textos en castellano.

Accesibilidad limitada

El dispositivo obliga a solicitar ayuda a alguien que vea bien para activar la voz para los menús y navegación y para la lectura de un libro. Lo mismo sucede para personalizar el tamaño de letra y demás opciones de visualización.

Pero el principal problema de accesibilidad que presenta el dispositivo es que muchos libros presentes en la tienda de libros de Amazon poseen características de protección del Copyright del autor que impiden leer la obra utilizando la síntesis de voz. Aunque varias asociaciones de ciegos de EEUU han comunicado su protesta a Amazon parece que las presiones de editoriales y escritores son más importantes que el derecho a la integración y al acceso a la cultura por parte de personas con discapacidad visual.

Convertidores de texto a voz

Las personas ciegas, desde hace unas décadas, han tomado el hábito de leer utilizando grabaciones de los textos de su interés. Para ello se han utilizado multitud de formatos mediante cintas magnetofónicas, las clásicas cassettes hasta llegar a la última tecnología de sonido digital utilizando CDs en formato Daisy.

El problema de leer un texto mediante una grabación de voz era que había que esperar a que un locutor, fuese de una organización de ciegos, una persona voluntaria o una colaboración con una institución, grabase el libro en audio y se editase para su correcta lectura. Esto provocaba que un ciego debiese esperar, al menos, 12 meses desde la aparición de un libro hasta la posibilidad, no asegurada, de leerlo en cinta.

En los últimos años la tecnología ha permitido la aparición de una alternativa más que fantástica, la utilización de la síntesis de voz digital, propia de equipos informáticos, para convertir textos digitales a grabaciones sonoras.

Al principio las voces eran demasiado metálicas y monótonas, por lo que este tipo de software era utilizado por personas que realmente lo necesitasen. En la actualidad la calidad de las voces ha mejorado tanto que es utilizado por multitud de personas y servicios de atención y comunicación sonora. Es un claro ejemplo de tecnología de uso exclusivo de personas con discapacidad que se ve empujada por el creciente interés de todos los públicos por su gran utilidad.

Las voces digitales dependen de un motor de síntesis de voz, capáz de comunicarse con la tarjeta de sonido del equipo informático para reproducir los diversos sonidos encadenados que formarán las frases habladas. Además, este motor de voz tendrá encuenta reglas lingüísticas y de entonación. Pero el motor de voz necesita de unos patrones sonoros o de pequeñas grabaciones de pronunciación que permitan definir el tono, el acento y la sonoridad final que tendrá la grabación, a este conjunto de datos se le conoce como una voz para un motor de síntesis.

En los sistemas operativos pertenecientes a la familia Microsoft Windows existen unas librerías para poder utilizar diversos motores de voz de forma sencilla para aumentar la compatibilidad entre software. Estas librerías son conocidas como SAPI (Speech Application Program Interface).

Puedes obtener el motor de síntesis de voz SAPI 5.1 de la página de descarga de SAPI 5.1 aunque en las versiones actuales de Microsoft Windows, más concretamente a partir de la versión de Windows XP, SAPI 5 ya viene incluida en el sistema.

En idioma castellano hay multitud de voces gratuítas para el formato SAPI 4. Para Microsoft Windows XP/2003/Vista (últimas versiones de este sistema operativo) se utiliza, de serie, el formato SAPI 5.1. Hay pocas voces gratuítas para este formato aunque podemos utilizar la voz de Isabel para SAPI 5.1. Hay compañías, como Loquendo o Nuance, que se dedican a crear voces de calidad para terminales de atención al cliente, puntos de venta automatizados o sistemas de megafonía para estaciones de transporte y aeropuertos.

En los equipos con MacOS X, el sistema operativo de Apple para sus equipos portátiles y de sobremesa, existe integrado en el sistema un motor de voz genérico que puede ser utilizado por diversos programas y servicios del sistema. Actualmente se incluyen varias voces con diversos acentos y efectos sonoros aunque el problema es que todas las voces están en inglés. Se pueden adquirir voces para otros idiomas.

En GNU-Linux tenemos varios motores o librerías de síntesis de voz como Festival, Mbrola o una versión para GNU-Linux de Eloquence. Todos estos motores de voz se utilizan en el sistema a través de un interfazque comunique las aplicaciones del sistema con el motor de voz, un ejemplo de este tipo de interfaz es Gnome-speech.

En un equipo informático con un motor de síntesis de voz instalado, con sus correspondientes voces, podemos utilizar algunos programas especializados en convertir textos digitales a ficheros de audio. Son los programas conocidos como conversores de texto a voz. Estos programas nos permiten convertir largos textos en formato Word, TXT, RTF o PDF en un conjunto de ficheros de sonido en formato MP3 que podemos escuchar con nuestro reproductor portatil de música mientras caminamos o utilizamos el transporte público.

Una opción sencilla y gratuíta es el programa DSpeech, que funciona tanto con SAPI 4.0 y SAPI 5.1 permitiendo convertir textos a formato WAV o MP3. Puedes obtener DSpeech en castellano y valenciano de la web de Tifloinforma. Su instalación es muy sencilla ya que sólo debes descomprimir el fichero comprimido en la carpeta donde quieras guardar DSpeech y ejecutar el archivo .EXE que hay en su interior.

Para MacOS X existe el programa Ghost reader. Este programa nos permite convertir cualquier documento de texto que pueda abrir la vista previa en un fichero mp3 o m4b utilizando las voces del sistema o unas voces compatibles con este programa e incluir el resultado de la conversión directamente en nuestra librería de iTunes para poder leer el documento en nuestro iPod, iPhone o dispositivo móvil de Apple.

Excepciones de pronunciación para VoiceOver en MacOS X

Los usuarios de lectores de pantalla encuentran un serio problema a la hora de comprender ciertos mensajes que transmite su dispositivo al usuario a través de una síntesis de voz. Estos problemas se suelen originar por una incorrecta pronunciación por parte de la síntesis de voz de algunos términos o palabras en otros idiomas, siglas o términos científicos.

Algunos motores de síntesis de voz, como Infovox ivox para MacOS X, incorporan un mecanismo de personalización de pronunciación que permite modificar algunas palabras a la hora de ser pronunciadas. El problema aparece cuando el propio motor de voz posee ciertos términos predefinidos a la hora de ser pronunciados. Un ejemplo puede ser dl ( decílitro). La herramienta de diccionario, que es como se conoce a este tipo de aplicaciones que permiten modificar el comportamiento de una síntesis de voz a la hora de pronunciar algunas palabras, aunque admita el nuevo término, no cambiará la pronunciación ya que las pronunciaciones predefinidas poseen más prioridad que las pronunciaciones definidas por el usuario.

La solución pasa por utilizar la herramienta de diccionario del propio lector de pantallas. En el caso de Infovox iVox, al tratarse de MacOS X, es VoiceOver.

Realizaremos un breve ejercicio de modificar la pronunciación de dl (decílitro) por dl (de ele).

Abriremos la ventana de configuración de VoiceOver pulsando VO+F8. Las teclas VO corresponden a pulsar Control+ALT, por lo que la pulsación anterior sería Control+ALT+F8. Se abrirá la ventana de configuración de voiceOver.

En la categoría llamada Texto hablado encontraremos la pestaña Pronunciación.

Aquí encontraremos una tabla con las modificaciones de pronunciación definidas por el usuario. En la parte baja de la ventana encontraremos el botón agregar para añadir una nueva modificación de pronunciación.

Al pulsar el botón agregar VoiceOver nos llevará a un cuadro de texto vacío donde deberemos meter el término original, en nuestro caso las letras d (de) y l (ele). Tras introducirlas debemos pulsar la tecla tabular, VoiceOver nos llevará a un nuevo campo de texto vacío donde deberemos introducir cómo queremos que se pronuncie el nuevo término. En nuestro caso recomiendo escribir de,ele.

Si seguimos pulsando la tecla tabular pasaremos a un botón de menú para especificar si queremos que el cambio de pronunciación afecte a todo el sistema o a una aplicación en concreto. Esto es util, por ejemplo, para modificar la pronunciación de emoticonos en nuestra aplicación de chat habitual.

Si pulsamos una vez más la tecla tabular nos lleva a una casilla de verificación que nos permite indicar si queremos que se distinga entre mayúsculas o no a la hora de pronunciar. Esto significa que no será lo mismo ms que Ms, o mS o MS (cambiando algunas letras por mayúsculas en cada caso).

Una vez creado nuestra nueva regla de pronunciación podemos cerrar la ventana de configuración de VoiceOver o buscar el botón agregar para añadir otra nueva regla de pronunciación.