Más voces para idiomas no habituales en iOS con RHVoice

Desde 2023 Apple empezó a permitir que algunas aplicaciones aporten motores de síntesis de voz alternativos que pueden integrarse con VoiceOver y con cualquier app que utilice el motor TTS del sistema. RHVoice es una de esas aplicaciones, y su enfoque es especialmente interesante para quienes priorizan ligereza, rapidez y cobertura lingüística antes que la naturalidad “neuronal” de las voces comerciales.

RHVoice es un sintetizador de voz gratuito y de código abierto, pensado desde el inicio para ser útil a personas ciegas o con dificultad para acceder al texto impreso, y con especial interés en idiomas donde no siempre existen voces “premium” accesibles y de calidad para lectores de pantalla.

Al momento de escribir este artículo se incluyen voces para los idiomas luxemburgués, macedonio y albanés.

Este motor de síntesis de voz emplea síntesis paramétrica estadística (apoyándose en tecnologías abiertas como HTS y software relacionado). Debido a esto el tamaño de descarga suele ser reducido porque se almacenan modelos estadísticos en lugar de ficheros de sonido grandes.

Debido al pequeño tamaño de las voces la naturalidad puede ser inferior a la de sistemas basados en concatenación de grabaciones o redes neuronales, aunque la comprensibilidad de la voz es aceptable.

RHVoice en la App Store

La aplicación está publicada por Non-Routine LLC, es gratuita, ocupa alrededor de 10,5 MB y requiere iOS/iPadOS 16.2 o posterior. También ofrece versión para macOS (13.1 o posterior) y aparece listada para Apple Vision.

RHVoice no incluye voces “de serie”. Esto se hace para reducir el tamaño inicial y para que las actualizaciones de voces sean más simples.

Al abrir la app verás la lista de idiomas disponibles; al entrar en un idioma, se muestran las voces y puedes descargarlas con el botón correspondiente. Dentro de las opciones puedes cambiar entre dos niveles de calidad de voz.

Puedes descargar RHVoice desde la AppStore.

Más voces para tu iPhone y tu iPad con eSpeakNG

Desde iOS17 es posible instalar más voces para usar en los dispositivos móviles de Apple como el iPhone o el iPad.

Aunque la síntesis de voz en los dispositivos móviles actuales se asocia a voces neuronales de alta naturalidad y a catálogos cada vez más completos, también existe un espacio igualmente relevante para soluciones ligeras, abiertas y muy multilingües. En ese terreno se sitúa eSpeak-NG, una app disponible en la App Store que actúa como puente entre la biblioteca eSpeak-NG y VoiceOver, con el objetivo de hacer utilizables estas voces en iOS, iPadOS y macOS sin tener que recurrir a integraciones complejas por parte del usuario.

Este tipo de voces son de poco peso en memoria y muy personalizables. Además están disponibles en muchos idiomas para los que, oficialmente, no existen voces de alta calidad.

¿Qué es eSpeak-NG?

Se trata de la evolución comunitaria de eSpeak, el motor creado originalmente por Jonathan Duddington.

Este motor de síntesis de voz se enfoca en ofrecer soporte para muchos idiomas y variantes con un tamaño reducido y un consumo contenido de recursos, a costa de una sonoridad menos natural que la de sintetizadores basados en grabaciones humanas. Este enfoque, basado en síntesis por formantes, explica por qué eSpeak (y su “Next Generation”) sigue siendo útil en ámbitos donde la ligereza, la velocidad y la cobertura lingüística pesan más que el realismo.

eSpeak-NG en la AppStore

La app de eSpeak-NG para Apple, publicada por Yury Popov, se describe explícitamente como una “capa de compatibilidad” entre la librería eSpeak-NG y VoiceOver.

Con la instalación de esta app se consigue que el sistema y el lector de pantalla puedan acceder a esas voces y a su configuración sin que el usuario tenga que montar entornos externos, compilar nada o depender de otras soluciones.

Puedes instalar eSpeak-NG desde la AppStore.

Soporte para Vox libri

La aplicación de lectura de libros Vox libri es compatible con este motor. Esto implica que al instalar la aplicación de eSpeak-NG podremos utilizar las voces de eSpeak para leer nuestros libros con Vox libri.

Cómo crear una voz sintética con tu propia voz en macOS

La voz es una parte esencial de la identidad. No solo transmite información, también comunica personalidad, intención, estado de ánimo y cercanía. Por ese motivo, la posibilidad de conservar la voz y usarla como voz sintética en un ordenador no es un simple capricho tecnológico: es una herramienta con impacto real en autonomía, accesibilidad y dignidad, especialmente para personas que pueden perder la capacidad de hablar o que necesitan apoyos de comunicación.

También las personas con trastorno del espectro autista u otros perfiles de discapacidad cognitiva se pueden beneficiar de esta característica al incluir la voz de un familiar o un terapeuta de confianza para la persona. De esta forma la atención y la seguridad se unen a los beneficios de esta característica.

En el ecosistema de Apple podemos encontrar Personal Voice, más conocido como Voz personal, una función de accesibilidad que permite crear una voz sintética a partir de las grabaciones de una voz humana real.

Esta voz puede ser utilizada en el sistema para las notificaciones, el servicio de Live Speech (Voz en tiempo real) o para VoiceOver, el lector de pantallas de Apple.

Requisitos y consideraciones antes de empezar

En macOS Personal Voice está disponible solo en ordenadores con procesadores Apple silicon, y no está disponible en todos los idiomas o regiones. Además, Apple indica que para crear una Voz personal en el Mac necesitas tener contraseña de inicio de sesión configurada, ya que se solicita durante el proceso de creación.

Aunque el proceso oficialmente dura pocos minutos, este tiempo dependerá de la versión del hardware y del sistema operativo que estemos utilizando.

Crear tu voz paso a paso

En el menú de ajustes del Mac, debemos ir al apartado de accesibilidad y allí buscar la opción de Voz personal.

Dentro encontraremos el botón Crear una voz personal. Este botón comienza el proceso de creación.

Además en esta pantalla encontramos información sobre esta característica de accesibilidad, cuántas voces tenemos creadas, si queremos compartir nuestra voz con todos nuestros dispositivos de Apple y si queremos que nuestra voz pueda ser utilizada por otras aplicaciones como, por ejemplo, aplicaciones de lectura de libros.

El proceso de creación

Al pulsar el botón de Crear una voz personal daremos comienzo al proceso de creación.

Al comenzar el proceso de creación el sistema te guiará por una grabación de frases. El objetivo de estas lecturas es capturar suficientes muestras para que el modelo genere una voz que se parezca a la voz original.

Se puede grabar con el micrófono integrado del Macbook, pero se recomienda un micrófono externo o unos auriculares con micrófono integrado ya que con mejor calidad en la grabación obtendremos mayor calidad en la voz resultante.

Aparecerá la petición de autenticación en tu cuenta de iCloud. Tras identificarnos aparecerá un diálogo con información sobre el proceso:

Grábate,

Tendrás que leer en voz alta un conjunto de 10 frases.

Genera tu voz personal,

El Mac creará tu voz personal y la almacenará de forma segura.

Usa tu voz personal,

Usa la voz en tiempo real para decir lo que escribas.

Si has creado una voz personal, también la podrás usar con las funciones de lectura y voz, VoiceOver y las apps de comunicación aumentativa.

Y unos botones para cancelar y continuar.

Apple también contempla la posibilidad de pausar y retomar el proceso, guardando el progreso para continuar en otro momento.

Al pulsar el botón de Continuar deberemos seleccionar el idioma para realizar la grabación.

En el momento de escribir este artículo los idiomas disponibles son: inglés de Estados unidos, español de México y chino mandarín de China continental.

En nuestro caso elegiremos español y volveremos a pulsar en Continuar.

En el siguiente paso el sistema nos pregunta por el nombre que le daremos a la voz.

Luego se necesita realizar una descarga de un contenido previo para la grabación de 1Gb. Debemos esperar a que termine la descarga.

Si se necesita configurar algún aspecto de la red se puede volver al proceso al abrir de nuevo los ajustes del Macbook, accesibilidad y de nuevo entrar en el panel de Voz personal.

En la lista de voces veremos nuestra voz en un estado similar a quedan 10 frases por grabar.

Al terminar de grabar las frases el procesamiento se realizará de forma segura en el propio dispositivo y el sistema te avisará cuando la voz esté lista para usarse.

Durante el proceso de grabación tendremos que verbalizar frases del tipo: Estoy creando una voz personal con mi Mac, ¿Te gusta coleccionar pósters de películas?, .

En el caso de utilizar lector de pantallas es recomendable que utilicemos auriculares para evitar que la voz de VoiceOver se mezcle con la grabación.

Cada vez que grabemos una de las frases, pulsando el botón de grabar, podemos escuchar el resultado o pasar a la siguiente frase.

Una vez terminado el proceso de grabación se mostrará un mensaje del tipo:

Recibirás una notificación,

Cuando se haya terminado de generar tu voz personal, recibirás una notificación. El proceso no debería tardar más de un minuto..

Recomendaciones prácticas para una mejor calidad

Aunque el sistema guía el proceso, la calidad final suele mejorar cuando se graba en un entorno silencioso y estable, se mantiene una distancia constante al micrófono y se evita cambios bruscos de postura.

También ayuda leer con una dicción natural, sin forzar un tono de locutor, porque el objetivo no es interpretar, sino capturar la voz cotidiana. Si se tiene fatiga vocal, es preferible pausar y continuar más tarde; Apple permite retomar la grabación sin perder el progreso.

Uso de nuestra voz personal

Una vez creada la voz podemos activarla para compartirla entre todos nuestros dispositivos y con otras aplicaciones.Podemos realizar una prueba con la función de Voz en tiempo real que aparece en los ajustes de accesibilidad de nuestro Mac. Para ello en el campo de idioma dejamos el valor de Idioma de voz del sistema y como voz seleccionamos el nombre de nuestra voz personal.En el campo de frases para hablar introducimos el texto que queremos verbalizar y pulsamos el botón Hablar o pulsamos la tecla enter.

Creación de la voz en otros dispositivos

Este proceso también se puede completar en un iPhone, un iPad o unas Apple Vision Pro. Se recomienda realizar, en cambio, el proceso en el Mac porque el procesador es más potente y se pueden utilizar micrófonos externos con mayor facilidad.

Se puede consultar la ayuda oficial de Apple para la creación de voces en su portal de soporte.

Convierte de texto a voz con AppleScript

A veces puede que necesitemos convertir un fichero de texto a un fichero de audio utilizando las voces que vienen incluidas en MacOS. Para este tipo de situaciones Tyflos accessible software ha publicado un proyecto sencillo que realiza esta función.

Este proyecto incluye un script de AppleScript que te permite seleccionar una de las voces del sistema y abrir un fichero de texto en formato txt. El script realizará la conversión a fichero de audio con la voz seleccionada de forma automática.

Este proyecto es de caracter software libre por lo que cualquiera puede utilizarlo y participar para mejorarlo.

Puedes encontrar el script en la página del proyecto TTSConverter en Github.