Madrid, España, 5 de abril de 2023. La irrupción de los últimos modelos de lenguaje y los avances en inteligencia artificial (IA) puso en alerta a los trabajadores del sector de la voz, quienes piden que las voces sintéticas tengan un acento especial para distinguirlas de las humanas.
Empresas como Nvidia o ElevenLabs desarrollaron herramientas que utilizan los últimos avances en IA para emular la voz de personas con gran realismo y con un entrenamiento corto, abriendo la puerta a la suplantación de los humanos en las comunicaciones.
Esta tecnología tiene el potencial de emular con expresividad y realismo el habla humana, como su ritmo, entonación o timbre, y es capaz incluso de llevar a cabo narraciones y locuciones como un actor de doblaje, como ocurre con la tecnología presentada por Nvidia.
La firma estadunidense también destacó su uso en los videojuegos para ayudar a las personas con discapacidad o para traducir la propia voz a otro idioma. Pero el potencial de esta tecnología no siempre se dirige al apoyo de las personas, sino más bien al contrario.
Un ejemplo de ello es la denuncia hecha por ElevenLab, que alertó de los malos usos que detectó de su herramienta de clonación de voz, en los que se suplanta la voz de famosos en contenidos audiovisuales manipulados.
Precisamente, esta es la preocupación que esgrimen desde el Sindicato de Actores de doblaje y Voice Talents de Madrid, y por ello solicitan que “toda comunicación oral con una inteligencia artificial sea convenientemente identificada como tal, para que ninguna persona pueda ser llevada a engaño y piense que está escuchando a un ser humano cuando, en realidad, está escuchando un programa informático avanzado”, como indican en un comunicado.
En concreto, el sindicato expresó su “más profunda preocupación” ante esta posibilidad, y las consecuencias que esto supondría tanto para el futuro de su sector como para el conjunto de la sociedad.
Por ello, apuntan la necesidad de una legislación que incluya la obligatoriedad de que los desarrolladores de las herramientas IA incluyan en el motor de generación de voz “una ecualización o efecto de sonido por determinar que las hagan identificables, con sólo escucharlas, en cualquier momento de su audición”. Una especie de “acento” propio de las IA que las distinga de los seres humanos.
Texto: Portaltic/EP