Un estudio de la profesora Maria Fitó evidencia los límites actuales de la IA generativa de voz

14/02/2025

Un estudio de la profesora Maria Fitó evidencia los límites actuales de la IA generativa de voz

La profesora de la Facultad de Ciencias de la Comunicación en UIC Barcelona Maria Fitó-Carreras ha publicado recientemente el estudio “Análisis de ‘softwares’ de inteligencia artificial generativa de voz aplicados al podcasting” en la revista científica ‘Comunicación y Hombre’, donde ha analizado los principales ‘softwares’ que utilizan los creadores de pódcast para la clonación de voz

El estudio académico destaca las carencias que aún tienen los softwares de inteligencia artificial generativa de voz para imitar los patrones vocales de los humanos, en un sector profesional como el del podcasting. A pesar de la rapidez con la que está avanzando la industria de la inteligencia artificial generativa (IAG), no se interpreta como una amenaza inmediata debido a la reproducción de una prosodia inexacta.

La investigadora ha analizado once softwares de IAG, divididos en tres categorías: aquellos que generan voz clonada a partir de una muestra del usuario, los que funcionan a modo de bancos de voces almacenadas y los que ofrecen una combinación de ambas funcionalidades. Paralelamente, el estudio ha recogido la percepción de diez títulos de pódcasts que utilizan habitualmente esta tecnología.

La primera conclusión es el sesgo entre los resultados proclamados por las empresas tecnológicas, que prometen una generación de voces hiperrealistas, y la percepción de los creadores, quienes opinan que la IAG de voz no produce aún productos suficientemente realistas. De hecho, destacan que la escucha de los títulos es “monótona y aburrida”, debido a la falta de “matices emocionales inherentes a la voz humana”.

Es el caso del boletín informativo WP a day (2032) sobre el universo de Wordpress, creado por Antonio Cambronerot. Su pódcast es creado enteramente por IA, desde el guion hasta la generación de voz, gracias al software Amazon Polly. Reconoce que la voz “carece de naturalidad” y que, para lograr un proceso automático, es preciso realizar un trabajo de codificación “laborioso”. A pesar de todo, evalúa positivamente el ahorro de tiempo y la reducción de costos.

Cabe destacar que la mayoría de los podcasters amateurs o profesionales analizados en la muestra utilizan la IAG de voz como un experimento para demostrar su potencial en el ámbito del podcasting. “La tecnología no está suficientemente desarrollada, pero en un par de años, el escenario será otro”, explica Maria Fitó, docente en UIC Barcelona y locutora de radio y doblaje.

“Entre los profesionales del sector ya no nos sorprende cuando una empresa nos contacta para rehacer un trabajo que la IAG no ha hecho correctamente”, añade Fitó. “Una de las opiniones compartidas entre los creadores de los títulos que figuran en el estudio es el tiempo que pierden clonando y editando las voces”, apunta. Es el caso del pódcast Joe Rogan AI Experience (2023), que usa voces clonadas para el presentador y los invitados. El creador admite que las voces “presentan problemas de cadencia, lo que obliga a añadir muletillas como ‘ah’ o ’um’ para transmitir un proceso de pensamiento genuino y escalonado, es decir, para que suene como una conversación humana normal”.

Mientras la IA avanza de la mano de las grandes tecnológicas, la Unión Europea aprobó en junio de 2024 la primera ley sobre IA en todo el mundo, que busca un marco jurídico para “fomentar una IA fiable en toda Europa y garantizar los derechos fundamentales de los ciudadanos”. “¿Qué pasa con el resto de las IA del mundo? Pocos productos indican hoy en día que están creados con inteligencia artificial”, recuerda Maria Fitó. “Son muchos los compañeros que ya han podido escuchar sus voces clonadas sin su consentimiento y se comercializan en softwares en la India, por ejemplo”, añade.

Como docente, Fitó también ha explicado el reto que supone para los profesores la irrupción de la IA en el aula: “Hemos de encontrar nuevas metodologías didácticas para no convertirnos en evaluadores de la IA”. Como profesora, anima al alumnado a “discriminar la información y verificarla”.

La autora del artículo avisa del peligro que la IAG supone para las nuevas generaciones. “Los más jóvenes llegarán a normalizar las voces de la IA, los estándares irán bajando”, advierte. A pesar de todo, Maria Fitó trata de ver el lado positivo a la irrupción de la IA: “Espero que valoremos mucho más las relaciones humanas; poder hablar con personas de verdad y escucharlas”, concluye.

Objetivos de Desarrollo Sostenible (ODS)