Es el primer dispositivo que reproduce no solo las palabras que la persona desea decir, sino también aspectos del habla natural como la entonación, el tono y el énfasis, que ayudan a expresar significado y emoción.
Brújula Digital|14|06|25|
Un hombre con una discapacidad grave del habla ha logrado hablar de forma expresiva y cantar utilizando un implante cerebral que traduce su actividad neuronal en palabras casi al instante. El dispositivo transmite los cambios de entonación cuando hace preguntas, resalta las palabras que elige y le permite tararear una secuencia de notas en tres tonos diferentes.
El sistema –conocido como interfaz cerebro-computadora (BCI, por sus siglas en inglés)– utilizó inteligencia artificial (IA) para decodificar la actividad eléctrica del cerebro del participante mientras intentaba hablar, informó la revista Nature.
Es el primer dispositivo que reproduce no solo las palabras que la persona desea decir, sino también aspectos del habla natural como la entonación, el tono y el énfasis, que ayudan a expresar significado y emoción.
En un estudio, una voz sintética que imitaba la del participante habló sus palabras con un retraso de solo 10 milisegundos desde la señal cerebral que indicaba su intención de hablar. El sistema, descrito hoy en Nature, representa una mejora significativa respecto a modelos anteriores de BCI, que transmitían el habla con un retraso de hasta tres segundos o solo después de que el usuario completaba el gesto de toda una oración.
“Esto es el santo grial de las BCI para el habla”, dijo Christian Herff, neurocientífico computacional de la Universidad de Maastricht, Países Bajos, que no participó en el estudio. “Esto es ahora habla real, espontánea y continua”.
Decodificación en tiempo real
La revista agregó que el participante del estudio, un hombre de 45 años, perdió la capacidad de hablar con claridad tras desarrollar esclerosis lateral amiotrófica (ELA), una enfermedad de las neuronas motoras que daña los nervios encargados del movimiento muscular, incluyendo aquellos necesarios para el habla. Aunque aún podía emitir sonidos y mover la boca para formar palabras, su habla era lenta y poco clara.
Cinco años después del inicio de los síntomas, el hombre se sometió a una cirugía en la que se le implantaron 256 electrodos de silicio, cada uno de 1,5 mm de largo, en una región del cerebro que controla el movimiento. La coautora del estudio, Maitreyee Wairagkar, neurocientífica de la Universidad de California en Davis, y sus colegas entrenaron algoritmos de aprendizaje profundo para capturar las señales cerebrales del paciente cada 10 milisegundos. Su sistema decodifica en tiempo real los sonidos que el hombre intenta producir, en lugar de las palabras o fonemas individuales (las unidades mínimas del habla).
“No siempre usamos palabras para comunicar lo que queremos. Usamos interjecciones. Hacemos vocalizaciones expresivas que no están en el vocabulario”, explicó Wairagkar a Nature. “Para eso hemos adoptado este enfoque completamente libre”.
El equipo también personalizó la voz sintética para que sonara como la original del paciente, entrenando algoritmos de IA con grabaciones de entrevistas que él había dado antes de que comenzara la enfermedad.
Pidieron al participante que intentara hacer interjecciones como “aah”, “ooh” y “hmm”, y que dijera palabras inventadas. La BCI logró producir estos sonidos, lo que demuestra que puede generar habla sin necesidad de un vocabulario preestablecido.
Libertad de expresión
Gracias al dispositivo, el participante pudo deletrear palabras, responder preguntas abiertas y decir lo que quisiera, incluso usando términos que no formaban parte de los datos de entrenamiento del decodificador. Les dijo a los investigadores que escuchar a la voz sintética reproducir su habla lo hacía “sentirse feliz” y que sentía que era su “voz real”.
En otros experimentos, la BCI identificó si el participante intentaba decir una oración como pregunta o como afirmación. El sistema también determinó cuándo enfatizaba distintas palabras en una misma frase y ajustaba la entonación de su voz sintética en consecuencia. “Estamos incorporando todos estos elementos del habla humana que son realmente importantes”, dice Wairagkar. Las BCI anteriores solo podían generar habla plana y monótona.
“Esto es un cambio de paradigma en el sentido de que realmente puede convertirse en una herramienta práctica”, señala Silvia Marchesotti, neuroingeniera de la Universidad de Ginebra, Suiza. Las características del sistema “serán cruciales para su adopción en el uso diario por parte de los pacientes en el futuro”.