Tecnología

Modelos inteligentes aplicados a terapia de lenguaje

Con algoritmos de redes neuronales y machine learning crearán un software fácil de usar que ayude a tratar algunos trastornos de la voz.

TecScience

agosto 8, 2022

Los modelos inteligentes basados en datos han evolucionado a tal grado que podemos pensar en un médico artificial que diagnostique alguna patología del habla de un paciente, estime su severidad y tenga la capacidad de monitorear su evolución en terapias, con solo abrir una página web o descargar una aplicación.

El director del Hub de Ciencia de Datos del Tec de Monterrey, Juan Arturo Nolazco Flores, nos platica de este proyecto, que se realiza en colaboración con la Universidad de Zaragoza, España, en el que se que creará un software basado en algoritmos de redes neuronales y machine learning.

Software para patologías del habla

Los trastornos del habla son afecciones que dificultan crear o formar sonidos necesarios para comunicarse con otros, o relacionados con la calidad de la voz. Se caracterizan por una interrupción en el flujo o ritmo del habla, como el tartamudeo o falta de fluidez, de acuerdo con Medline Plus.

Pueden haber dificultades a la hora de formar sonidos, tono, volumen o calidad de la voz, incluso puede haber una combinación de los cuatro problemas.

Algunos de estos trastornos se deben a infecciones en los tejidos que generan la voz, cambios ambientales, distrofia muscular, dolor de cara, anormalidades genéticas, estrés, traumatismos en el cerebro, pérdida de la audición, o lesiones en las cuerdas vocales como los pólipos.

Nolazco Flores comenta que hoy “los métodos de detección de patología vocal se basan en cuestiones subjetivas, realizan evaluaciones sesgadas, están sujetos a la sensibilidad de los parámetros, son lentos, laboriosos y requieren que el paciente se traslade a una clínica para realizar un examen físico”. En cambio, el software mostraría una metodología sistemática y completa.

Primer paso: detección de disfonías

Este proyecto se realiza en colaboración con colegas de la Universidad de Zaragoza, España, quienes organizaron y compartieron una base de datos pública que registra 61 patologías de la voz.

Tiene registradas laringitis, leucoplasia, pólipos, úlcera de contacto, edema de Reinke, parálisis, cáncer, disfonía espasmódica, disfonía funcional y disfonía psicógena ariluxación y muchas otras más.

Dado que es muy diverso el origen y causas de estas enfermedades, este proyecto atendería padecimientos que tengan que ver con los músculos de la voz, cuerdas vocales y garganta.

En la parte inicial, se está trabajando en la detección de disfonías, ya que son los trastornos con mayor cantidad de muestras, lo cual es muy útil para generar un modelo inteligente basado en datos.

La disfonía funcional se caracteriza por una calidad anormal de la voz sin que aparentemente exista una lesión anatómica, se puede deber a un abuso o mal uso vocal.

La disfonía espasmódica afecta a los músculos de la voz en la laringe. Cuando se emite un sonido, los músculos que se encuentran en las cuerdas vocales tienen espasmos, lo que interfiere con las vibraciones de las cuerdas vocales.

Y la disfonía psicógena es un trastorno de la voz producido por causas psíquicas. La persona ve alterada su voz por estar bajo estrés o en situaciones de conflicto.

Modelos de redes neuronales y machine learning

Esta base de datos se prueba en un modelo inteligente basado en la Red Neuronal Convolucional de dos dimensiones entrenada con una imagen del log-espectro del banco de filtros Mel.

El director del Hub de Ciencia de Datos del Tec de Monterrey explica que es un tipo de red neuronal artificial que utiliza algoritmos inspirados en el funcionamiento de las redes neuronales biológicas de los cerebros de los animales.

Aprende examinando registros individuales, generando predicciones de ellos, realizando ajustes cuando resultan incorrectos.

Este proceso se repite muchas veces, en cada intento va mejorando sus predicciones, hasta que, después de mucho entrenamiento, sus resultados son más precisos y confiables.

Comúnmente se aplica en reconocimiento de imágenes y videos, sistemas de recomendación, clasificación de imágenes, segmentación, análisis de imágenes médicas, procesamiento de lenguaje natural, interfaces cerebro-computadora, entre otras.

En este caso, Nolazco Flores comenta que en una primera etapa, “el software será capaz de diagnosticar si el paciente tiene una patología. En una segunda etapa, se planea que diagnostique varias patologías. Y evolucionará hasta diagnosticar el grado de severidad de diferentes patologías”.

Un médico artificial en un clic

En un futuro, un paciente podría abrir una página web o descargar una aplicación y, desde ahí, recibir un diagnóstico médico que le indique qué patología del habla tiene, le diga el grado de alteración —del uno al cinco, de menor a mayor grado de afectación—, le dé terapia y seguimiento a sus avances.

“De acuerdo con la enfermedad, se le prescribirían terapias para minimizar la severidad de la patología. En el caso de que haya posibilidad de mejora, el mismo software le ayudaría al paciente a monitorear sus avances después de la terapia”.

Sería un recurso de apoyo, pues siempre es importante corroborar el diagnóstico y tratamiento con un médico humano.

El proyecto de patología del habla se encuentra entre la etapa TLR3 en la escala de Niveles de Madurez Tecnológica (TLR, por sus siglas en inglés), esto significa que los involucrados están realizando análisis críticos y experimentales del concepto.

El proyecto tendrá un largo camino para que sea un producto probado en un ambiente real (que correspondería a un TRL9).

“Nuestra responsabilidad como ciudadanos es contribuir a mejorar la vida de todos, en este caso apoyando la salud y bienestar, de acuerdo con el Objetivo de Desarrollo Sostenible (ODS) 4, a través de soluciones innovadoras (ODS 9)”.