En el mundo actual, donde los datos se generan a un ritmo exponencial, la ciencia de datos ha emergido como una disciplina poderosa, la cual podría ser considerada como la más atractiva y relevante del siglo 21.
La ciencia de datos busca extraer información significativa de grandes conjuntos de datos utilizando principios de áreas como matemáticas, estadística, inteligencia artificial e ingeniería de computación, entre otras.
Estos datos son necesarios para el funcionamiento de sistemas que utilizamos a diario los humanos, desde las aplicaciones móviles de navegación y tráfico, las recomendaciones que los servicios de streaming hacen basados en nuestras series y películas favoritas, el rendimiento de equipos deportivos y hasta el diagnóstico médico de enfermedades.
Estos datos son analizados y ayudan a crear sistemas que en la actualidad pueden responder preguntas importantes como ¿qué pasó?, ¿cómo sucedió? y ¿qué acciones se pueden tomar a partir de estos resultados?, llegando −incluso− predecir algunos sucesos futuros.
¿Se puede considerar a esta disciplina como un nuevo oráculo para nuestra época? ¿Las personas están dispuestas a compartir sus datos confidenciales con empresas y organizaciones para obtener los beneficios de la ciencia de datos?
En entrevista para TecScience, los profesores investigadores del Tec de Monterrey, Arturo Nolazco, Pedro Ponce y Gilberto Ochoa, comparten conceptos de Ciencia de datos, cómo funciona, sus aplicaciones, beneficios y algunos de sus riesgos.
Data Science: ¿un oráculo para predecir el futuro?
A los 11 años, Mathew Brenham se volvió fanático del equipo de futbol de Brentford, sin embargo el equipo había descendido de la Liga Premier Inglesa en 1947 y para 2008 estaba en tercera división.
Mathew había estudiado física en la Universidad de Oxford y para el año 2018 compró el equipo, en 2014 había logrado llevarlos hasta segunda división y para el año 2021 el equipo del que era fan ya estaba de vuelta la Liga Premier, la primera división inglesa.
El secreto detrás del éxito del equipo estaba en los datos, específicamente en un modelo que Mathew había creado y aplicado y que les había permitido hacer análisis y predicciones para calcular la probabilidad de que un tiro termine en gol y la mejor manera de replicar esos tiros, entre otros aspectos.
Por ejemplo, en 2014, el equipo reclutó por 500,000 dólares a Andre Gray, un futbolista de sexta división que, aunque parecía un movimiento sin mucho sentido, los datos de sus partidos indicaron que podría mejorar y posteriormente fue vendido por 12 millones.
La ciencia de datos permite utilizar esta información recolectada durante días, semanas, años o décadas y generar modelos para visualizar e incluso predecir algunas acciones, como por ejemplo alteraciones en el clima, proyecciones financieras y económicas o cambios sociales o de cualquier otra clase.
¿Cómo funciona la ciencia de datos?
La ciencia de datos incluye varias disciplinas como por ejemplo la estadística, las matemáticas, las ciencias de la computación e incluso la Inteligencia Artificial.
Esto permite crear modelos como por ejemplo Chat GPT, que utiliza una base de datos de información para ser entrenado y en la que se basa para responder preguntas.
La recopilación de estos datos también permite predecir diversos aspectos de la vida de las personas, como por ejemplo qué serie o película le gustaría ver, mediante la recopilación de miles de usuarios.
Esta información permite a los sistemas agrupar a los usuarios que han elegido entre varias películas y series, para sugerir a otras personas, con gustos similares, esas nuevas opciones que podrían ser de su agrado.
La Ciencia de Datos tiene diversas aplicaciones, no solo en los deportes o el entretenimiento, sino también en la salud o el medio ambiente.
En el tema de la medicina, se exploran datos de pacientes con enfermedades específicas y con ciertas características, para prevenir a otras personas con características similares pero que aún no han desarrollado esa enfermedad.
Por ejemplo, durante la pandemia de Covid-19, Mohammad Khubeb Siddiqui y Rubén Morales, investigadores del Tec, crearon un método para detectar el coronavirus usando un método de datos llamado deep learning, basado en el análisis de radiografías de pacientes con síntomas, el cual fue referenciado por la OMS en 2020.
Otro ejemplo es el de Pedro Ponce quien trabaja en la recolección y uso de datos para mejorar las ciudades y promover que sean cada vez más inteligentes, seguras y sostenibles.
“Imagínate un modelo que tuviéramos, por ejemplo, de la Ciudad de México, de Guadalajara o de Querétaro, pero tan detallado que no nada más modelara los edificios, sino también el comportamiento de las personas. A qué hora salen, cómo se desplazan, cuáles son los trayectos que usan, cuáles son sus necesidades a la hora de comer, en cuestiones de seguridad, dónde están las escuelas, cuánta gente atiende a estas escuelas, a donde se están movilizando los estudiantes. Esto permitiría hacer planeaciones anticipadas”, indica Ponce.
Los riesgos de la ciencia de datos
El proceso de la Ciencia de Datos implica varias etapas: en primer lugar está la captura de los datos de diferentes fuentes, ya sea de manera automática con la información generada por las personas con sus interacciones con la tecnología como smartphones, Internet y otros, como procesos más tradicionales como encuestas, bibliografías y más.
Posteriormente estos datos son “limpiados”, mediante una depuración en la que se toma solamente la información necesaria y se eliminan algunos sesgos.
Después los datos son procesados para identificar patrones y se realizan diversos análisis con técnicas cada vez más avanzadas como la Inteligencia Artificial.
Para finalizar, los datos deben ser comunicados mediante reportes o diversas visualizaciones.
A pesar de que existen beneficios para el uso de esta ciencia, los expertos advierten de algunos riesgos y desafíos como el garantizar la calidad de los datos y obtener permisos adecuados de las personas para su uso.
Además, señalan la necesidad de expertos que sean capaces de analizar y tomar decisiones basadas en estos datos de manera ética y justa.
“Hay muchas cosas que creo que están en el umbral que no están bien definidas, porque hay muchos sistemas que recopilan datos sin tu consentimiento. Y creo que lo mínimo que podría uno esperar como usuario es que te notifiquen, pero hay cuestiones que no están reguladas en de la misma forma en todos los países ”, señala Ponce.
Además del aspecto ético, otros retos surgen para el futuro de la Data Science, como la cantidad enorme de información generada por las personas, sus dispositivos, búsquedas de la web e incluso sus registros médicos, por lo que será necesario encontrar servidores donde almacenar estas olas de datos.
“Lo que nos sobra es información, el mundo está lleno de información. La parte más difícil es crear infraestructura para que estos datos se almacenen. Si esta información no se digitaliza o se contabiliza de alguna manera, se va a perder”, finaliza Gilberto Ochoa.