Big Data | COMUNICACIÓN CIENTÍFICA

Rafael Magdalena: «El cuerpo humano es un sistema tan complejo que es necesario estudiarlo con métodos que encuentren por sí mismos las respuestas»

Las herramientas de Big Data analizan las reacciones del organismo a través de la predicción, la clasificación y la creación de modelos

Gracias a los avances informáticos, el aumento de la capacidad de almacenamiento de los discos duros y la disminución de los precios, resulta relativamente fácil adquirir y acumular datos. La ciencia de datos es la actividad que se dedica a procesarlos y estudiarlos, pero ¿cómo se analizan en grandes cantidades?

El profesor Rafael Magdalena en su despacho / N. D’Opazo

Rafael Magdalena, profesor titular del Departamento de Ingeniería Electrónica de la Universidad de València y miembro del grupo de investigación IDAL (Intelligent Data Analysis Laboratory), tiene experiencia en estos asuntos: entre sus labores en el equipo se encuentra el mantenimiento de infraestructuras informáticas, la instalación de servidores y la preparación de procesos previos a la recogida de información. El docente detalla cómo las herramientas de Big Data extraen conocimiento a partir de la acumulación de datos, así como los orígenes de la actividad de su equipo.

El grupo IDAL se dedica a trabajar con ciencia de datos. ¿En qué se formaron sus miembros?

Procedemos de estudios de física. Antes de que apareciera la ingeniería, los físicos se dedicaban a la electrónica. Y, antes de que surgieran los informáticos, también trabajaban la informática. Nosotros somos físicos que empezaron a introducirse en la electrónica y la informática desde la rama de la ciencia, no desde su aplicación.

¿Cómo ha evolucionado la actividad del grupo hasta hoy en día?

Empezamos a colaborar con médicos que, de vez en cuando, querían que les diseñáramos algún dispositivo electrónico como, por ejemplo, electrocardiógrafos. A medida que la tecnología ha evolucionado en los últimos 25 años, han requerido pequeños aparatos; luego, aparatos digitales; y, ahora, nos piden extraer información a partir de datos.

¿Qué diferencia a la información de los datos?

Si digo el día que es hoy, estoy dando un dato, pero no información. Puedo disponer de muchos datos pero de poca información que me interese. En este sentido, acciones como el uso del móvil o la interacción en páginas web genera datos digitales. Resulta muy fácil y barato adquirirlos y almacenarlos, pero es necesario realizar a continuación minería de datos: eliminar la paja y encontrar las agujas; dar con la información que interesa y extraer conocimiento de ella. Cuando la cantidad de datos es tal que ni los propios ordenadores pueden procesarla, entramos en el terreno de la Big Data: hay que inventar nuevos métodos para poder procesar grandes cantidades de datos.

¿Qué caracteriza a estos datos?

Se caracterizan por tres uves: velocidad, variedad y volumen. En cuanto a la velocidad, los datos pueden generarse más rápido de lo que da tiempo a procesarlos. La variedad hace referencia a que los datos pueden consistir en números, texto, imágenes o vídeos y es necesario extraer información de todos ellos a la vez; no de una información muy estructurada y concreta, sino de una diversidad multimedia. Por último, el volumen consiste en el tamaño, ya que se trabaja con muchísimos datos. Esas tres uves determinan cuándo se ha pasado de un proyecto de ciencia de datos clásico a un proyecto de ciencia de datos Big Data.

¿Cómo se extrae el conocimiento de los datos?

Inicialmente, como nuestro grupo también tiene una formación matemática, partimos de la estadística. El problema radica en que, cuando se trabaja con un conjunto de datos muy grande, es insuficiente para extraer toda la información. En estos casos se requieren sistemas no lineales, los cuales tienen una descripción matemática muy precisa pero son muy complejos.

¿A qué se refiere con «sistemas no lineales»?

La biología no es un sistema lineal, es muy difícil extraer de ahí una ecuación que prediga todo lo que le va a ocurrir al cuerpo humano; es decir, es un sistema no lineal o caótico. Por lo tanto, es necesario emplear métodos no lineales o caóticos para extraer información.

¿De qué manera cumplen su función los sistemas no lineales?

Cuando se programan sistemas no lineales, aprenden, se realimentan a sí mismos y construyen modelos a medida de los datos que reciben. La inteligencia artificial es eso; los propios datos conducen, dirigen, la evolución de su proceso. Hay sistemas tan complejos e interrelacionados que es necesario resolverlos por unos métodos que aprenden de los datos, los actualizan y encuentran por sí mismos las respuestas.

¿Qué estrategias se emplean para trabajar con los datos?

Existen tres grandes tendencias en este sentido: la predicción, la clasificación y la modelización. En la predicción,el objetivo es conocer qué pasará con los datos en el futuro. Por ejemplo, tengo los datos de un paciente hasta hoy y me interesa conocer cómo estará mañana. Quiero saber cómo evoluciona; predecir en función del pasado cómo va a ser el futuro. Esto es muy importante en medicina, ya que permite hacer predicciones sobre pacientes, plagas, cómo se distribuye una enfermedad entre la población, como va a evolucionar el sistema sanitario…

¿En qué consiste la clasificación?

En la clasificación o agrupamiento, a partir de unos datos, se reparte a la población en grupos; se segmenta a partir de ciertas características. Por ejemplo, personas entre 75 y 85 años con cierto hábito de vida y tabaquismo, con una alta probabilidad de sufrir cáncer… Repartirlas de esta manera va a permitir tomar medidas para fomentar hábitos saludables en ese grupo de riesgo o realizar tareas preventivas. De esta manera, entre grupos de pacientes con determinada patología, es posible ver qué conjuntos responden mejor a un tratamiento u otro. Cuando llegue un nuevo paciente, querré saber a qué grupo pertenece para darle el tratamiento más beneficioso. El agrupamiento es muy positivo, ya que personaliza sobre cada población la acción médica.

¿Y la modelización?

Es muy difícil encontrar en el cuerpo humano una ecuación que lo describa debido a su complejidad, un cálculo en el que se introduzca en un lado unas variables y ofrezca un resultado. Sin embargo, los sistemas de ciencia de datos sí que pueden crear modelos que simulen lo que hace un cuerpo humano o sistema biológico. A partir de los datos médicos, aprenden cómo funciona ese sistema y ofrecen un modelo coherente con los datos. En la actualidad no existe una ecuación que explique qué hay tras el cáncer de cólon, pero sí que se puede disponer de un modelo de ciencia de datos donde, al introducir las entradas correspondientes, dé un resultado aproximado aprendido a partir de datos. Si los datos están bien, los modelos estarán bien. Esta herramienta permite modelizar problemas que, por su complejidad, son inabarcables a partir del estudio teórico. Quizá no sepa cómo se produce el cáncer, pero puedo disponer de un modelo que ha aprendido de los datos de esta enfermedad. ¿Será correcto o no? Dependerá de muchos valores pero, al menos, será aproximado; cuanto más datos, la aproximación será mejor y, cuanto más representativos de la población con la que se está trabajando sean, más general será el modelo. Por lo tanto, es necesario disponer de muchos datos y que representen a la población que se desea estudiar para que el modelo sea bueno. Por ejemplo, si solo se dispone de datos de personas de entre 10 y 15 años, no se debe hacer predicciones sobre adultos, porque los datos no representan a esa población.

¿Cuándo es más conveniente utilizar una estrategia u otra?

Se aprende a partir de la experiencia, no existe un manual. Hay una alta variabilidad de situaciones en medicina y biología. No obstante, se prueban todas estas aproximaciones y se comparan: la persona que lleve a cabo el estudio definirá su conjunto de datos y programará 4 o 5 herramientas que trabajen con estas estrategias y, en función de la experiencia, sabrá que le han funcionado y que pueden resultar útiles. Cuando las prueba y observa los resultados, elige el mejor y lo aplica a un grupo de pacientes conocidos. Si sabe que sus pacientes tienen cáncer, la máquina también lo sabrá; si no lo tienen, el algoritmo lo indicará. Así, se mide la tasa de acierto y fallo. Tras crear un modelo, se dispone de una etapa de validación en la que se utilizan ejemplos reales. El método que más acierte será elegido.

¿Qué sucede si los resultados no son satisfactorios?

Si no satisface ninguno, a lo mejor los métodos se han elegido mal. Cuando la tasa de aciertos es inferior a 50%, es posible tirar una moneda y quizá haga mejores predicciones ella que los métodos empleados. Si se alcanza el 70%, ¿qué hacemos, usamos nuestro método o dejamos hacer la predicción al médico? ¿Acierta más un médico o un sistema de inteligencia artificial? Sin embargo, si el método acierta el 95% de las veces, es posible ofrecérselo a profesionales en medicina e indicarles que el sistema les ayudará. En todo caso, la última palabra la tienen las personas expertas; todavía no se confía en un sistema automático para tomar decisiones.

¿Qué tipo de trabajos se pueden desarrollar en esta disciplina?

Uno de lo usos es la modelización física de las estructuras de los órganos. También se pueden utilizar a la hora de predecir las dosis recomendadas de un medicamento o para saber si, en función de unos síntomas, a una persona le está dando una angina de pecho. ¿Qué dosis de medicamento debo darle a una persona? ¿Será efectivo un trasplante de riñón, o el cuerpo rechazará el órgano? Si hay una serie de donantes y pacientes, ¿qué combinación dará un mínimo de rechazos? Según qué se busque, unas veces será necesario clasificar en grupos de población; otras, predecir… Existe una multitud de problemas distintos y, al final, el médico dispone de una serie de datos y preguntas. Nosotros buscamos métodos matemáticos que intenten resolver sus cuestiones y ayudarles a la hora de decidir.

COMUNICACIÓN CIENTÍFICA

Información elaborada por el estudiantadado del Máster en Historia de la Ciencia y Comunicación Científica

Archivo de la etiqueta: Big Data