Óscar Reyes (i) y Sebastián Ventura junto a una caricatura de Isaac Newton expuesta en el Departamento de Ciencia de la Computación e Inteligencia Artificial de la UCO
Lo que puede valer para todo el universo, bien puede servir también para el mundo virtual. Así lo considera un equipo de informáticos de la Universidad de Córdoba (UCO), que ha desarrollado algoritmos basados en la ley de la gravedad. Los algoritmos generados son más eficaces que los convencionales y permiten clasificar datos que pueden servir para el diagnóstico de enfermedades, discriminar el correo válido del spam o categorizar fotografías.
Enunciada por Isaac Newton en 1687, la ley de la gravitación universal habla de la fuerza de atracción para toda la materia existente. Todos los objetos están sujetos a ella. Esa fuerza es la que lleva a la manzana a caer al suelo, pero también la que establece las relaciones entre estrellas y planetas. Newton estableció la fórmula matemática de esta interacción en Philosophiae Naturalis Principia Mathematica: “Directamente proporcional al producto de las masas de los objetos e inversamente proporcional al cuadrado de la distancia que las separa”. Su descubrimiento fue un punto de inflexión en la historia de la ciencia.
El equipo del Departamento de Ciencia de la Computación e Inteligencia Artificial que dirige Sebastián Ventura dispone de una línea de investigación en torno a los algoritmos de aprendizaje perezoso. Un algoritmo computacional es una serie de operaciones para resolver problemas informáticos, por ejemplo, si una fotografía se parece a otra y así clasificarlas juntas. Generalmente se construye un modelo para dar respuesta a estas cuestiones. Los algoritmos perezosos, sin embargo, ganan su fama de vagos porque no parten de ningún modelo, sino que aprovechan las características de los datos para determinar a posteriori la clase a la que pertenecen los objetos. Entre los algoritmos perezosos hay unos que clasifican datos por cercanía a otros datos. Son los algoritmos del vecino más cercano.
Perezosos y vecinos
“Los algoritmos perezosos son útiles, pero a veces hay límites entre los vecinos que no son muy claros”, estima Ventura. Puede que algunos datos de una familia se salgan por mucho de la media, establezcan un límite muy difuso y distorsionen, con ello, la ubicación de los nuevos datos que llegan. Con el fin de mejorar la eficiencia de este enfoque, los informáticos de la UCO no se fijaron en la distancia al vecino más próximo, sino en la capacidad de atracción que podían tener. Pensaron que cada dato podía ejercer una fuerza gravitatoria, como si fuera un planeta. Además, consideraron que la fuerza de las partículas de una misma clase se podía sumar, de manera que la clase a la que pertenece un nuevo objeto está determinada por la clase que ejerce una fuerza máxima sobre él.
Con este planteamiento, el equipo de la UCO, en colaboración con las universidades Central de Las Villas y de Holguín (Cuba), ha creado algoritmos más eficientes. “Mejoran la obtención de clasificaciones”, resume el catedrático. El trabajo ha sido publicado recientemente en la revista científica Information Sciences. En este trabajo se intentan clasificar datos que pueden presentar más de una etiqueta. Por ejemplo, cuando reconocemos personas en una fotografía, una foto puede contener a varias personas y, por tanto, no se puede usar el nombre de una única persona para etiquetarla. “En el trabajo se resuelve el problema de la clasificación multietiqueta incorporando tanto el concepto de vecindad o distancia, típicos de los algoritmos perezosos, como el concepto de pureza, que se refiere a la cantidad de vecinos similares entre sí”, resuelve Reyes, estudiante cubano de doctorado en Ingeniería Informática en la UCO participante en el estudio.
Óscar Reyes, Carlos Morell, Sebastián Ventura. ‘Effective lazy learning algorithm based on a data gravitation model for multi-label learning’. Information Sciences. Volumes 340–341, 1 May 2016, Pages 159–174