Propuesta de un método de aprendizaje continuo de los datos y sus etiquetas en problemas de clasificación multietiqueta
Un grupo de investigación ha desarrollado un nuevo método de aprendizaje para inteligencia artificial que combina el rendimiento de la clasificación para datos con múltiples etiquetas con la capacidad de aprender continuamente de los datos. Experimentos numéricos con datos multietiqueta del mundo real indican que el nuevo método supera a los enfoques convencionales. La sencillez de este algoritmo facilita su integración con otros para idear otros nuevos.
Los avances en la tecnología IoT han hecho posible que obtengamos de forma fácil y continua grandes cantidades de datos diversos. La tecnología de inteligencia artificial está ganando atención como herramienta para poner en uso estos big data.
El aprendizaje automático convencional se ocupa principalmente de problemas de clasificación de una sola etiqueta, en los que los datos y los fenómenos u objetos correspondientes (información de la etiqueta) están en una relación de uno a uno. Sin embargo, en el mundo real, los datos y la información de las etiquetas rara vez tienen una relación unívoca. Por ello, en los últimos años se ha prestado especial atención a los problemas de clasificación multietiqueta, en los que los datos tienen una relación de uno a muchos. Por ejemplo, una sola foto de un paisaje puede incluir varias etiquetas para elementos como el cielo, las montañas y las nubes. Además, para aprender eficientemente de los big data que se obtienen continuamente, también se requiere la capacidad de aprender a lo largo del tiempo sin destruir lo aprendido anteriormente.
Un grupo de investigación dirigido por el profesor asociado Naoki Masuyama y el profesor Yusuke Nojima, de la Escuela de Postgrado de Informática de la Universidad Metropolitana de Osaka, ha desarrollado un nuevo método que combina el rendimiento de la clasificación para datos con múltiples etiquetas, con la capacidad de aprender continuamente con los datos. Experimentos numéricos con conjuntos de datos reales de etiquetas múltiples demostraron que el método propuesto supera a los métodos convencionales.
La simplicidad de este nuevo algoritmo facilita el diseño de una versión evolucionada que pueda integrarse con otros algoritmos. Dado que el método de agrupación subyacente agrupa los datos basándose en la similitud entre las entradas de datos, se espera que sea una herramienta útil para el preprocesamiento continuo de big data. Además, la información de la etiqueta asignada a cada clúster se aprende continuamente, utilizando un método basado en el enfoque bayesiano. Mediante el aprendizaje de los datos y el aprendizaje de la información de etiqueta correspondiente a los datos por separado y de forma continua, se consigue tanto un alto rendimiento de clasificación como una capacidad de aprendizaje continuo.
«Creemos que nuestro método es capaz de aprender continuamente a partir de datos multietiqueta y tiene las capacidades necesarias para la inteligencia artificial en una futura sociedad de big data», concluyó el profesor Masuyama.