Conoce el algoritmo que aprende “todo sobre cualquier cosa”


Un equipo de investigación en Ingeniería de Ciencias de la Computación en la Universidad de Washington y del Instituto Allen de Inteligencia Artificial en Seattle, EE. UU.,han creado un programa informático totalmente automatizado que enseña todo lo que hay que saber acerca de cualquier concepto visual. El programa que se llama LEVAN, sigla de Learning Everything about Anything (Aprendiendo todo acerca de cualquier cosa), utiliza un algoritmo de inteligencia artificial en la búsqueda de millones de libros e imágenes en la web para aprender todas las posibles variaciones de un concepto, visualizando luego los resultados a los usuarios como una lista navegable e integral de imágenes clasificadas en subcategorías, ayudando rápidamente y con gran detalle en la exploración y comprensión de los temas de la búsqueda.

Los avances más recientes en la investigación de inteligencia artificial son bastante sorprendentes, gracias en parte a la abundancia de datos disponibles en la web. El aprendizaje profundo está ayudando a crear sistemas de alta precisión en auto-enseñanza y para tareas como análisis de los sentimientos y el reconocimiento facial.

En el mundo actual impulsado digitalmente, el acceso a la información parece no tener límites. Pero cuando usted tiene algo específico en mente que no conoce, por ejemplo el nombre del utensilio de cocina exclusivo que vio en la casa de un amigo, puede ser increíblemente difícil saber cómo hacer la búsqueda tamizando a través del volumen de la información en línea. O bien, de lo contrario, puede que simplemente miremos cualquier cosa en Internet, en todo caso ¿cómo podríamos estar seguros que hemos encontrado todo lo que necesitamos sobre el tema, quizás luego de pasar horas frente a la computadora?
“De lo que se trata, es de descubrir las asociaciones entre la información textual y la visual”, dijo Ali Farhadi, profesor asistente en el Departamento de Ingeniería de Ciencias de la Computación de la UW, quién también es becario postdoctoral del Instituto de Robótica de la Universidad Carnegie Mellon. “El programa aprende a asociar firmemente altos volúmenes de conjuntos de frases con los píxeles de las imágenes, de tal manera que puede reconocer las instancias de conceptos específicos cuando los ve”.
El equipo de investigación presentará el proyecto y el documento relacionado este mes en la conferencia anual de Visión por Computador y Reconocimiento de Patrones en Columbus, Ohio, EE.UU.
El programa aprende qué términos son relevantes al ver en el contenido de imágenes que encuentra en la Web, identificando los patrones característicos a través de ellos, usando un algoritmo de reconocimiento de objetos. Esto es diametralmente diferente comparado con las bibliotecas de imágenes en línea. Estas imágenes están basadas en un amplio conjunto de frases de comprensión y fotos etiquetadas por sus arreglos de píxeles y contenido, y no simplemente por las palabras que aparecen en los subtítulos.

En esta imagen se muestran algunas de las muchas variaciones que el nuevo programa ha aprendido en tres conceptos diferentes. El sistema informático es capaz de aprender por sí mismo, sin intervención humana, a través de múltiples facetas de amplios conceptos, por el arrastre y el análisis de los motores de búsqueda mediante el procesamiento del lenguaje natural y técnicas de visión por computador.

La navegación web usando LEVAN
Los usuarios pueden navegar por la biblioteca existente de aproximadamente 175 conceptos. Existiendo estos conceptos en una variedad desde “línea aérea” a “ventana”, incluyendo”hermoso”, “desayuno”, “brillante”, “cáncer”, “innovación”, “patinando”, “robot”, y la primera entrada de los investigadores, “caballo”.
Si el concepto que usted está buscando no existe, puede presentar cualquier término de búsqueda y el programa comenzará automáticamente a generar una lista exhaustiva de subcategoría de imágenes que se relacionan con ese concepto. Por ejemplo, una búsqueda de “perro” nos lleva a la colección obvia de las subcategorías: fotos de “perro chihuahua”, “perro negro”, “perro de natación”, “perro desaliñado”, “perro galgo”. Pero también “nariz de perro”, “plato de perro”, “perro triste”, “perro más feo”, “perro caliente” e incluso “perro hacia abajo”, como en la pose de yoga.
La técnica funciona mediante la búsqueda en texto de millones de libros escritos en Inglés, disponibles en Google Books, recorriendo toda la biblioteca digital por cada incidencia del concepto. Entonces, el algoritmo filtra las palabras que no son visuales. Por ejemplo, con el concepto “caballo”, el algoritmo mantendrá frases como “caballo de salto”, “comiendo caballo” y “caballo barril,” pero excluirá frases no visuales, tales como “mi caballo” o el “último caballo”.
Una vez aprendidas las frases que son relevantes, el programa hace una búsqueda de imágenes en la web, buscando la uniformidad en la apariencia entre las fotos recuperadas. El programa está capacitado para encontrar imágenes relevantes de, por ejemplo, “el salto del caballo”, entonces se reconocerán todas las imágenes asociadas con esta frase.
“Las principales recursos de información tales como diccionarios y enciclopedias actualmente están desplazándose hacia la tendencia de mostrar su información en formato visual, porque las imágenes son más intuitivas, fáciles de comprender y mucho más rápidas para la navegación a través de conceptos. Sin embargo, estos medios aún tienen una cobertura limitada, porque a menudo requieren de asistencia manual”, dijo Santosh Divvala, investigador del Instituto Allen para Inteligencia Artificial, el que también es afiliado a la Universidad de Washington en Ingeniería de Ciencias de la Computación.
“Nuestro programa no necesita supervisión humana, porque puede aprender de forma automática el conocimiento visual por cualquier concepto”, añadió Divvala.
Programa de código abierto
Los investigadores lanzaron el programa en marzo con sólo un puñado de conceptos y, lo han visto crecer desde entonces hasta etiquetar más de 13 millones de imágenes con 65 000 frases diferentes.
Por ahora, el programa está limitado en la rapidez con la que puede aprender acerca de un concepto, ya que ésto necesita mayor potencia de cálculo para el procesamiento en la búsqueda, por lo que LEVAN aún utiliza hasta 12 horas para algunos conceptos amplios. Los investigadores están trabajando arduamente en el aumento de la velocidad y la capacidad de procesamiento.
El equipo de investigación se ha pronunciado para que el programa sea de código abierto, usado como una herramienta educativa pública y, banco de información para los investigadores científicos en la comunidad de Visión por Computador. El equipo también espera ofrecer una aplicación para teléfono inteligente que ejecute el programa en categorización y análisis automático de imágenes.
Video:
YouTube - El algoritmo que aprende “todo sobre cualquier cosa”

Trad. / Ed.
Gabriel T.E.