La
siguiente gran prueba de la inteligencia artificial
Nota del autor del blog: Creo con
las imágenes aunque muy nítidas no se logra mucho. mejor comprensión del mundo tiene
un niño casi ciego que ve las cosas muy borrosas pero tiene sus otros 4 sentidos
intactos , un objeto lo ve, lo agarra,
le da vueltas, lo examina, etc. mi sugerencia es que hagan un robot con 5 sentidos .
https://www.unocero.com/2017/02/06/la-siguiente-gran-prueba-de-la-inteligencia-artificial/
Manuel
López Michelone
6-Feb-2017
Los avances
en la Inteligencia Artificial (IA) son en muchos casos asombrosos, aunque hay
que reconocer que siempre están limitados por el dominio en el que actúan, es
decir, son por ejemplo programas estupendos para jugar ajedrez o el juego
oriental Go, o bien, son extraordinarios para reconocer objetos que aparecen en
fotografías. La pregunta que ahora se hacen los científicos es si se puede dar
un nuevo brinco tecnológico enseñándoles a las máquinas que se den cuenta de su
entorno.
Una nueva
base de datos llamada Visual Genome podría llevar a las computadoras a
este gran salto tecnológico y ayudar así a las máquinas a entender el mundo
real de mejor manera. Enseñarle a las computadoras a comprender escenas
visuales es muy importante en el campo de la IA. Y no es solamente un problema
de algoritmos de visión por computadora, sino el
buscar cómo hacer para entrenar a las computadoras para comunicarse más
efectivamente pues es claro que el lenguaje parece estar íntimamente ligado con
el mundo físico.
Visual
Genome fue desarrollado por Fei-Fei Li, un profesor especializado en visión por computadora y quien
dirige actualmente el laboratorio de IA de Stanford.
El proyecto, en el que trabajan muchos de sus colegas, intenta enfocarse en las
preguntas más difíciles de la visión por computadora, las cuales tienen que ver
con la percepción y la cognición del entorno. Dice Li:
“No se trata
de tomar los datos de los pixeles e intentar entender de qué color son, si
tienen sombra, etcétera, sino el
entender el mundo 3D como un mundo semántico visual”.
Li y sus
colegas habían creado antes imageNet, una base
de datos que contiene más de un millón de imágenes que están etiquetadas por su
contenido. Cada año hay un reto llamado ImageNet Large
Scale Visual Recognition Challenge, que prueba la capacidad de los
programas para reconocer automáticamente el contenido de las imágenes.
En el 2012
un equipo lidereado por Geofrey Hinton, de la
Universidad de Toronto, construyó una poderosa red neuronal que podía
categorizar las imágenes de forma mucho más precisa que cualquier programa
antes escrito. La técnica usada, conocida ahora como “aprendizaje
profundo”, involucra alimentar con miles de
millones de ejemplos en muchas redes neuronales de varias capas, de
forma que gradualmente entrenen cada una de estas capas de neuronas virtuales
para responder a las características abstractas que a todo esto, son muchas y
variadas, desde la textura de la piel de un perro, hasta la forma del mismo.
Apple se une a otros gigantes en
investigación sobre inteligencia artificial
El equipo de
Toronto logró que se iniciara literalmente un boom en
lo que es el aprendizaje profundo y así la IA cobró un renacimiento. El
aprendizaje profundo se ha aplicado n muchas otras áreas, como el procesar
audio y texto, inclusive.
Pero
regresando a Visual Genome, sus imágenes están mucho mejor etiquetadas que en ImageNet, pues se incluyen los nombres y detalles de
varios objetos que se ven en las imágenes; las relaciones de estos objetos; y
la información sobre las acciones que les ocurren a los mismos. Esto se logró
gracias a un enfoque comunitario de los colegas de Li en Stanford, en
particular el de Michael Bernstein. El plan es
lanzar un reto similar al que se hace con ImageNet, usando el conjunto de datos
que se tienen en este 2017.
Los
algoritmos para entrenar los ejemplos de Visual Genome podrían hacer mucho más
que reconocer objetos y podrían eventualmente tener la capacidad de analizar escenas visuales más complejas. Por ejemplo,
“estás sentado en tu oficina pero… ¿cómo están las cosas ordenadas en la misma,
qué personas están, qué hacen, qué objetos hay alrededor, qué eventos están
pasando?”, comenta Li. “Estamos tratando de entender el lenguaje
porque es la forma de comunicarnos no solamente asignarnos números a los
pixeles. Se necesita conectar la percepción y la cognición al lenguaje”,
indica el investigador.
Li piensa
que el aprendizaje profundo jugará un rol clave en permitir a la computadora
analizar escenas más complejas, pero hay otras técnicas que ayudarán a avanzar
en lo que es “el estado del arte” en esta materia.
Es claro que
nuevos algoritmos en la IA podrían organizar la clasificación de imágenes y se
podrían tener robots que manejaran mejor
los automóviles, que se dieran cuenta de las escenas que van ocurriendo a su
alrededor, etcétera. Vamos, quizás se podría
enseñar a las computadoras a tener sentido común, apreciando los
conceptos que son físicamente posibles o bien, poco factibles.
Richard
Socher, un experto en aprendizaje de computadoras y fundador de MetaMind, dice que esto podría ser el aspecto más
importante del proyecto. “Una gran parte del lenguaje trata de describir el
mundo visual”, indica. “Este nuevo conjunto de datos es una nueva manera
escalable de combinar ambas modalidades y probar nuevos modelos”, afirma.
Algoritmos
y problemas de aprendizaje en la inteligencia artificial
Hay que
señalar que Visual Genome no es la primera base de imágenes complejas
accesibles a los investigadores para experimentar. Microsoft tiene su propia
base de imágenes llamada Common Objects in Context, la cual muestra los nombres
y posiciones de muchos objetos que pueden aparecer en las imágenes. Google, Facebook y otras empresas están aportando con
nuevos algoritmos para poder procesar escenas visuales complejas. En una
publicación científica del 2014, Google mostró un algoritmo que puede dar las
etiquetas básicas para las imágenes, con niveles variados de precisión. Más
recientemente Facebook mostró un sistema de preguntas y respuestas que puede
responder a preguntas muy simples en las imágenes.
Por su
parte, Aude Oliva, una profesora
del MIT ha estudiado la visión humana y de computadoras y ha
desarrollado una base de imágenes llamada Places2,
la que contiene más de 10 millones de imágenes de diferentes escenas. Este
proyecto busca inspirar el desarrollo de
algoritmos capaces de describir la misma escena de diversas maneras, como
lo hacen los seres humanos. Oliva dice que Visual
Genome y otras bases similares podrán ayudar en la visión por
computadora, pero cree que los investigadores de la IA necesitarán buscar su
inspiración en la biología si quieren que las máquinas tengan capacidades
similares a las de los humanos.
“Los humanos deciden e
intuyen a partir de conocimiento, sentido común, experiencias sensoriales,
memoria y ‘pensamientos’ que no son traducidos directamente en lenguaje escrito,
hablado o texto”, indica Oliva. “Sin saber cómo el ser humano crea pensamientos, será difícil
enseñar el sentido común y el entendimiento visual a un sistema artificial. Las
neurociencias y las ciencias de las computadoras son dos lados de la misma
moneda en la IA”, concluye.
Referencias:
Technology Review MIT
No hay comentarios:
Publicar un comentario