Tecnología


Facebook habilita funciones mejoradas para persona son discapacidad visual

Usando inteligencia artificial, la red social ahora permitirá a los usuarios escuchar lo que aparece en las fotos de una manera más detallada que las etiquetas comunes.

EL UNIVERSAL

20 de enero de 2021 05:33 PM

Muchos usuarios con discapacidad visual ahora pueden experimentar imágenes en pantallas, siempre y cuando estén etiquetadas correctamente con texto alternativo (o “alt text”). Un lector de pantalla tradicional puede describir el contenido de estas imágenes utilizando una voz sintética, y permitir con una condición visual determinada comprendan las imágenes en su Feed de Facebook.

Desafortunadamente, muchas fotos se publican sin texto alternativo, por lo que en 2016 Facebook presentó una nueva tecnología llamada Texto Alternativo Automático (AAT por sus siglas en inglés). AAT — que fue reconocido en 2018 con el premio Helen Keller Achievement Award de la American Foundation for the Blind — utiliza el reconocimiento de objetos para generar descripciones de fotos a pedido para que las personas ciegas o con discapacidad visual puedan disfrutar de la experiencia. Desde entonces, Facebook lo ha estado mejorando y ahora presenta la próxima generación de AAT.

Las novedades de esta actualización constan de la ampliación a más de 10 veces la cantidad de objetos que AAT puede detectar e identificar de manera confiable en una foto, lo que a su vez significa menos fotos sin descripción. Además, las descripciones son más detalladas, con la capacidad de identificar actividades, puntos de referencia, tipos de animales, y mucho más — como “Puede ser una selfie de 2 personas, al aire libre, en la Torre de Pisa”.

AAT, aprovecha un modelo entrenado con datos supervisados parcialmente, utilizando miles de millones de imágenes públicas de Instagram y sus hashtags. Para que los modelos funcionen mejor para todos, el sistema se ajustó para que los datos se muestrearan a partir de imágenes en todas las geografías, y utilizando traducciones de hashtags en muchos idiomas. También se evaluó los conceptos en los ejes de género, tono de piel y edad. Los modelos resultantes son más precisos e inclusivos a nivel cultural y demográfico.

El sistema reutiliza más fácilmente los modelos de aprendizaje automático como punto de partida para la capacitación en nuevas tareas — un proceso conocido como aprendizaje por transferencia. Esto permite crear modelos que identifican conceptos como monumentos nacionales, tipos de alimentos (como arroz frito y papas fritas) y selfies.

Para obtener información más rica, como posición y recuento en la imagen, también se entrenó a un detector de objetos de dos etapas, Faster R-CNN, utilizando Detectron2, una plataforma de código abierto para la detección y segmentación de objetos desarrollada por Facebook AI Research. Los modelos entrenados pueden predecir ubicaciones y etiquetas semánticas de los objetos dentro de una imagen.

El AAT mejorado reconoce de manera confiable más de 1200 conceptos — 10 veces más que la versión original que lanzamos en 2016.