Google Research ha anunciado el lanzamiento de ScreenAI, un modelo de visión y lenguaje diseñado para comprender y procesar interfaces de usuario (UI) e infografías con una eficacia sin precedentes. Este modelo representa un avance significativo en la comprensión del lenguaje visual situado y promete establecer nuevos estándares en la interacción humano-máquina.
Desarrollado por los ingenieros de software Srinivas Sunkara y Gilles Baechler, ScreenAI mejora la arquitectura PaLI con una estrategia de parcheo flexible derivada de pix2struct. Entrenado con una mezcla única de conjuntos de datos y tareas, incluida una novedosa tarea de anotación de pantalla, ScreenAI ha logrado resultados de vanguardia en tareas basadas en UI e infografías, superando a modelos de tamaño similar.
El modelo no solo entiende y razona sobre las interfaces gráficas, sino que también interactúa con ellas, lo que facilita experiencias de usuario ricas e interactivas. Además, Google Research ha liberado tres nuevos conjuntos de datos: Anotación de Pantalla para evaluar la capacidad de comprensión de la disposición del modelo, así como ScreenQA Corto y ScreenQA Complejo para una evaluación más exhaustiva de su capacidad de respuesta a preguntas.
Con solo 5 mil millones de parámetros, ScreenAI establece un nuevo punto de referencia en el rendimiento en tareas relacionadas con UI e infografías, y muestra un rendimiento líder en su clase en Chart QA, DocVQA e InfographicVQA.
Este lanzamiento es un testimonio del compromiso continuo de Google con la innovación y la mejora de la experiencia del usuario a través de la tecnología de punta.