通过视觉模型微调实现用户界面元素检测与语义理解,将解析结果集成到GPT-4V中,在多个基准测试上验证了该方法对提升GPT-4V作为通用UI Agent的效果。 [CV]《OmniParser for Pure Vision Based GUI Agent》Y Lu, J Yang, Y Shen, A Awadallah [Microsoft Research] (2024) 网页链接 #机器学习##人工智能##论文#