首页   

通过视觉模型微调实现用户界面元素检测与语义理解,将解析结果集成到-20240803054755

爱可可-爱生活  · AI  · 1 月前

2024-08-03 05:47

通过视觉模型微调实现用户界面元素检测与语义理解,将解析结果集成到GPT-4V中,在多个基准测试上验证了该方法对提升GPT-4V作为通用UI Agent的效果。
[CV]《OmniParser for Pure Vision Based GUI Agent》Y Lu, J Yang, Y Shen, A Awadallah [Microsoft Research] (2024) 网页链接 #机器学习##人工智能##论文#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com