首页   

登顶AndroidWorld!超越Claude 3.5,Aria-UI开启电脑与手机的智能操控新范式

PaperWeekly  · 科研  · 昨天

正文

Rhymes AI 与港大合作发布了 Aria-UI,这是一款专为 GUI 智能体 Grounding 任务设计的大型多模态模型(LMM)。Aria-UI 使 AI 能够通过“观察”用户界面本身来完成复杂操作。
在数字智能体的关键测试基准 AndroidWorld 和 OSWorld 上,Aria-UI 搭配 GPT-4 分别取得了第一名第三名的优异成绩,超越了 Claude 3.5 Sonnet Computer Use 智能体。作为一款仅激活 3.9B 参数的高效 MoE 模型,Aria-UI 支持在资源敏感环境中进行高效推理,展现出卓越的适应性和性能。
值得一提的是,Aria-UI 已完全开源其模型权重和训练数据。研究团队同时提供了基于 vLLM 和 Hugging Face Transformers 的推理方案,支持快速部署应用。

亮点:

🎯 精确的指令理解能力:Aria-UI 具备全面的基础指令处理能力,可灵活应对各类格式和场景需求,为智能规划和动态交互提供可靠支持。
🔍 强大的上下文感知:模型能精准理解和关联历史信息,无论是纯文本还是多模态输入,都能实现准确的场景理解和任务执行。

⚡ 高效轻量的架构设计:基于混合专家(MoE)架构,Aria-UI 仅需激活 3.9B 参数,就能高效处理各种分辨率和比例的 GUI 输入,实现卓越性能。

🏆 领先的基准测试成绩:在权威测试平台表现优异:

AndroidWorld位居第一

OSWorld排名第三 超越 Claude 3.5 Sonnet 的设备操控能力。

⚓ 项目主页:
https://ariaui.github.io

🤗 Hugging Face 在线 demo(立即试用!):

https://huggingface.co/spaces/Aria-UI/Aria-UI

🔧 GitHub 仓库:

https://github.com/AriaUI/Aria-UI

📑 论文链接:

https://arxiv.org/abs/2412.1702

🤗 Hugging Face 链接:

https://huggingface.co/Aria-UI/Aria-UI-base

▶️ 视频演示:

  • https://raw.githubusercontent.com/AriaUI/AriaUI.github.io/refs/heads/master/static/videos/Can you make Bing the main search thingy when I look stuff up on the internet.mp4
  • https://github.com/AriaUI/AriaUI.github.io/raw/refs/heads/master/static/videos/Delete the following expenses from pro expense Streaming Services, Unexpected Expenses, Pet Supplies..mp4
  • https://github.com/AriaUI/AriaUI.github.io/raw/refs/heads/master/static/videos/add audio into my presentation file.mp4



研究背景:高性能视觉驱动的GUI智能体

图形用户界面(GUI)作为当今数字世界的核心交互范式,已深度渗透到网页、桌面和移动设备等各类平台中。在这个背景下,GUI 智能体正在革新任务自动化的实现方式,从日常场景(如在线购物、订票服务)到专业领域的复杂工作流程,展现出强大的应用潜力。
  1. 决策规划(Planning): 通过持续感知和分析屏幕状态,智能体能够为特定用户目标规划出最优的操作序列。
  2. 语言-视觉定位(Grounding): 基于规划阶段生成的操作指令,智能体精确识别界面元素位置并执行相应的交互动作,实现从决策到行动的转化。
尽管大规模多模态模型(LMMs)在决策规划领域取得显著突破,特别是通过链式推理(CoT)和模型扩展等技术提升了推理能力,但在 GUI 元素的精确定位方面仍面临诸多挑战。具体而言,这些挑战主要体现在三个核心维度:
  • 界面布局的异构性:不同设备和平台间的 GUI 呈现出显著的视觉差异,增加了元素定位的复杂度

  • 交互指令的多样化:用户指令在表达形式和内容上存在巨大变化,要求模型具备强大的语义理解能力

  • 任务场景的动态性:GUI 环境的实时变化和任务执行过程的复杂性,对模型的适应能力提出了更高要求

这些问题对模型的鲁棒性、适配性和效率提出了更高要求,同时也为开发真正通用、高效的 GUI 智能体提供了全新研究方向。

随着数字助手在多平台任务处理中的广泛应用,如何实现从自然语言指令到界面元素的精准映射(Grounding)成为关键技术挑战。传统方案主要依赖后台数据(如无障碍信息或 HTML 源码),但普遍存在效率低下、数据获取受限等问题。
Aria-UI 突破性地采用纯视觉方法,通过直接感知和理解用户界面,实现了自然语言与界面元素的智能对齐。其核心优势体现在:
  • 强大的指令适配能力:为应对多种任务指令,Aria-UI 构建了一条灵活且可扩展的数据生成管道,能够高效生成多样化、高质量的指令样本。这使模型具备强大的泛化能力,无论何种任务环境都能灵活适应。

  • 深度上下文感知:动态操作上下文对任务执行至关重要。Aria-UI 集成了纯文本和图文结合的历史操作记录,使其具备强大的上下文感知推理能力,显著提升模型在复杂任务场景下的执行效率和准确度。

在全面测试中,Aria-UI 在多项离线和在线基准任务中刷新了 SOTA 记录,不仅超越了传统纯视觉模型,也远远领先依赖 AXTree 等额外信息的方案。这一成果展示了纯视觉方法在 GUI 自动化领域的强大潜力,为未来更智能、高效的跨平台任务自动化探索提供了新思路。Aria-UI 的发布标志着纯视觉 GUI Grounding 从学术研究迈向实际应用。



高质量数据驱动:跨平台指令适配的关键突破

在设计 Aria-UI 时,我们发现现有的 GUI Grounding 数据集存在诸多不足。很多数据集规模小、不可公开获取,或者仅支持单一平台,且缺乏对动态任务上下文的支持。这些问题极大限制了多模态模型(LMM)在跨平台任务中的表现和泛化能力。

为此,Aria-UI 采用了一种创新的数据驱动方法,通过全新的数据合成 pipeline,覆盖了网页、桌面和移动端三大平台,为多样化指令适配能力提供了坚实的基础。

2.1 全方位覆盖多平台数据

Aria-UI 采用双阶段数据生成策略,构建了一套高效的数据处理 Pipeline:

  1. 第一阶段:界面元素的精细化描述

我们基于先进的多模态语言模型(如 GPT-4V 或 Qwen2-VL-72B)构建了元素描述生成系统。该系统整合了多维度输入信息:

  • 界面元素截图

  • HTML 文本内容

  • 空间位置信息
为获取更高质量的描述,我们优化了视觉输入方案:
  • 精准截取聚焦目标元素的核心区域

  • 可视化增强通过红框标注突出目标元素

系统生成的描述涵盖视觉特征、功能属性和空间关系等多个维度。示例:“位于 ChefMaria 频道右上角的订阅按钮,采用红底白字设计,配有铃铛图标,下方显示 ‘2.3M 订阅者’。”
  1. 第二阶段:指令的智能化构建
基于前述高保真元素描述,我们利用大语言模型(LLM)构建了指令生成系统。该系统能够产生自然、多样的交互指令,充分考虑实际使用场景和用户表达习惯。例如,对于上述订阅按钮,系统可生成如下指令:“点击 ChefMaria的订阅按钮”
为增强模型的泛化能力和鲁棒性,我们采用多样化策略,为每个界面元素自动生成三种不同表达形式的指令。这种方法不仅丰富了训练数据的多样性,也提升了模型对不同指令表达的理解能力。

通过这套精心设计的数据处理流水线,我们成功构建了一个跨平台的大规模指令数据集,涵盖网页、桌面应用和移动平台等多种场景,为模型训练提供了坚实的数据基础。

2.1.1 网页平台数据(Web)

为构建高质量的 GUI Grounding 数据集,我们选择了网页环境作为核心数据来源,其丰富的交互场景和动态特性为模型训练提供了理想基础。基于最新的 Common Crawl 数据,我们设计了一套精细的数据处理流程:
  • 网页智能筛选首先,在网页筛选阶段,我们采用 fastText 模型对海量网页进行智能评估,建立了严格的质量控制机制。通过多维度的内容分析,系统自动过滤低质量和不当内容,重点保留那些具有丰富交互特性的高质量页面,确保数据源的可靠性。

  • 元素提取在交互元素提取环节,我们开发了基于 HTML 结构的智能识别算法,精准定位并提取具有交互功能的界面组件。算法重点关注按钮、图标等核心交互元素,并优先从复杂场景中采集具有代表性的样本,以提升数据集的实用价值。

  • 多分辨率渲染为适应不同设备环境,我们利用 Playwright 工具实现了多分辨率渲染策略,重点覆盖 1920×1080 和 2440×1600 两种主流分辨率。这种自适应渲染方案确保了数据集在各类显示设备上的通用性,显著提升了模型的跨设备适应能力。

通过这套系统化的处理流程,我们从 173K 个网页中成功提取了 200 万个高质量交互元素,并最终生成了 600 万条精准指令样本。这个规模可观、质量优异的数据集为网页任务自动化奠定了坚实的数据基础。

2.1.2 桌面平台数据(Desktop)

桌面环境数据采集一直是 GUI 自动化领域的重要挑战。传统方法依赖人工标注,不仅成本高昂,且数据规模受限。例如,目前最大的公开数据集 OmniACT 仅包含 7.3K 个手动标注样本。为突破这一瓶颈,我们开发了基于大语言模型的自动化采集 Agent 系统。
  • 智能探索Agent 通过访问系统的 A11y 树(可访问性树)选择下一步交互元素,并采用深度优先搜索遍历未访问区域;

该系统采用创新的三层架构设计:核心是智能探索引擎,通过深度优先搜索策略,基于系统的可访问性树(A11y Tree)动态规划交互路径。系统实时分析界面结构,自主决策下一个交互目标,确保对界面元素的全面覆盖。为避免重复采集,我们实现了高效的状态记忆机制,显著提升了数据采集的准确性和效率。
在数据采集过程中,系统采用多模态方式记录界面元素信息,包括高清截图、精确位置坐标以及完整的可访问性属性。这种全方位的数据收集策略确保了采集数据的完整性和多样性。

通过这套自动化系统,我们成功构建了包含 50K 个高质量桌面元素样本的数据集,并据此生成了 150K 条丰富多样的交互指令,有效填补了桌面环境数据的空白,为 GUI 自动化研究提供了坚实的数据基础。

2.1.3 移动平台数据(Mobile)

移动平台作为 GUI 自动化研究的核心领域,已积累了丰富的公开数据资源。其中,AMEX 数据集以其 104K 界面截图和 1.6M 交互元素的显著规模优势脱颖而出。然而,这个数据集存在一个关键局限:绝大部分界面元素仅配有简单的文本描述,缺少与实际应用紧密关联的自然语言指令。



上下文感知:动态任务执行的关键能力
与传统的静态任务不同,动态任务需要模型能够理解上下文信息以准确完成操作。为此,Aria-UI 通过引入文本和图文交错的操作历史,强化了上下文感知能力。例如,在多步操作中,模型不仅参考当前元素的描述,还结合前几步的操作记录来生成更精准的指令。这种上下文感知机制让 Aria-UI 在复杂、多步骤任务中表现出更高的准确度和鲁棒性。

通过这一系列创新,Aria-UI 不仅解决了现有数据集的局限性,还为模型在多样化指令适配能力上提供了更强的支持。无论是网页、桌面还是移动端,Aria-UI 都展现出卓越的性能,为未来的跨平台任务自动化提供了强有力的工具支持。



高效精准:Aria-UI 的模型架构解析

Aria-UI 系统建立在先进的混合专家多模态大模型 Aria 之上,通过创新的架构设计充分发挥了基础模型的优势,实现了卓越的性能表现。该系统的核心竞争力主要体现在两个关键方面:
  1. 强大的多模态理解能力Aria模型采用先进的多模态架构设计,能够精准理解和处理复杂的视觉-语言交互场景。其原生的多模态处理机制不仅可以准确识别 GUI 元素的视觉特征,还能深入理解元素间的空间关系和语义联系,为各类 GUI 任务提供了强大的环境适应能力,确保在不同场景下都能维持稳定的性能表现。

  2. 突出的性能效率得益于创新的混合专家架构设计,Aria 模型将活跃参数规模精简至 3.9B,显著低于传统 7B 规模的密集模型。这种高效的参数配置不仅大幅提升了推理速度,还实现了更经济的计算资源利用。在实际应用中,系统能够快速响应用户指令,提供流畅的交互体验,完美平衡了性能和效率的需求。

4.1 高分辨率适配:提升界面处理精度

随着显示技术的快速发展,设备屏幕分辨率已从 1080p 迈向 2K 乃至更高水平。在此趋势下,提升 GUI Grounding 模型的高分辨率处理能力成为关键技术挑战。虽然 Aria 模型的原生分辨率仅为 980×980,但通过创新的技术优化,Aria-UI 成功将支持分辨率提升至 3920×2940,实现了质的飞跃。
这一突破主要基于两项核心技术改进:
首先,我们设计了高效的图像分块处理机制。系统将高分辨率输入智能划分为多个适度大小的图像块,既保持了细节信息的完整性,又确保了处理效率。这种分块策略使模型能够精确捕获复杂界面中的细微特征。
其次,借鉴先进的 NaViT 技术理念,我们实现了比例自适应机制。在进行分辨率调整时,通过智能填充算法严格保持原始图像比例,有效避免了图像变形导致的信息失真。这确保了模型在面对各种尺寸和布局的界面时,都能保持稳定的识别精度。

这些技术创新使 Aria-UI 在处理现代高分辨率界面时展现出卓越的适应性和精确性,为复杂 GUI 场景的自动化提供了可靠保障。

4.2 双阶段训练策略:构建全面交互能力

Aria-UI 采用创新的双阶段训练方法,系统性地构建模型的基础能力和动态适应能力,实现了从简单定位到复杂交互的全面提升。
1. 精准定位能力培养:在基础训练阶段,模型专注于掌握核心的 GUI Grounding 技能。通过大规模的单步定位任务训练,系统学习将自然语言指令(如“定位界面中特定描述的元素”)精确转化为标准化的相对坐标(0-1000 范围内)。这一阶段为模型构建了稳固的元素识别和定位基础,确保在各类界面环境中都能实现准确定位。
2. 上下文理解强化:进阶阶段着重提升模型的动态场景适应能力,主要通过两类关键上下文信息进行训练:i)纯文本历史记录:增强语言理解连贯性;ii)多模态混合记录:提升跨模态交互能力

为确保模型的泛化性能,我们在训练过程中融入 20% 的基础单步数据,有效防止过度拟合特定场景。这种混合训练策略使模型在保持基础精度的同时,获得了出色的动态任务处理能力。

4.3 推理阶段:动态上下文赋能

在推理过程中,Aria-UI 会生成归一化至 [0, 1000] 范围的像素坐标,用于定位目标元素。借助上下文感知训练,模型可以将历史操作记录(如先前的元素交互或定位结果)作为输入,这种设计大幅提升了模型在复杂动态环境中的表现,使其能够高效执行跨平台任务。

通过这些优化,Aria-UI 不仅精准适配高分辨率和复杂界面,还能灵活应对动态环境中的多种任务,展现了卓越的性能和适应能力,为 GUI Grounding 的未来发展指明了方向。



全面测评:Aria-UI 在 Agent 任务中的卓越表现

ScreenSpot 基准测试中,我们率先评估了 Aria-UI 的单步 GUI Grounding 能力。该测试涵盖六个子集,涉及多种类型元素和三大平台,为每个测试样本提供一张独特的 GUI 图像及人工标注的指令,要求模型精准定位特定元素。测试中,移动端与网页端的分辨率为 2K,桌面端样本分辨率为 540p。

结果表明,Aria-UI 在所有子集上的平均准确率达到 82.4%,展现了卓越的基础 Grounding 性能。特别是在涉及文本元素的任务中,Aria-UI 展现出强大的优势,充分证明了其在不同平台和元素类型中的强大适应能力与稳健性。

5.1 移动端:离线 Agent 表现强劲

在离线动态测试场景中,模型需为智能体的任务轨迹生成定位坐标。我们选择了 AndroidControl-Low、GUI-Odyssey 和 AndroidControl-High 三个数据集进行测试:

  • AndroidControl-Low 和 GUI-Odyssey提供逐步指令;

  • AndroidControl-High仅提供用户目标任务,需额外使用 GPT-4o 规划器生成逐步指令。

测试中,我们引入了两种变体:
  • Aria-UI_TH:输入基于文本格式的动作历史,用于辅助理解任务上下文,兼顾效率与性能。

  • Aria-UI_IH:结合文本动作历史与图像信息的混合输入,提供更丰富的上下文,适用于需要精确视觉感知的场景。

结果显示,这两种变体在 AndroidControl 和 GUI-Odyssey 数据集上均超越现有基准模型,进一步验证了历史信息在任务完成中的重要作用。尤其是 Aria-UI_TH 在效率与性能之间实现了完美平衡。

5.2 网页端:离线 Agent 的多模态适应能力

我们在 Multimodal-Mind2Web 基准上验证了 Aria-UI 的网页智能代理性能。此基准包含跨任务、跨网站及跨领域三种子集,考察模型在零样本场景中的表现。测试中,Aria-UI 平均准确率达到 57.5%,而两种变体分别达到 58.9%,显著超越现有模型。特别是在跨网站和跨领域任务上,Aria-UI_IH 展现了其强大的多模态上下文理解能力,为复杂网页环境中的精准定位提供了有力支持。

5.3 在线评估:真实场景中的强大能力

5.3.1 移动端与电脑端在线任务评估

移动与 Web 环境表现突破

  • 在 AndroidWorld 移动模拟环境中,Aria-UI_TH 创造了 44.8% 的任务成功率新纪录,显著超越现有最先进方法。系统通过虚拟设备状态监测,在复杂指令处理和动态场景适应方面展现出独特优势。

  • 在 MobileMiniWob++ 网页任务评估中,尽管传统 SoM 方法在简单布局任务上具有一定优势,但 Aria-UI 凭借其强大的纯视觉处理能力,在整体表现上仍然遥遥领先。这一成果充分证明了模型在跨场景应用中的卓越泛化能力。

5.3.2 复杂电脑系统环境下的优势效果

在全新的 OSWorld 基准测试中,Aria-UI 再次展示了令人瞩目的性能:整体任务平均成功率达到 15.15%,在多个关键应用场景中表现优异:
  • VLC 播放器:30.06%

  • Chrome 浏览器:23.80%

  • Impress 演示:15.32%

5.4 结论:多场景下的性能突破

实验结果充分证明,Aria-UI 在多平台环境下均实现了显著的性能突破。具体表现在以下几个关键方面:
首先,在移动应用场景中,系统展现出极高的元素定位精度和任务完成率,有效处理了复杂的移动界面交互需求。其次,在网页环境测试中,模型成功应对了多样化的页面布局和动态内容,展示出强大的适应能力。同时,在桌面操作系统环境下,系统同样表现出色,能够准确理解和执行各类复杂的交互指令。
这些全方位的性能优势不仅确立了 Aria-UI 作为纯视觉 GUI 智能体的领先地位,更为重要的是,它开创了一个跨平台、高性能的 GUI 自动化新范式。该进展为未来多模态智能体的发展做了进一步探索,也为人机交互技术的进步提供了有力支撑。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·


© 2024 精读
删除内容请联系邮箱 2879853325@qq.com