字节跳动发布UI-TARS-1.5：开源多模态GUI智能体实现SOTA性能

在人工智能领域，多模态大模型与智能体（Agent）技术的结合正在引发一场深刻的变革。近日，字节跳动（ByteDance）旗下 Seed 团队正式开源了 UI-TARS-1.5，这是一个基于强大视觉语言模型（Vision-Language Model, VLM）构建的多模态智能体框架。该项目专注于图形用户界面（GUI）交互和游戏环境中的自动化任务，旨在让 AI 模型能够像人类一样理解屏幕内容并执行复杂的交互式操作。

背景与上下文：从文本对话到”视觉+行动”的智能体

传统的 AI 助手大多基于纯文本或简单的图文输入进行交互，用户需要通过自然语言描述需求，再由模型生成代码、文本或建议。然而，在真实的计算机使用场景中，人类更多的是通过”看屏幕-理解界面-执行操作”的闭环来完成复杂任务。UI-TARS 系列项目的出现，正是为了解决这一痛点：让 AI 具备直接”看见”并”操作”GUI 的能力。

UI-TARS-1.5 作为该系列的最新迭代版本，不仅在视觉理解上进行了大幅增强，还在长程推理和跨应用工作流编排方面实现了显著突破。它标志着 AI 从单纯的”信息处理者”向”行动执行者”的重要转变。

核心亮点：SOTA 性能与多基准测试领先

根据官方发布的数据，UI-TARS-1.5 在多个标准 GUI 基准测试中实现了最先进的性能（State-of-the-Art, SOTA）。具体来看：

OSWorld 基准测试：在 50 步的长任务中得分达到 24.6，在 15 步任务中得分为 22.7，超越了同期主流闭源模型 Claude（分别为 22.0 / 14.9）。
AndroidWorld 基准测试：取得了 46.6 的优异成绩，显著超过了 GPT-4o 的 34.5 分。

这些 benchmark 不仅评估模型的视觉 grounding 能力，还考察其逻辑推理、多步规划以及错误恢复机制。UI-TARS-1.5 能够在这些高难度任务中脱颖而出，证明了其在真实 GUI 交互场景中的强大实用性。特别是在游戏场景中，该模型首次展示了长期推理能力，并在开放环境中展现了出色的交互能力。

技术解析：视觉语言模型与长程推理的结合

GUI 智能体的核心技术挑战在于，模型需要直接”看到”屏幕上的像素信息，理解界面布局、控件功能以及用户意图，然后生成相应的操作指令（如点击、滑动、输入文本等）。UI-TARS-1.5 的核心技术突破体现在以下几个方面：

增强的视觉语言理解：通过大规模 GUI 截图数据训练，模型能够精准识别各类操作系统和应用程序的界面元素，包括按钮、菜单、输入框等常见控件。
长期推理能力：不再局限于单次或短序列的任务执行，而是能够规划并执行需要多步逻辑判断的复杂任务，具备上下文记忆和状态跟踪能力。
Native Agent 架构：UI-TARS 采用原生智能体设计，将感知、决策和行动融为一体，减少了传统 pipeline 中的信息损耗，提高了整体执行效率。

影响与未来展望

开源社区对 UI-TARS 系列项目反应热烈。根据 GitHub 数据，ByteDance 的 UI-TARS-desktop 仓库已经获得了数万个 star 的关注，成为过去一年中最具影响力的开源 AI 智能体项目之一。

对于开发者、自动化工程师以及 AI 研究人员而言，UI-TARS-1.5 提供了一个强大的基础框架，可以用于构建定制化的 GUI 智能体应用。在应用场景方面，它有望在企业级 RPA（机器人流程自动化）、跨应用工作流编排、AI 辅助测试以及游戏自动化等领域发挥重要作用。

未来，随着多模态大模型技术的不断演进，GUI 智能体有望在更多实际场景中落地。UI-TARS-1.5 的开源不仅推动了技术边界的拓展，也为整个 AI Agent 生态注入了新的活力。我们期待看到更多基于此框架的创新应用涌现，进一步推动人工智能从”辅助工具”向”自主执行者”的演进。

参考资料

AI前沿

#AI前沿 #多模态模型 #GUI智能体 #UI-TARS

字节跳动发布UI-TARS-1.5：开源多模态GUI智能体实现SOTA性能

http://coderedeng.github.io/2026/06/27/字节跳动开源UI-TARS-15多模态GUI智能体/

作者

Evan Deng

发布于

2026年6月27日

许可协议

最近折腾的几个实用 Skill：AI资讯、股票筛选和去 AI 味工具下一篇