字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能体

2025-04-18 07:48:00

IT之家 4 月 18 日消息,IT之家从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

有关的链接如下:

  • GitHub:https://github.com/bytedance/UI-TARS

  • Website:https://seed-tars.com/

  • Arxiv:https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

  • 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。

  • System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

  • 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。

  • 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

相关推荐

3万智能工厂、10亿开源鸿蒙设备……数说一季度工业发展成绩单

2025-04-19 14:53:00
3万智能工厂、10亿开源鸿蒙设备……数说一季度工业发展成绩单

工信部:1至2月5G手机出货量4161.9万部,国产品牌占85%

2025-04-18 11:01:00
工信部:1至2月5G手机出货量4161.9万部,国产品牌占85%

字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能体

2025-04-18 07:48:00
字节Seed开源UI-TARS-1.5:基于视觉语言模型构建的多模态智能体

智驾“紧箍咒”来了!工信部:车企要充分测试、明确功能边界、忌夸大宣传

2025-04-17 10:23:00
智驾“紧箍咒”来了!工信部:车企要充分测试、明确功能边界、忌夸大宣传

一份来自消博会的“运动处方”

2025-04-16 16:03:00
一份来自消博会的“运动处方”

可灵AI发布2.0版基座模型,千万资金扶持AIGC创作者

2025-04-15 21:17:00
可灵AI发布2.0版基座模型,千万资金扶持AIGC创作者

筑牢西南生态安全屏障:西南林业大学的实践与探索

2025-04-15 17:51:00
筑牢西南生态安全屏障:西南林业大学的实践与探索

哈尔滨市公安局公开通缉3名美国国家安全局(NSA)特工

2025-04-15 11:54:00
哈尔滨市公安局公开通缉3名美国国家安全局(NSA)特工

科学家首次在原子尺度上拍摄催化反应过程

2025-04-15 08:33:00
科学家首次在原子尺度上拍摄催化反应过程

红魔氘锋能量卡支持“真15W磁吸无线充电”,4月16日发布

2025-04-14 21:25:00
红魔氘锋能量卡支持“真15W磁吸无线充电”,4月16日发布