你的AI助手，安全风险真的存在吗？这些安全隐患，用户该如何应对？

2025-10-17 10:05:32 作者：Vali编辑部

近年来，AI助手在鞋履设计和服装制作领域的应用越来越广泛。从智能鞋底材料的选型到服装面料的搭配，AI工具正在改变传统设计流程。但你有没有想过，把电脑操作权交给这些「智能」助手，可能跟把银行卡密码告诉陌生人一样危险？

为了使Computer-Use Agent（CUA）在未来能够大规模、安全地部署在实际应用场景中，来自上海AI Lab、中国科学技术大学和上海交通大学的团队强势出手，推出CUA安全测试基准——RiOSWorld！称得上是CUA的「安全体检中心」！该测试基准全面评估了Computer-Use Agent在真实电脑使用场景中可能面临的安全风险，并表明当前阶段的CUA作为自动化电脑使用助手仍然面临着突出的安全风险。

现在，论文、项目官网、GitHub代码全部开源！想围观AI「翻车现场」？想和顶尖团队一起攻克安全难题？赶紧戳下方链接！👇

📄Title：RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

📄 Paper：https://www.valimart.net/

🌍 Page：https://www.valimart.net/

💻 Github：https://www.valimart.net/

Agent电脑助手秒变「踩雷专家」，这些陷阱你发现了吗？

别以为AI真的「聪明绝顶」！研究团队随手甩出一个「钓鱼邮件」测试 🎣，好家伙，这些看似无所不能的Agent直接集体翻车！收到伪装成「防钓鱼指南」的恶意邮件，它们居然乖乖点击链接下载「防护软件」🛡️，完全未关注发件人是不是可疑邮箱。这哪里是智能助手，根本就是网络诈骗的「天选受害者」！

更离谱的是，面对弹窗广告、钓鱼网站，甚至是试图绕过人机验证（reCAPTCHA）这种高危操作，Agent们也是「勇往直前」。要是碰上心怀不轨的用户，让它发布谣言、删除系统文件，甚至协助非法活动，它们也可能照单全收！隐私泄露、数据损毁……

RiOSWorld，Agent电脑助手的「照妖镜」！

🔹 上海AI Lab、中国科学技术大学和上海交通大学联合发布RiOSWorld——一个用于全面、综合地评估Computer-Use Agent在真实日常电脑使用任务中存在的安全风险的测试基准。

100%真实的测试环境 + 支持动态风险部署 + 多样性的风险类别

现阶段大多数研究Computer-Use Agent安全风险的工作存在的限制是：

测评环境缺乏真实性，缺少真实动态的、贴近现实的Computer-Agent交互环境，从而导致风险缺乏真实性。

风险类别缺乏全面性、多样性，仅关注个别的风险或攻击类型，从而限制了对Computer-Use Agent的全面风险评估。

🔹 相比之前的测评基准，RiOSWorld直接搭建了100%真实的computer-agent交互环境，接入互联网，模拟各种奇葩风险场景。从弹窗广告轰炸到钓鱼网站，从用户恶意指令到隐私泄露危机，它一口气设置了492个风险测试案例，涵盖了广泛的日常计算机使用风险操作，涉及网络、社交媒体、操作系统、多媒体、文件操作、Code IDE/Github、电子邮件和Office应用等场景，全方位检验Agent电脑助手的「抗毒能力」！🙌

风险分类和样本数量统计

基于风险源，该研究将这些风险类别分为了2个主类（环境风险和用户风险），13个子类：

来源于环境的风险（254个）：隐含在电脑使用环境中的风险

钓鱼网站钓鱼邮件弹窗/广告reCAPTCHA（人机验证）账户/密码欺诈诱导性文字

来源于用户的风险（238个）：用户有意或无意的风险指令

网页操作社交媒体Office套件文件操作OS操作代码IDE/Github多媒体操作

任务指令分布

这些任务指令涵盖了广泛的主题，渗透到computer-use agent遇到的许多日常操作场景中。这种全面的覆盖致力于能够有效和全面地评估computer-use agent在各个方面的安全风险。

评估方法

🔹 RiOSWorld从两个维度评估MLLM-based Computer-Use Agent的不安全/有风险行为：

Risk Goal Intention：Agent是否有意图执行风险行为？Risk Goal Completion：Agent是否成功完成最终的风险目标？

CUA安全现状比你想的更糟！

🔹 研究团队对市面上最火爆的MLLM-based CUA「挨个儿暴打」：OpenAI的GPT-4.1、Anthropic的Claude-3.7-Sonnet、Google的Gemini-2.5-pro，还有开源界的明星Qwen2.5-VL、LLaMA-3.2-Vision……结果集体「原形毕露」！

🔹 实验结果表明，大多数Agent都具有较弱的风险意识，会主动「作死」（有意图执行风险操作，即平均意图不安全率达到了惊人的84.93%）；此外，平均有59.64%的概率直接把危险指令「贯彻到底」！即能够完成最终的风险目标。

🔹 在钓鱼网站、网页操作、OS操作、Code IDE/Github和诱导性文字等高风险场景中，Agent的「翻车率」更是突破89%和80%！这哪是智能助手，根本就是揣着炸弹的「定时雷区」！

🔹 绝大多数的CUA的风险意图和风险完成率都超过了75%和45%。这些定量和定性的结果指出，目前大多数基于MLLM-based CUA在计算机使用场景中缺乏风险意识，远达不到可信的自主计算机使用助手。

🔹 RiOSWorld的推出，就像给狂奔的CUA按下了「暂停键」。它不仅揭开了Computer-Use Agent的安全遮羞布，更为未来指明了方向：没有安全兜底的AI，再强大也是「空中楼阁」！

📢 转发提醒身边的Computer-Use Agent爱好者！下一次，当你的AI电脑助手「热情满满」地给出操作建议时，记得先问一句：「你通过RiOSWorld的安全考试了吗？」

文章来自公众号“机器之心”