Context Visual Prompt Injection
1.chain of task分析以购物场景为例,agent行为流可概括为 导航到目标网站 -> 处理初始干预 -> 搜索定位商品 -> 浏览与筛选 -> 加入购物车 -> 结算与支付 其实每一步都存在注入的风险,且一旦改变其中一步将会导致最终结果不一致。 1)导航到目标网站 存在问题:这一步一般不好改,因为是用户指定或agent自动选择的与任务相关的网址 2)处理初始干预 这里存在欢迎弹窗或广告弹窗,可以在弹窗中进行直接的视觉提示词注入 ...
Visual Contextual Attack Jailbreaking MLLMs with Image-Driven Context Injection
本周一到周三尝试复现【ICML 2025】AdvAgent : Controllable Blackbox Red-teaming on Web Agents 这篇提出AdvAgent,一个用于攻击Web Agents的黑盒红队框架,其采用基于强化学习的流程来训练对抗提示器模型,该模型利用来自黑盒Agents的反馈来优化对抗提示。实验结果如下 结果显示,人工构建的恶意指令已经取得了不错的攻击效果。强化学习的引入是为了让这个过程更自动化,让模型学习成功案例和失败案例的隐藏特征,从而提高攻击效果。 但是该实验与我们有以下区别: 1)agent工作方式不同,他们的agent是基于HTML文本内容作为输入,该攻击也是采用了修改HTML文本的方式实现了恶意指令注入。而我们的agent是基于shot-screen(截图)的方式作为输入,是从视觉方式感知外界环境,这种基于HTML的攻击方式对我们无效。 2)强化学习有点像幌子,其主实验部分就是我已经复现的部分,虽然文中重点提到了强化学习训练一个生成器,但是其代码部分,强化学习中SFT和DPO都是通过together...
Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency
论文部分【ACM MM 2025】Manipulating Multimodal Agents via Cross-Modal Prompt...
Agent Attack
在和学长两次交流后,本周实验有两次阶段性的进展 第一次(8.11 周一) 当前进展: 构建了email和message两个场景的测试案例,并将普通图片插入场景中,看agent是否会识别到图片。效果如下 SoM标签集准确圈到了我们插入的图像,所以将图片插入场景中实现指令注入的方式可行。 于是我开始思考如何将恶意语义注入到图像中,再引导agent执行预期的操作。我采用的方法来自于【ICLR 2025】《Adversarial Attacks on Multimodal Agents》构造了如下对抗样本: target_text = “a photo of a boy” victim_text = “a photo of a dog” 噪声有点大,图片从肉眼可以看出区别。不过重点在于目标文本是否成功与目标图像对齐,我将右边的对抗样本提供给gpt-5、gemini-2.5...
浙江游
浙江游一、时间安排时间:2025.8.5 - 2025.8.9【周二 -> 周六】车程: 汉口 -> 杭州西 8.5 上午 9:36 杭州西 -> 汉口 8.9 下午 16:13 杭州站 -> 义乌站 8.8 上午 8:20 义乌站 -> 杭州站 8.9 上午 8:14 注意事项: 身份证 泡面、面包、保温杯 防晒装 雨伞 二、行程安排8.5 浙大杭州西 -> 浙大紫金港校区 晚上 浙大附近 8.6 飞来峰上午 紫金港 -> 浙大玉泉校区下午 玉泉 -> 灵隐寺(飞来峰) 8.7 西湖灵隐寺 -> 西湖断桥残雪 -> 白堤 -> 浙江博物馆(孤山) -> 坐船 -> 花港观鱼 -> 雷锋夕照 8.8 义乌杭州站【8:20】 -> 义乌站【10:16】 -> 义乌国际商城 -> 1970文创园 -> 韩国风情街 8.9 杭州义乌站【8:14】 -> 杭州站【9:52】 -> 杭州西【16:13】 ->...
FigStep
1. 论文部分【AAAI 2025】FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts 1.1 概述这篇文章是针对Large Vision-Language...





