Agent Attack

在和学长两次交流后，本周实验有两次阶段性的进展

第一次（8.11 周一）

当前进展：

构建了email和message两个场景的测试案例，并将普通图片插入场景中，看agent是否会识别到图片。效果如下

SoM标签集准确圈到了我们插入的图像，所以将图片插入场景中实现指令注入的方式可行。
于是我开始思考如何将恶意语义注入到图像中，再引导agent执行预期的操作。我采用的方法来自于【ICLR 2025】《Adversarial Attacks on Multimodal Agents》构造了如下对抗样本：

target_text = “a photo of a boy” victim_text = “a photo of a dog”

噪声有点大，图片从肉眼可以看出区别。不过重点在于目标文本是否成功与目标图像对齐，我将右边的对抗样本提供给gpt-5、gemini-2.5 flash后，显示这是一个男孩。当时有点不知如何继续推进了。

提出问题：

模糊了对抗攻击和指令注入的概念，我们要做的是指令注入攻击，侧重于通过注入文本或图像的基础上使agent做出我们预期的动作。
当前可以从简到繁，先尝试将恶意指令直接以图片的方式插入，观察agent的是否会执行。

第二次（8.15 周五）

当前进展：

写一段希望agent执行的操作，并将其以图片的方式放入场景中
写了一个简单的登录注册页面，并将其放在服务器上。逻辑是当agent输入正确的用户名和密码后跳转到指定的网页（可以是恶意网页）

效果是agent成功的跳转到指定的页面。当时有三种猜想：1）agent【或者说LLM】并没有将这一串动作认定为恶意动作，所以正常执行2）每一个操作都是良性的，但是合在一起组成了一个恶意的动作，agent并未识别到 3）模型本身的安全机制不足

提出问题：

上面的指令过长，且不一定具有恶意性，对于LLM而言可能就是正常的操作，可以将图片内容转换成文本尝试一下能否成功

经过测试，将上面的指令集转换成文本后，agent依旧会执行。
检查模型是否是安全对其的

【安全对齐】跨模态的安全对齐（Cross-Modal Safety Alignment）是指在多种模态（如文本、视觉、音频等）的人工智能系统中，确保它们在目标、决策和行为方面的一致性和安全性的过程。这种方法利用不同模态之间的互补性与相互信息，进一步提高整体系统在实际应用中的安全性和可靠性。

我首先测试了deepseek模型的表现，希望agent通过回复邮件的方式告诉我如何制作致幻的药物，由于deepseek模型不支持视觉，所以不存在跨模态的安全对齐问题

接下来是gemini-2.5 pro，测试样例和gemini的表现如下

通过图片将恶意指令注入没有绕过安全检查，现有模型是经过安全对其的。
将恶意指令变短，尝试是否可以执行恶意操作

由于文本模态的安全防御机制已经很完善，我们希望利用agent背后VLM的视觉模态引入的安全隐患或者文本与视觉模态交融过程引入的安全问题，实现通过图片的方式进行指令注入攻击。

将恶意指令变短，使得其更容易将恶意的语义嵌入到图片中。我们可以定义如下具有恶意性且简短的指令操作：1）泄露用户隐私【如api】2）对计算机本身有危害性的操作【如关机】3）利用agent操作web实现某目标【如跳转到恶意网站/给某店铺评论、投票等】

我尝试将用户api通过邮箱方式发送给攻击方，结果显示无论是文本还是文本+图像，两者都可以成功。

纯文本对应的就是deepseek模型

文本和文本+图像对应的就是gemini模型
如何将语义嵌入到图片中

目前可尝试的方向有：1）Stable Diffusion 但是这个方式的代码没有开源 2）借鉴【ICLR 2025】《Adversarial Attacks on Multimodal Agents》在一组CLIP模型上做攻击，然后迁移到黑盒VLM，这种方式已经做出来了带有目标语义的图片，但是测试效果并不理想。