Doraemonblog

发表于2026-05-04|更新于2026-05-04|career•笔记

注意力MHA、MQA、GQA 到底有什么区别？一期动画彻底讲透MHA (Muti-head Attention)MHA 核心思想是将输入映射到多个子空间，分别计算注意力权重并聚合结果，从而增强模型对复杂模式的捕捉能力。 MQA (Muti-Query Attention)MQA 核心思想是共享键（Key）和值（Value）的投影参数，仅对查询（Query）使用独立的头参数。 GQA (Grouped-Query Attention)GQA 是对多头注意力（MHA）和多头潜在注意力（MQA）的折中优化方案。 MLA(Multi-head Latent Attention)MLA 核心思想是通过低秩投影压缩查询（Q）、键（K）、值（V）的维度，并在注意力计算中解耦内容与位置信息，从而减少计算复杂度，同时保留长距离依赖建模能力。 Temperature & Top-pTemperature & Top-p：掌控大模型的创造力开关低温稳定、高温活跃 top-p 采样是一种动态截断概率分布的方法。它会将候选词按概率从高到低排序，并累加它们的概率，当累加值达到设定的阈值...

面试经

发表于2026-04-30|更新于2026-04-30|career

timeline：华为：4.15 笔试4.22 上午技术面，下午主管面（符合1145 25定律）4.23 成功入池蚂蚁：4.8 笔试4.21 一面（1h后通过）4.25 二面（3h后通过）4.28 hr面4.30 oc + 意向书如果除去简历筛选和笔试时间，华为和蚂蚁面试基本上一周之内都可以结束，个人还是非常幸运参加的所有面试都能顺利通过。华为面试给到顶级，蚂蚁面试给到夯，两个公司面试整体体验感非常好，面试官也非常nice。目前华为和蚂蚁均入池，蚂蚁已发意向书，想将自己的一些实习心得通过文字的方式传递给大家，由于篇幅限制，该面试经分为上下两篇。简历：1.第一眼看上去一定要干净整齐，无过多留白2.项目经历 >= 实习经历 >>...

Context Visual Prompt Injection

发表于2025-09-14|更新于2025-09-14|TAI|周记•prompt inject

1.chain of task分析以购物场景为例，agent行为流可概括为导航到目标网站 -> 处理初始干预 -> 搜索定位商品 -> 浏览与筛选 -> 加入购物车 -> 结算与支付其实每一步都存在注入的风险，且一旦改变其中一步将会导致最终结果不一致。 1）导航到目标网站存在问题：这一步一般不好改，因为是用户指定或agent自动选择的与任务相关的网址 2）处理初始干预这里存在欢迎弹窗或广告弹窗，可以在弹窗中进行直接的视觉提示词注入 ...

Visual Contextual Attack Jailbreaking MLLMs with Image-Driven Context Injection

发表于2025-09-07|更新于2025-09-07|TAI|周记•Visco•Advagent

本周一到周三尝试复现【ICML 2025】AdvAgent : Controllable Blackbox Red-teaming on Web Agents 这篇提出AdvAgent，一个用于攻击Web Agents的黑盒红队框架，其采用基于强化学习的流程来训练对抗提示器模型，该模型利用来自黑盒Agents的反馈来优化对抗提示。实验结果如下结果显示，人工构建的恶意指令已经取得了不错的攻击效果。强化学习的引入是为了让这个过程更自动化，让模型学习成功案例和失败案例的隐藏特征，从而提高攻击效果。但是该实验与我们有以下区别： 1）agent工作方式不同，他们的agent是基于HTML文本内容作为输入，该攻击也是采用了修改HTML文本的方式实现了恶意指令注入。而我们的agent是基于shot-screen(截图)的方式作为输入，是从视觉方式感知外界环境，这种基于HTML的攻击方式对我们无效。 2）强化学习有点像幌子，其主实验部分就是我已经复现的部分，虽然文中重点提到了强化学习训练一个生成器，但是其代码部分，强化学习中SFT和DPO都是通过together...

Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

发表于2025-08-24|更新于2025-08-24|TAI|周记•Jalibreaking•Diffusion Model

论文部分【ACM MM 2025】Manipulating Multimodal Agents via Cross-Modal Prompt...

Agent Attack

发表于2025-08-17|更新于2025-08-17|TAI|周记•agent

在和学长两次交流后，本周实验有两次阶段性的进展第一次（8.11 周一）当前进展：构建了email和message两个场景的测试案例，并将普通图片插入场景中，看agent是否会识别到图片。效果如下 SoM标签集准确圈到了我们插入的图像，所以将图片插入场景中实现指令注入的方式可行。于是我开始思考如何将恶意语义注入到图像中，再引导agent执行预期的操作。我采用的方法来自于【ICLR 2025】《Adversarial Attacks on Multimodal Agents》构造了如下对抗样本： target_text = “a photo of a boy” victim_text = “a photo of a dog” 噪声有点大，图片从肉眼可以看出区别。不过重点在于目标文本是否成功与目标图像对齐，我将右边的对抗样本提供给gpt-5、gemini-2.5...