arXiv 论文雷达 2026-05-04
最值得读
| 序号 | 论文 | 链接 | 推荐 | 判断 | 关键信息 | 适合谁读 |
|---|---|---|---|---|---|---|
| 1 | When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AI | arXiv HTML | 值得读 | 一个匿名医疗 RAG 真实案例:不用登录、只看浏览器网络流量,就能拿到系统提示词、RAG 配置、知识库和最近 1000 条患者对话。 | 问题:患者侧医疗 RAG 不只是回答质量问题,也有普通 Web 应用的安全边界:前后端通信、API schema、日志、向量库、知识库和会话存储都可能泄露健康信息。 方法:作者做了非破坏性安全评估:先用 LLM 辅助形成漏洞假设,再用 Chrome Developer Tools 人工复核浏览器可见请求、响应、配置对象、API schema、知识库引用和历史交互。 实验:证据链比较强,论文区分了 LLM 辅助发现和人工验证,并列出暴露范围:系统提示词、模型与 embedding 配置、检索参数、backend endpoint、API schema、知识库内容和最近 1000 条对话。 不足:单个匿名部署不能代表所有医疗 RAG;为保护隐私,endpoint、payload 和原始对话没有公开,外部复现有限;评估重点是浏览器可见暴露面,没有覆盖完整后端和合规流程。 | 医疗 AI / 多模态 RAG / 安全评估 |
| 2 | To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling | arXiv HTML | 值得读 | 把“该不该调用工具”拆成必要性、效用和成本三件事,用隐藏状态估计器做预算内调用控制,适合做工具使用评估和 agent 成本控制参考。 | 问题:工具调用并不总是有益。搜索类工具可能在模型已知答案时引入噪声,也可能在模型不知道答案时被错过;只看整体准确率看不清每次调用是必要、冗余还是有害。 方法:框架用 NO TOOL、ALWAYS TOOL、SELF-DECISION 和 OPTIMAL 设置对比模型行为,估计 true/perceived need、true/perceived utility 和 affordability;再训练轻量 need/utility estimator,从隐藏状态预测是否需要工具和调用是否有收益。 实验:实验覆盖三类问答任务和六个开源模型,比较无工具、总是调用、自主调用、oracle 最优和估计器控制,并分析正效用、负效用、冗余调用和预算分配。设计能支撑框架价值。 不足:主要围绕网页搜索和问答任务,未必直接覆盖代码执行、数据库查询、真实 API 调用等多步 agent 场景;OPTIMAL 标签需要离线跑对照;隐藏状态估计器对闭源模型和托管 API 不友好。 | Agent 工具调用 / RAG / 成本控制 |
| 3 | AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go? | arXiv HTML | 值得读 | 把小开源模型在 agent 工具调用工作流里能承担到哪一步,整理成六级能力阶梯和可重复实验。 | 问题:生产 agent 常是一串短小、结构化、重复的模型调用。现有 benchmark 多比较整体能力,较少回答哪些子任务必须用 frontier model,哪些可以交给便宜小模型。 方法:AgentFloor 用 30 个确定性任务组成六级能力阶梯,覆盖指令遵循、工具使用、多步协调和带持久约束的长程规划;评测 16 个 0.27B 到 32B 开源模型,并用 GPT-5 作参照。 实验:总计 16542 次打分运行,结论区分了短程结构化工具使用与长程规划失败:小模型可承担大量 routine action,但在长程约束跟踪上仍明显吃力。 不足:任务只有 30 个且偏确定性,真实 agent 环境里的工具错误、网页状态漂移、权限边界和上下文污染更复杂;聚合结果容易受短任务占比影响。 | Agent 评测 / 模型路由 / 平台工程 |
| 4 | Can Coding Agents Reproduce Findings in Computational Materials Science? | arXiv HTML | 值得读 | AutoMat 把 coding agent 放到真实计算材料论文复现实验里测,最佳设置也只有 54.1% 成功率,直接暴露科学工作流复现的短板。 | 问题:计算科学复现不是普通修 bug 或写函数。agent 要从写得不完整的论文文本还原计算流程,安装专业工具链,运行实验,再判断结果是否支持论文 claim。 方法:作者和领域专家从真实计算材料科学论文中抽取待复现主张,构建 AutoMat;每个任务要求 agent 恢复端到端 workflow、执行计算或分析、再判断证据是否支持原主张。 实验:结果主线清楚:最佳 agent 设置总体成功率只有 54.1%,在只能依赖论文文本重建 workflow 时表现最差,失败主要来自步骤不完整、偏离原方法和执行脆弱。 不足:可能受材料科学子领域覆盖、原论文自身可复现性、专家任务整理粒度和评分标准影响;若任务、环境和标准答案开放不足,长期跟踪价值会打折。 | Coding agent / AI for Science / 科研复现 |
| 5 | GeoContra: From Fluent GIS Code to Verifiable Spatial Analysis with Geography-Grounded Repair | arXiv HTML | 值得读 | 把 LLM 生成的 GIS Python 代码放进可执行地理空间契约里检查和修复,重点从“能跑”转向“空间分析是否真的合规”。 | 问题:LLM 做 GIS 代码生成时,隐蔽错误往往不是语法,而是 CRS、字段、拓扑、单位、空间谓词和地理合理性;代码可执行不等于分析有效。 方法:GeoContra 将任务表示成 geospatial contract,包含 schema、CRS、期望输出、空间谓词、拓扑、指标、必须操作和禁用捷径;生成程序后做静态规则检查、运行时验证、语义验证,并用违规反馈进行有界修复。 实验:实验规模可观:7079 个真实地理空间任务,覆盖波士顿 15 个 zone、9 类任务、11 个开源模型;闭源模型空间正确率也有明显提升,例如 DeepSeek-V4 从 47.6% 到 77.5%。 不足:契约覆盖不到的地理常识仍可能漏掉;评估集中在波士顿区域和 Python GIS 工作流,跨城市、跨数据源、跨 GIS 软件栈的泛化还要继续验证;修复循环有额外成本。 | LLM 代码生成 / GeoAI / 领域约束验证 |
| 6 | Make Your LVLM KV Cache More Lightweight | arXiv HTML | 值得读 | LightKV 在 LVLM prefill 阶段用文本提示引导视觉 token 合并,训练无关地把视觉 KV cache 大约减半,同时尽量保住多模型多任务性能。 | 问题:LVLM 会在 prefill 阶段处理大量视觉 token,KV cache 的显存和计算开销比纯文本 LLM 更突出;只按视觉相似度压缩容易忽略当前 prompt 真正需要的视觉信息。 方法:LightKV 把视觉 token 还原为空间网格,在选定 decoder 层后做分阶段压缩;用视觉 token 对文本 prompt 的 cross-modal attention 作为权重,把低差异 token 信息传给保留 token。 实验:实验覆盖 8 个开源 LVLM 和 8 个 benchmark,并与 FastV、ToMe、PiToMe、ToFu、HiRED 等基线比较;在约 55% 视觉 token 保留率下,通常能接近减半视觉 KV cache,性能接近 vanilla。 不足:依赖显式 attention matrix,和 FlashAttention 这类不暴露完整 attention 的工程路径存在摩擦;压缩层、窗口和比例仍需按模型调参;生产场景的 batch、多图、长输出和显存碎片指标还不充分。 | 多模态模型 / KV cache 压缩 / 推理优化 |
| 7 | AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning | arXiv HTML | 值得读 | AEM 用响应级熵调制 GRPO/DAPO 这类组内优势信号,想在不引入过程奖励模型的情况下缓解多轮 agent RL 的信用分配问题。 | 问题:多轮 LLM agent 常只有最终成败奖励,单步回复该鼓励还是压制很难判断,容易导致高方差更新和过早熵塌缩;过程奖励模型又贵且泛化不稳。 方法:论文从响应级分析策略熵,把优势值和相对 surprisal 的关系做成插件式调制器:组内熵差足够大时,用熵相关系数重加权 advantage,让训练早期保留探索、后期推动成功轨迹收敛。 实验:材料显示实验覆盖 ALFWorld、WebShop 和 SWE-bench-Verified,模型规模从 1.5B 到 32B,并接入 GRPO、DAPO、GSPO 和 DeepSWE;SWE-bench-Verified 有约 1.4 个百分点提升。 不足:依赖 group-based 采样和相对熵估计,采样组小或成功信号极稀疏时可能不稳;SWE-bench 提升不大,需要结合方差、训练成本和任务分布判断工程收益。 | Agent RL / GRPO-DAPO / 后训练稳定性 |
| 8 | Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding | arXiv HTML | 值得读 | 把 on-policy self-distillation 用到 GUI grounding:用带框和高斯软掩码的 privileged teacher,给坐标生成更密的 token 级训练信号。 | 问题:GUI grounding 要把指令落到屏幕坐标。GRPO 类方法有效但 rollout 成本高,难样本上奖励稀疏;普通 OPSD 直接用于坐标预测,又没有处理数字位重要性和教师不确定性。 方法:GUI-SD 让学生用普通截图生成坐标,教师获得目标框和高斯 soft mask 形成 privileged context,但不直接泄露精确坐标;蒸馏时按坐标数字位重要性和教师熵给 token 加权。 实验:摘要声称在 6 个 GUI grounding benchmark 上优于 GRPO 和 naive OPSD,并同时提升准确率和训练效率;方法动机和关键消融方向都比较明确。 不足:依赖训练时可用的目标 bounding box,收益会受标注质量影响;优化的是单步坐标 grounding,对多步 GUI agent 的状态变化、误点恢复和真实任务成功率还需要验证。 | GUI agent / 视觉 grounding / RLVR 训练 |
| 9 | Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models | arXiv HTML | 值得读 | 把 jailbreak 成功解释从全局方向推进到单个样本的局部因果解释,思路值得安全和可解释性方向跟进。 | 问题:现有解释常把所有 jailbreak 归结为同类全局表征变化,解释不了不同攻击策略、危害类别和样本之间的差异。 方法:LOCA 给定原始有害请求和成功 jailbreak,先做 token 对齐,再用 SAE decoder 方向作为可解释概念向量,迭代选择 token 和概念方向做 activation patching,使输出分布向拒绝分布靠近。 实验:实验覆盖 Gemma-2-2B-IT 和 Llama-3.1-8B-Instruct,在 50 个原始请求-jailbreak 配对上比较局部化基线;结果称平均约 6 个可解释改动即可诱导拒绝,且 token-specific、iterative 设计有贡献。 不足:样本量和模型覆盖还小,离真实多模型、多 jailbreak 家族、多危害类别场景较远;SAE 方向质量会影响结论;诱导拒绝不等于完整解释生成过程,也不是可直接部署的防御。 | LLM 安全 / Jailbreak 分析 / SAE 可解释性 |
| 10 | TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data | arXiv HTML | 值得读 | 偏工程系统的 agentic AI 钻井分析报告:把 Volve 公开数据接成 DuckDB + ChromaDB 双存储,再用 12 个领域工具做带证据问答。 | 问题:钻井数据分散在日报 XML、WITSML、生产记录、地层顶界和自由文本里。工程师回答跨井、跨阶段、带根因分析的问题时,需要手工对齐结构化数据和日报叙述。 方法:TADI 用 DuckDB 存结构化表、ChromaDB 存嵌入文档;LLM 通过 function calling 调用 SQL 查询、日报搜索、井概览、阶段识别、效率/NPT、BHA、作业问题、跨井比较和地层上下文等 12 个工具。 实验:系统解析 1759 份 DDR XML,整理约 65K 行结构化记录和 36709 个嵌入文档,配 95 个自动化测试和 130 个压力问题;案例展示了工具链、统计和日报引文如何组合。 不足:评测更像系统验证和案例演示,缺少全量人工评分、真实 baseline、消融和准确率统计;迁移到其他油田或公司内部数据时,需要重做数据模型、领域规则和专家验证。 | 工业 Agent / RAG + SQL / 钻井数据分析 |
| 11 | Position: agentic AI orchestration should be Bayes-consistent | arXiv HTML | 值得读 | 把 agent 编排从提示词和流程图问题拉回到贝叶斯决策问题:编排层应维护任务级信念,并按成本、效用和信息价值行动。 | 问题:很多 agent 系统用固定工作流、自报信心、投票或经验阈值处理不确定性;但部署中的关键决策是何时调用工具、何时升级给人、何时停止,以及错误代价和资源成本怎么权衡。 方法:论文主张把 LLM 和工具视为证据来源,编排器维护低维任务级信念状态,根据模型、工具或人的输出做带可靠性权重的更新,再用期望效用和信息价值选择下一步。 实验:这是 position paper,主要靠理论动机、设计原则和多 agent 代码生成、讨论、能力学习、信念状态蒸馏等示例支撑,没有系统 benchmark 或真实部署实验。 不足:观测模型怎么学、可靠性如何校准、agent 输出如何转成 likelihood、效用函数谁定义、分布漂移下是否过度自信,都是落地难点;贝叶斯控制层也会增加建模和工程成本。 | Agent 编排 / 模型路由 / 可靠性评估 |
| 12 | AgentReputation: A Decentralized Agentic AI Reputation Framework | arXiv HTML | 略读 | 关于去中心化 AI agent 市场声誉基础设施的框架/愿景论文,问题抓得准,但目前更像设计蓝图。 | 问题:去中心化 agent 市场里,单一声誉分数容易失真:agent 可能针对评测流程投机,不同任务域的能力不能直接迁移,验证强度也从自动测试到专家审查差异很大。 方法:作者提出三层 AgentReputation:功能层负责任务交互,服务层收集证据、计算上下文声誉卡并执行策略,存储层用链上承诺和链下证据保证可审计性。 实验:论文主要提供概念架构、机制定义和安全审计示例流程,没有原型实现、仿真、真实市场数据、攻击实验或与已有声誉机制的定量对比。 不足:验证强度如何量化、不同验证制度如何标准化、如何防止女巫攻击和合谋、隐私保护证据如何保持可审计性,都还停留在开放问题;质押和惩罚机制也可能带来治理争议。 | Agent 治理 / AI for SE / 声誉系统 |