arXiv 论文雷达 2026-05-04

最值得读

序号	论文	链接	推荐	判断	关键信息	适合谁读
1	When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AI	arXiv PDF HTML	值得读	一个匿名医疗 RAG 真实案例：不用登录、只看浏览器网络流量，就能拿到系统提示词、RAG 配置、知识库和最近 1000 条患者对话。	问题：患者侧医疗 RAG 不只是回答质量问题，也有普通 Web 应用的安全边界：前后端通信、API schema、日志、向量库、知识库和会话存储都可能泄露健康信息。方法：作者做了非破坏性安全评估：先用 LLM 辅助形成漏洞假设，再用 Chrome Developer Tools 人工复核浏览器可见请求、响应、配置对象、API schema、知识库引用和历史交互。实验：证据链比较强，论文区分了 LLM 辅助发现和人工验证，并列出暴露范围：系统提示词、模型与 embedding 配置、检索参数、backend endpoint、API schema、知识库内容和最近 1000 条对话。不足：单个匿名部署不能代表所有医疗 RAG；为保护隐私，endpoint、payload 和原始对话没有公开，外部复现有限；评估重点是浏览器可见暴露面，没有覆盖完整后端和合规流程。	医疗 AI / 多模态 RAG / 安全评估
2	To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling	arXiv PDF HTML	值得读	把“该不该调用工具”拆成必要性、效用和成本三件事，用隐藏状态估计器做预算内调用控制，适合做工具使用评估和 agent 成本控制参考。	问题：工具调用并不总是有益。搜索类工具可能在模型已知答案时引入噪声，也可能在模型不知道答案时被错过；只看整体准确率看不清每次调用是必要、冗余还是有害。方法：框架用 NO TOOL、ALWAYS TOOL、SELF-DECISION 和 OPTIMAL 设置对比模型行为，估计 true/perceived need、true/perceived utility 和 affordability；再训练轻量 need/utility estimator，从隐藏状态预测是否需要工具和调用是否有收益。实验：实验覆盖三类问答任务和六个开源模型，比较无工具、总是调用、自主调用、oracle 最优和估计器控制，并分析正效用、负效用、冗余调用和预算分配。设计能支撑框架价值。不足：主要围绕网页搜索和问答任务，未必直接覆盖代码执行、数据库查询、真实 API 调用等多步 agent 场景；OPTIMAL 标签需要离线跑对照；隐藏状态估计器对闭源模型和托管 API 不友好。	Agent 工具调用 / RAG / 成本控制
3	AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?	arXiv PDF HTML	值得读	把小开源模型在 agent 工具调用工作流里能承担到哪一步，整理成六级能力阶梯和可重复实验。	问题：生产 agent 常是一串短小、结构化、重复的模型调用。现有 benchmark 多比较整体能力，较少回答哪些子任务必须用 frontier model，哪些可以交给便宜小模型。方法：AgentFloor 用 30 个确定性任务组成六级能力阶梯，覆盖指令遵循、工具使用、多步协调和带持久约束的长程规划；评测 16 个 0.27B 到 32B 开源模型，并用 GPT-5 作参照。实验：总计 16542 次打分运行，结论区分了短程结构化工具使用与长程规划失败：小模型可承担大量 routine action，但在长程约束跟踪上仍明显吃力。不足：任务只有 30 个且偏确定性，真实 agent 环境里的工具错误、网页状态漂移、权限边界和上下文污染更复杂；聚合结果容易受短任务占比影响。	Agent 评测 / 模型路由 / 平台工程
4	Can Coding Agents Reproduce Findings in Computational Materials Science?	arXiv PDF HTML	值得读	AutoMat 把 coding agent 放到真实计算材料论文复现实验里测，最佳设置也只有 54.1% 成功率，直接暴露科学工作流复现的短板。	问题：计算科学复现不是普通修 bug 或写函数。agent 要从写得不完整的论文文本还原计算流程，安装专业工具链，运行实验，再判断结果是否支持论文 claim。方法：作者和领域专家从真实计算材料科学论文中抽取待复现主张，构建 AutoMat；每个任务要求 agent 恢复端到端 workflow、执行计算或分析、再判断证据是否支持原主张。实验：结果主线清楚：最佳 agent 设置总体成功率只有 54.1%，在只能依赖论文文本重建 workflow 时表现最差，失败主要来自步骤不完整、偏离原方法和执行脆弱。不足：可能受材料科学子领域覆盖、原论文自身可复现性、专家任务整理粒度和评分标准影响；若任务、环境和标准答案开放不足，长期跟踪价值会打折。	Coding agent / AI for Science / 科研复现
5	GeoContra: From Fluent GIS Code to Verifiable Spatial Analysis with Geography-Grounded Repair	arXiv PDF HTML	值得读	把 LLM 生成的 GIS Python 代码放进可执行地理空间契约里检查和修复，重点从“能跑”转向“空间分析是否真的合规”。	问题：LLM 做 GIS 代码生成时，隐蔽错误往往不是语法，而是 CRS、字段、拓扑、单位、空间谓词和地理合理性；代码可执行不等于分析有效。方法：GeoContra 将任务表示成 geospatial contract，包含 schema、CRS、期望输出、空间谓词、拓扑、指标、必须操作和禁用捷径；生成程序后做静态规则检查、运行时验证、语义验证，并用违规反馈进行有界修复。实验：实验规模可观：7079 个真实地理空间任务，覆盖波士顿 15 个 zone、9 类任务、11 个开源模型；闭源模型空间正确率也有明显提升，例如 DeepSeek-V4 从 47.6% 到 77.5%。不足：契约覆盖不到的地理常识仍可能漏掉；评估集中在波士顿区域和 Python GIS 工作流，跨城市、跨数据源、跨 GIS 软件栈的泛化还要继续验证；修复循环有额外成本。	LLM 代码生成 / GeoAI / 领域约束验证
6	Make Your LVLM KV Cache More Lightweight	arXiv PDF HTML	值得读	LightKV 在 LVLM prefill 阶段用文本提示引导视觉 token 合并，训练无关地把视觉 KV cache 大约减半，同时尽量保住多模型多任务性能。	问题：LVLM 会在 prefill 阶段处理大量视觉 token，KV cache 的显存和计算开销比纯文本 LLM 更突出；只按视觉相似度压缩容易忽略当前 prompt 真正需要的视觉信息。方法：LightKV 把视觉 token 还原为空间网格，在选定 decoder 层后做分阶段压缩；用视觉 token 对文本 prompt 的 cross-modal attention 作为权重，把低差异 token 信息传给保留 token。实验：实验覆盖 8 个开源 LVLM 和 8 个 benchmark，并与 FastV、ToMe、PiToMe、ToFu、HiRED 等基线比较；在约 55% 视觉 token 保留率下，通常能接近减半视觉 KV cache，性能接近 vanilla。不足：依赖显式 attention matrix，和 FlashAttention 这类不暴露完整 attention 的工程路径存在摩擦；压缩层、窗口和比例仍需按模型调参；生产场景的 batch、多图、长输出和显存碎片指标还不充分。	多模态模型 / KV cache 压缩 / 推理优化
7	AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning	arXiv PDF HTML	值得读	AEM 用响应级熵调制 GRPO/DAPO 这类组内优势信号，想在不引入过程奖励模型的情况下缓解多轮 agent RL 的信用分配问题。	问题：多轮 LLM agent 常只有最终成败奖励，单步回复该鼓励还是压制很难判断，容易导致高方差更新和过早熵塌缩；过程奖励模型又贵且泛化不稳。方法：论文从响应级分析策略熵，把优势值和相对 surprisal 的关系做成插件式调制器：组内熵差足够大时，用熵相关系数重加权 advantage，让训练早期保留探索、后期推动成功轨迹收敛。实验：材料显示实验覆盖 ALFWorld、WebShop 和 SWE-bench-Verified，模型规模从 1.5B 到 32B，并接入 GRPO、DAPO、GSPO 和 DeepSWE；SWE-bench-Verified 有约 1.4 个百分点提升。不足：依赖 group-based 采样和相对熵估计，采样组小或成功信号极稀疏时可能不稳；SWE-bench 提升不大，需要结合方差、训练成本和任务分布判断工程收益。	Agent RL / GRPO-DAPO / 后训练稳定性
8	Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding	arXiv PDF HTML	值得读	把 on-policy self-distillation 用到 GUI grounding：用带框和高斯软掩码的 privileged teacher，给坐标生成更密的 token 级训练信号。	问题：GUI grounding 要把指令落到屏幕坐标。GRPO 类方法有效但 rollout 成本高，难样本上奖励稀疏；普通 OPSD 直接用于坐标预测，又没有处理数字位重要性和教师不确定性。方法：GUI-SD 让学生用普通截图生成坐标，教师获得目标框和高斯 soft mask 形成 privileged context，但不直接泄露精确坐标；蒸馏时按坐标数字位重要性和教师熵给 token 加权。实验：摘要声称在 6 个 GUI grounding benchmark 上优于 GRPO 和 naive OPSD，并同时提升准确率和训练效率；方法动机和关键消融方向都比较明确。不足：依赖训练时可用的目标 bounding box，收益会受标注质量影响；优化的是单步坐标 grounding，对多步 GUI agent 的状态变化、误点恢复和真实任务成功率还需要验证。	GUI agent / 视觉 grounding / RLVR 训练
9	Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models	arXiv PDF HTML	值得读	把 jailbreak 成功解释从全局方向推进到单个样本的局部因果解释，思路值得安全和可解释性方向跟进。	问题：现有解释常把所有 jailbreak 归结为同类全局表征变化，解释不了不同攻击策略、危害类别和样本之间的差异。方法：LOCA 给定原始有害请求和成功 jailbreak，先做 token 对齐，再用 SAE decoder 方向作为可解释概念向量，迭代选择 token 和概念方向做 activation patching，使输出分布向拒绝分布靠近。实验：实验覆盖 Gemma-2-2B-IT 和 Llama-3.1-8B-Instruct，在 50 个原始请求-jailbreak 配对上比较局部化基线；结果称平均约 6 个可解释改动即可诱导拒绝，且 token-specific、iterative 设计有贡献。不足：样本量和模型覆盖还小，离真实多模型、多 jailbreak 家族、多危害类别场景较远；SAE 方向质量会影响结论；诱导拒绝不等于完整解释生成过程，也不是可直接部署的防御。	LLM 安全 / Jailbreak 分析 / SAE 可解释性
10	TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data	arXiv PDF HTML	值得读	偏工程系统的 agentic AI 钻井分析报告：把 Volve 公开数据接成 DuckDB + ChromaDB 双存储，再用 12 个领域工具做带证据问答。	问题：钻井数据分散在日报 XML、WITSML、生产记录、地层顶界和自由文本里。工程师回答跨井、跨阶段、带根因分析的问题时，需要手工对齐结构化数据和日报叙述。方法：TADI 用 DuckDB 存结构化表、ChromaDB 存嵌入文档；LLM 通过 function calling 调用 SQL 查询、日报搜索、井概览、阶段识别、效率/NPT、BHA、作业问题、跨井比较和地层上下文等 12 个工具。实验：系统解析 1759 份 DDR XML，整理约 65K 行结构化记录和 36709 个嵌入文档，配 95 个自动化测试和 130 个压力问题；案例展示了工具链、统计和日报引文如何组合。不足：评测更像系统验证和案例演示，缺少全量人工评分、真实 baseline、消融和准确率统计；迁移到其他油田或公司内部数据时，需要重做数据模型、领域规则和专家验证。	工业 Agent / RAG + SQL / 钻井数据分析
11	Position: agentic AI orchestration should be Bayes-consistent	arXiv PDF HTML	值得读	把 agent 编排从提示词和流程图问题拉回到贝叶斯决策问题：编排层应维护任务级信念，并按成本、效用和信息价值行动。	问题：很多 agent 系统用固定工作流、自报信心、投票或经验阈值处理不确定性；但部署中的关键决策是何时调用工具、何时升级给人、何时停止，以及错误代价和资源成本怎么权衡。方法：论文主张把 LLM 和工具视为证据来源，编排器维护低维任务级信念状态，根据模型、工具或人的输出做带可靠性权重的更新，再用期望效用和信息价值选择下一步。实验：这是 position paper，主要靠理论动机、设计原则和多 agent 代码生成、讨论、能力学习、信念状态蒸馏等示例支撑，没有系统 benchmark 或真实部署实验。不足：观测模型怎么学、可靠性如何校准、agent 输出如何转成 likelihood、效用函数谁定义、分布漂移下是否过度自信，都是落地难点；贝叶斯控制层也会增加建模和工程成本。	Agent 编排 / 模型路由 / 可靠性评估
12	AgentReputation: A Decentralized Agentic AI Reputation Framework	arXiv PDF HTML	略读	关于去中心化 AI agent 市场声誉基础设施的框架/愿景论文，问题抓得准，但目前更像设计蓝图。	问题：去中心化 agent 市场里，单一声誉分数容易失真：agent 可能针对评测流程投机，不同任务域的能力不能直接迁移，验证强度也从自动测试到专家审查差异很大。方法：作者提出三层 AgentReputation：功能层负责任务交互，服务层收集证据、计算上下文声誉卡并执行策略，存储层用链上承诺和链下证据保证可审计性。实验：论文主要提供概念架构、机制定义和安全审计示例流程，没有原型实现、仿真、真实市场数据、攻击实验或与已有声誉机制的定量对比。不足：验证强度如何量化、不同验证制度如何标准化、如何防止女巫攻击和合谋、隐私保护证据如何保持可审计性，都还停留在开放问题；质押和惩罚机制也可能带来治理争议。	Agent 治理 / AI for SE / 声誉系统