Skip to content

arXiv 论文周报 2026-W18

这一期按 2026-W18(2026-04-27 至 2026-05-01)归档。仓库里目前只有 2026-05-01 的 arXiv 日报和对应缓存,所以这份周报是基于单日样本的二次提炼,不把它写成完整五天趋势。可以看到的主线很集中:Agent 的可靠执行、安全治理、RAG/结构化数据检索、多模态长程决策和代码生成评测。

本周趋势概览

最强的信号来自 Agent 工程化。多篇论文都在处理同一个问题:Agent 不是“更长提示词”就能稳定工作,而是需要可审计的 skill、显式计划、约束执行、质量门控、工作流级调度和更便宜的观察压缩。Semia、Skills as Verifiable Artifacts、RunAgent、Agent Capsules、SAGA、A11y-Compressor 都落在这个方向上。

RAG 的关注点也在变窄、变实。结构化数据和知识库治理比通用向量检索更突出:表格切块、表格指令检索、跨文档多跳检索、LLM-oriented IR 去噪、RAG 知识库投毒检测和医疗 RAG 隐私风险,指向的是“上线后怎么不出事、怎么查得准”。

代码生成相关论文不再只看 pass rate。复现科研 claim、代码生成中的社会偏见、需求感知 RL、代码 reward model、多标准评分、代码能耗估计,这些都把代码模型放回真实软件与科研流程里评估。

多模态方向的共同点是长程和持续性:机器人操作需要文字与视觉交错计划,VLM 游戏决策拉到 100+ 轮,长视频理解尝试多 Agent latent 协作,LVLM 长文本生成需要持久视觉记忆,视觉安全分类则暴露出 prompt 改写会扰动分数。

本周最值得读的论文

#论文链接推荐为什么值得继续读
1Can Coding Agents Reproduce Findings in Computational Materials Science?arXiv必读把 coding agent 放进真实科研复现任务里,最好设置成功率也只有 54.1%。这比普通代码 benchmark 更能暴露流程缺失、领域工具链和 claim 验证的问题。
2RunAgent: Interpreting Natural-Language Plans with Constraint-Guided ExecutionarXiv必读把自然语言计划转成带 IF/GOTO/FORALL 的执行语言,再用逐步约束和 rubrics 控制跑偏。适合关注 Agent runtime 和工作流自动化的人。
3Semia: Auditing Agent Skills via Constraint-Guided Representation SynthesisarXiv必读把 skill 当作可审计工件,转成 SDL/Datalog 事实库后追踪 tainted input 到高影响 sink。对内部 skill 仓库和平台安全很贴近。
4CleanBase: Detecting Malicious Documents in RAG Knowledge DatabasesarXiv必读把 RAG 安全防线前移到知识库,利用恶意文档相似图检测投毒。它的假设不是万能的,但问题非常实际。
5MemRouter: Memory-as-Embedding Routing for Long-Term Conversational AgentsarXiv必读用小型 embedding 路由器决定哪些对话 turn 写入长期记忆,把记忆写入从主模型里拆出来,延迟收益清楚。
6A11y-Compressor: Enhancing GUI Agent ObservationsarXiv必读针对 GUI Agent 的 accessibility tree 冗余和空间关系弱做压缩,token 降到 22%,OSWorld 成功率也有提升。
7AgentFloor: How Far Up the Tool Use Ladder Can Small Open-Weight Models Go?arXiv必读用六级工具使用阶梯评估小开源模型能承担哪些 Agent 子任务,对模型路由和成本拆分有参考价值。
8Structure-Aware Chunking for Tabular Data in RAGarXiv必读表格 RAG 不能继续按普通文本切块。论文用 Row Tree 和结构边界切分,直接回应企业 CSV/Excel 检索痛点。
9Social Bias in LLM-Generated Code: Benchmark and MitigationarXiv必读代码生成评测加入社会偏见维度,提醒“功能正确”不等于上线安全,尤其是人相关业务逻辑。
10Thinking in Text and Images: Interleaved Vision-Language Reasoning Traces for Long-Horizon Robot ManipulationarXiv必读用文字子目标和视觉关键帧做显式 trace,长程机器人任务提升明显,也让计划更可检查。
11SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU ClustersarXiv值得读认为 Agent 推理应该按整个工作流调度,而不是逐个 LLM 请求调度。对自建推理平台团队更有用。
12LLM-Oriented Information Retrieval: A Denoising-First PerspectivearXiv值得读把面向 LLM 的检索重新定义成去噪问题,适合作为 RAG、Deep Research 和 context engineering 的问题框架。

高频主题归类

Agent 可靠性与运行时

这一组不是单点算法,而是围绕“Agent 怎么稳定执行”形成了一条工程链:RunAgent 管计划解释和约束执行,Agent Capsules 管多 Agent pipeline 的粒度和质量门控,SAGA 管推理调度,A11y-Compressor 管 GUI 观察输入,AgentFloor 管小模型能接哪些工具任务。它们共同说明 Agent 系统的瓶颈正在从模型能力扩展到运行时控制。

Agent skill 与安全审计

Semia 和 Skills as Verifiable Artifacts 都把 skill 从提示词升级成需要验证、权限和审计的工件。CleanBase、医疗 RAG 风险案例、IoT 安全 pattern 选择又把安全问题扩到知识库、前端边界和闭环系统。这个方向有连续信号,但仍需要更多真实平台数据。

RAG 从通用检索转向结构化与治理

Structure-Aware Chunking、FollowTable、Psi-RAG 和 LLM-oriented IR 都在补传统 RAG 的短板:表格结构、多跳跨文档、指令约束、噪声控制。CleanBase 则说明检索质量之外,还要考虑恶意内容进入知识库后的治理。

代码模型评测更接近真实工作

AutoMat 关注科研 claim 复现,SocialBias-Bench 看代码里的社会偏见,RECRL 看复杂需求训练,Themis 看多标准代码 reward model,EnCoDe 看能耗。这些信号比“再刷一个编程榜单”更值得跟,因为它们把代码模型放进实际开发、科研和治理场景。

多模态长程决策与持续感知

IVLR、Odysseus、MACF、PVM、OSCAR 和 prompt-induced VLM safety variance 都在处理多模态模型的长期状态问题:计划会不会过期,视觉信号会不会被文本历史稀释,长视频能不能分工理解,安全分类阈值会不会被 prompt 扰动。这个方向有技术连续性,但应用场景差异很大。

与上一期周报相比的变化

仓库中没有找到上一期 arXiv 周报,所以不能做严格环比。只能和这期样本内部的结构相比:Agent 系统、RAG 安全与结构化检索、代码模型真实评测占比明显高;传统单模型架构改进、纯视觉任务和垂直医疗/遥感论文更多是单日补充,不构成本期主线。

如果下一期也继续出现 skill 审计、RAG 投毒、GUI Agent 输入压缩、Agent 工作流调度和代码模型治理,才适合把它们写成“连续升温”。当前只能说:2026-05-01 这批论文里,这些方向密集出现。

下周值得继续跟踪的问题

  • Agent skill 是否会形成一套接近软件供应链安全的审计、签名、权限和回滚机制。
  • GUI / browser / desktop Agent 的观察压缩,能否在复杂 Web UI 和跨平台环境里稳定提升成功率。
  • RAG 安全是否会从 prompt injection 防御扩展到知识库准入、相似团检测、数据血缘和审计日志。
  • 表格与结构化数据检索是否会和 Text-to-SQL、企业 BI Agent 合流,而不是停留在独立 benchmark。
  • 代码生成评测是否会持续加入公平性、能耗、需求复杂度、科研复现和多标准 reward。
  • 多模态 Agent 的显式中间表示能否跨机器人、GUI、视频和游戏任务复用。

数据来源、参考日报范围与限制说明

  • 目标归档周:2026-W18,对应 2026-04-27 至 2026-05-01。
  • 已使用日报:reports/arxiv/daily/2026/2026-05-01.md
  • 已使用结构化产物:.cache/arxiv-paper-radar/2026-05-01/papers.json.cache/arxiv-paper-radar/2026-05-01/selected.json.cache/arxiv-paper-radar/2026-05-01/reviews/*.json
  • 这批缓存包含 250 篇元信息、50 篇精读 review。
  • 仓库中未找到上一期 arXiv 周报。
  • 本次没有重新搜索 arXiv,也没有重新全文精读。
  • 日报范围不完整:按上一完整工作周口径,仓库中没有找到 2026-04-27、2026-04-28、2026-04-29、2026-04-30 的 arXiv 日报;如果按“周二到次周一补齐上一工作日”的运行口径,也没有找到 2026-04-28、2026-04-29、2026-04-30、2026-05-04 的 arXiv 日报。因此本报告只代表现有 2026-05-01 日报样本,不能当作 2026-W18 五个工作日的完整趋势。

最后更新: