arXiv 论文周报 2026-W18

这一期按 2026-W18（2026-04-27 至 2026-05-01）归档。仓库里目前只有 2026-05-01 的 arXiv 日报和对应缓存，所以这份周报是基于单日样本的二次提炼，不把它写成完整五天趋势。可以看到的主线很集中：Agent 的可靠执行、安全治理、RAG/结构化数据检索、多模态长程决策和代码生成评测。

本周趋势概览

最强的信号来自 Agent 工程化。多篇论文都在处理同一个问题：Agent 不是“更长提示词”就能稳定工作，而是需要可审计的 skill、显式计划、约束执行、质量门控、工作流级调度和更便宜的观察压缩。Semia、Skills as Verifiable Artifacts、RunAgent、Agent Capsules、SAGA、A11y-Compressor 都落在这个方向上。

RAG 的关注点也在变窄、变实。结构化数据和知识库治理比通用向量检索更突出：表格切块、表格指令检索、跨文档多跳检索、LLM-oriented IR 去噪、RAG 知识库投毒检测和医疗 RAG 隐私风险，指向的是“上线后怎么不出事、怎么查得准”。

代码生成相关论文不再只看 pass rate。复现科研 claim、代码生成中的社会偏见、需求感知 RL、代码 reward model、多标准评分、代码能耗估计，这些都把代码模型放回真实软件与科研流程里评估。

多模态方向的共同点是长程和持续性：机器人操作需要文字与视觉交错计划，VLM 游戏决策拉到 100+ 轮，长视频理解尝试多 Agent latent 协作，LVLM 长文本生成需要持久视觉记忆，视觉安全分类则暴露出 prompt 改写会扰动分数。

本周最值得读的论文

#	论文	链接	推荐	为什么值得继续读
1	Can Coding Agents Reproduce Findings in Computational Materials Science?	arXiv	必读	把 coding agent 放进真实科研复现任务里，最好设置成功率也只有 54.1%。这比普通代码 benchmark 更能暴露流程缺失、领域工具链和 claim 验证的问题。
2	RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution	arXiv	必读	把自然语言计划转成带 IF/GOTO/FORALL 的执行语言，再用逐步约束和 rubrics 控制跑偏。适合关注 Agent runtime 和工作流自动化的人。
3	Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis	arXiv	必读	把 skill 当作可审计工件，转成 SDL/Datalog 事实库后追踪 tainted input 到高影响 sink。对内部 skill 仓库和平台安全很贴近。
4	CleanBase: Detecting Malicious Documents in RAG Knowledge Databases	arXiv	必读	把 RAG 安全防线前移到知识库，利用恶意文档相似图检测投毒。它的假设不是万能的，但问题非常实际。
5	MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents	arXiv	必读	用小型 embedding 路由器决定哪些对话 turn 写入长期记忆，把记忆写入从主模型里拆出来，延迟收益清楚。
6	A11y-Compressor: Enhancing GUI Agent Observations	arXiv	必读	针对 GUI Agent 的 accessibility tree 冗余和空间关系弱做压缩，token 降到 22%，OSWorld 成功率也有提升。
7	AgentFloor: How Far Up the Tool Use Ladder Can Small Open-Weight Models Go?	arXiv	必读	用六级工具使用阶梯评估小开源模型能承担哪些 Agent 子任务，对模型路由和成本拆分有参考价值。
8	Structure-Aware Chunking for Tabular Data in RAG	arXiv	必读	表格 RAG 不能继续按普通文本切块。论文用 Row Tree 和结构边界切分，直接回应企业 CSV/Excel 检索痛点。
9	Social Bias in LLM-Generated Code: Benchmark and Mitigation	arXiv	必读	代码生成评测加入社会偏见维度，提醒“功能正确”不等于上线安全，尤其是人相关业务逻辑。
10	Thinking in Text and Images: Interleaved Vision-Language Reasoning Traces for Long-Horizon Robot Manipulation	arXiv	必读	用文字子目标和视觉关键帧做显式 trace，长程机器人任务提升明显，也让计划更可检查。
11	SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters	arXiv	值得读	认为 Agent 推理应该按整个工作流调度，而不是逐个 LLM 请求调度。对自建推理平台团队更有用。
12	LLM-Oriented Information Retrieval: A Denoising-First Perspective	arXiv	值得读	把面向 LLM 的检索重新定义成去噪问题，适合作为 RAG、Deep Research 和 context engineering 的问题框架。

高频主题归类

Agent 可靠性与运行时

这一组不是单点算法，而是围绕“Agent 怎么稳定执行”形成了一条工程链：RunAgent 管计划解释和约束执行，Agent Capsules 管多 Agent pipeline 的粒度和质量门控，SAGA 管推理调度，A11y-Compressor 管 GUI 观察输入，AgentFloor 管小模型能接哪些工具任务。它们共同说明 Agent 系统的瓶颈正在从模型能力扩展到运行时控制。

Agent skill 与安全审计

Semia 和 Skills as Verifiable Artifacts 都把 skill 从提示词升级成需要验证、权限和审计的工件。CleanBase、医疗 RAG 风险案例、IoT 安全 pattern 选择又把安全问题扩到知识库、前端边界和闭环系统。这个方向有连续信号，但仍需要更多真实平台数据。

RAG 从通用检索转向结构化与治理

Structure-Aware Chunking、FollowTable、Psi-RAG 和 LLM-oriented IR 都在补传统 RAG 的短板：表格结构、多跳跨文档、指令约束、噪声控制。CleanBase 则说明检索质量之外，还要考虑恶意内容进入知识库后的治理。

代码模型评测更接近真实工作

AutoMat 关注科研 claim 复现，SocialBias-Bench 看代码里的社会偏见，RECRL 看复杂需求训练，Themis 看多标准代码 reward model，EnCoDe 看能耗。这些信号比“再刷一个编程榜单”更值得跟，因为它们把代码模型放进实际开发、科研和治理场景。

多模态长程决策与持续感知

IVLR、Odysseus、MACF、PVM、OSCAR 和 prompt-induced VLM safety variance 都在处理多模态模型的长期状态问题：计划会不会过期，视觉信号会不会被文本历史稀释，长视频能不能分工理解，安全分类阈值会不会被 prompt 扰动。这个方向有技术连续性，但应用场景差异很大。

与上一期周报相比的变化

仓库中没有找到上一期 arXiv 周报，所以不能做严格环比。只能和这期样本内部的结构相比：Agent 系统、RAG 安全与结构化检索、代码模型真实评测占比明显高；传统单模型架构改进、纯视觉任务和垂直医疗/遥感论文更多是单日补充，不构成本期主线。

如果下一期也继续出现 skill 审计、RAG 投毒、GUI Agent 输入压缩、Agent 工作流调度和代码模型治理，才适合把它们写成“连续升温”。当前只能说：2026-05-01 这批论文里，这些方向密集出现。

下周值得继续跟踪的问题

Agent skill 是否会形成一套接近软件供应链安全的审计、签名、权限和回滚机制。
GUI / browser / desktop Agent 的观察压缩，能否在复杂 Web UI 和跨平台环境里稳定提升成功率。
RAG 安全是否会从 prompt injection 防御扩展到知识库准入、相似团检测、数据血缘和审计日志。
表格与结构化数据检索是否会和 Text-to-SQL、企业 BI Agent 合流，而不是停留在独立 benchmark。
代码生成评测是否会持续加入公平性、能耗、需求复杂度、科研复现和多标准 reward。
多模态 Agent 的显式中间表示能否跨机器人、GUI、视频和游戏任务复用。

数据来源、参考日报范围与限制说明

目标归档周：2026-W18，对应 2026-04-27 至 2026-05-01。
已使用日报：reports/arxiv/daily/2026/2026-05-01.md。
已使用结构化产物：.cache/arxiv-paper-radar/2026-05-01/papers.json、.cache/arxiv-paper-radar/2026-05-01/selected.json、.cache/arxiv-paper-radar/2026-05-01/reviews/*.json。
这批缓存包含 250 篇元信息、50 篇精读 review。
仓库中未找到上一期 arXiv 周报。
本次没有重新搜索 arXiv，也没有重新全文精读。
日报范围不完整：按上一完整工作周口径，仓库中没有找到 2026-04-27、2026-04-28、2026-04-29、2026-04-30 的 arXiv 日报；如果按“周二到次周一补齐上一工作日”的运行口径，也没有找到 2026-04-28、2026-04-29、2026-04-30、2026-05-04 的 arXiv 日报。因此本报告只代表现有 2026-05-01 日报样本，不能当作 2026-W18 五个工作日的完整趋势。

arXiv 论文周报 2026-W18 ​

本周趋势概览 ​

本周最值得读的论文 ​

高频主题归类 ​

与上一期周报相比的变化 ​

下周值得继续跟踪的问题 ​

数据来源、参考日报范围与限制说明 ​