arXiv 论文周报 2026-W18
这一期按 2026-W18(2026-04-27 至 2026-05-01)归档。仓库里目前只有 2026-05-01 的 arXiv 日报和对应缓存,所以这份周报是基于单日样本的二次提炼,不把它写成完整五天趋势。可以看到的主线很集中:Agent 的可靠执行、安全治理、RAG/结构化数据检索、多模态长程决策和代码生成评测。
本周趋势概览
最强的信号来自 Agent 工程化。多篇论文都在处理同一个问题:Agent 不是“更长提示词”就能稳定工作,而是需要可审计的 skill、显式计划、约束执行、质量门控、工作流级调度和更便宜的观察压缩。Semia、Skills as Verifiable Artifacts、RunAgent、Agent Capsules、SAGA、A11y-Compressor 都落在这个方向上。
RAG 的关注点也在变窄、变实。结构化数据和知识库治理比通用向量检索更突出:表格切块、表格指令检索、跨文档多跳检索、LLM-oriented IR 去噪、RAG 知识库投毒检测和医疗 RAG 隐私风险,指向的是“上线后怎么不出事、怎么查得准”。
代码生成相关论文不再只看 pass rate。复现科研 claim、代码生成中的社会偏见、需求感知 RL、代码 reward model、多标准评分、代码能耗估计,这些都把代码模型放回真实软件与科研流程里评估。
多模态方向的共同点是长程和持续性:机器人操作需要文字与视觉交错计划,VLM 游戏决策拉到 100+ 轮,长视频理解尝试多 Agent latent 协作,LVLM 长文本生成需要持久视觉记忆,视觉安全分类则暴露出 prompt 改写会扰动分数。
本周最值得读的论文
| # | 论文 | 链接 | 推荐 | 为什么值得继续读 |
|---|---|---|---|---|
| 1 | Can Coding Agents Reproduce Findings in Computational Materials Science? | arXiv | 必读 | 把 coding agent 放进真实科研复现任务里,最好设置成功率也只有 54.1%。这比普通代码 benchmark 更能暴露流程缺失、领域工具链和 claim 验证的问题。 |
| 2 | RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution | arXiv | 必读 | 把自然语言计划转成带 IF/GOTO/FORALL 的执行语言,再用逐步约束和 rubrics 控制跑偏。适合关注 Agent runtime 和工作流自动化的人。 |
| 3 | Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis | arXiv | 必读 | 把 skill 当作可审计工件,转成 SDL/Datalog 事实库后追踪 tainted input 到高影响 sink。对内部 skill 仓库和平台安全很贴近。 |
| 4 | CleanBase: Detecting Malicious Documents in RAG Knowledge Databases | arXiv | 必读 | 把 RAG 安全防线前移到知识库,利用恶意文档相似图检测投毒。它的假设不是万能的,但问题非常实际。 |
| 5 | MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents | arXiv | 必读 | 用小型 embedding 路由器决定哪些对话 turn 写入长期记忆,把记忆写入从主模型里拆出来,延迟收益清楚。 |
| 6 | A11y-Compressor: Enhancing GUI Agent Observations | arXiv | 必读 | 针对 GUI Agent 的 accessibility tree 冗余和空间关系弱做压缩,token 降到 22%,OSWorld 成功率也有提升。 |
| 7 | AgentFloor: How Far Up the Tool Use Ladder Can Small Open-Weight Models Go? | arXiv | 必读 | 用六级工具使用阶梯评估小开源模型能承担哪些 Agent 子任务,对模型路由和成本拆分有参考价值。 |
| 8 | Structure-Aware Chunking for Tabular Data in RAG | arXiv | 必读 | 表格 RAG 不能继续按普通文本切块。论文用 Row Tree 和结构边界切分,直接回应企业 CSV/Excel 检索痛点。 |
| 9 | Social Bias in LLM-Generated Code: Benchmark and Mitigation | arXiv | 必读 | 代码生成评测加入社会偏见维度,提醒“功能正确”不等于上线安全,尤其是人相关业务逻辑。 |
| 10 | Thinking in Text and Images: Interleaved Vision-Language Reasoning Traces for Long-Horizon Robot Manipulation | arXiv | 必读 | 用文字子目标和视觉关键帧做显式 trace,长程机器人任务提升明显,也让计划更可检查。 |
| 11 | SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters | arXiv | 值得读 | 认为 Agent 推理应该按整个工作流调度,而不是逐个 LLM 请求调度。对自建推理平台团队更有用。 |
| 12 | LLM-Oriented Information Retrieval: A Denoising-First Perspective | arXiv | 值得读 | 把面向 LLM 的检索重新定义成去噪问题,适合作为 RAG、Deep Research 和 context engineering 的问题框架。 |
高频主题归类
Agent 可靠性与运行时
这一组不是单点算法,而是围绕“Agent 怎么稳定执行”形成了一条工程链:RunAgent 管计划解释和约束执行,Agent Capsules 管多 Agent pipeline 的粒度和质量门控,SAGA 管推理调度,A11y-Compressor 管 GUI 观察输入,AgentFloor 管小模型能接哪些工具任务。它们共同说明 Agent 系统的瓶颈正在从模型能力扩展到运行时控制。
Agent skill 与安全审计
Semia 和 Skills as Verifiable Artifacts 都把 skill 从提示词升级成需要验证、权限和审计的工件。CleanBase、医疗 RAG 风险案例、IoT 安全 pattern 选择又把安全问题扩到知识库、前端边界和闭环系统。这个方向有连续信号,但仍需要更多真实平台数据。
RAG 从通用检索转向结构化与治理
Structure-Aware Chunking、FollowTable、Psi-RAG 和 LLM-oriented IR 都在补传统 RAG 的短板:表格结构、多跳跨文档、指令约束、噪声控制。CleanBase 则说明检索质量之外,还要考虑恶意内容进入知识库后的治理。
代码模型评测更接近真实工作
AutoMat 关注科研 claim 复现,SocialBias-Bench 看代码里的社会偏见,RECRL 看复杂需求训练,Themis 看多标准代码 reward model,EnCoDe 看能耗。这些信号比“再刷一个编程榜单”更值得跟,因为它们把代码模型放进实际开发、科研和治理场景。
多模态长程决策与持续感知
IVLR、Odysseus、MACF、PVM、OSCAR 和 prompt-induced VLM safety variance 都在处理多模态模型的长期状态问题:计划会不会过期,视觉信号会不会被文本历史稀释,长视频能不能分工理解,安全分类阈值会不会被 prompt 扰动。这个方向有技术连续性,但应用场景差异很大。
与上一期周报相比的变化
仓库中没有找到上一期 arXiv 周报,所以不能做严格环比。只能和这期样本内部的结构相比:Agent 系统、RAG 安全与结构化检索、代码模型真实评测占比明显高;传统单模型架构改进、纯视觉任务和垂直医疗/遥感论文更多是单日补充,不构成本期主线。
如果下一期也继续出现 skill 审计、RAG 投毒、GUI Agent 输入压缩、Agent 工作流调度和代码模型治理,才适合把它们写成“连续升温”。当前只能说:2026-05-01 这批论文里,这些方向密集出现。
下周值得继续跟踪的问题
- Agent skill 是否会形成一套接近软件供应链安全的审计、签名、权限和回滚机制。
- GUI / browser / desktop Agent 的观察压缩,能否在复杂 Web UI 和跨平台环境里稳定提升成功率。
- RAG 安全是否会从 prompt injection 防御扩展到知识库准入、相似团检测、数据血缘和审计日志。
- 表格与结构化数据检索是否会和 Text-to-SQL、企业 BI Agent 合流,而不是停留在独立 benchmark。
- 代码生成评测是否会持续加入公平性、能耗、需求复杂度、科研复现和多标准 reward。
- 多模态 Agent 的显式中间表示能否跨机器人、GUI、视频和游戏任务复用。
数据来源、参考日报范围与限制说明
- 目标归档周:2026-W18,对应 2026-04-27 至 2026-05-01。
- 已使用日报:
reports/arxiv/daily/2026/2026-05-01.md。 - 已使用结构化产物:
.cache/arxiv-paper-radar/2026-05-01/papers.json、.cache/arxiv-paper-radar/2026-05-01/selected.json、.cache/arxiv-paper-radar/2026-05-01/reviews/*.json。 - 这批缓存包含 250 篇元信息、50 篇精读 review。
- 仓库中未找到上一期 arXiv 周报。
- 本次没有重新搜索 arXiv,也没有重新全文精读。
- 日报范围不完整:按上一完整工作周口径,仓库中没有找到 2026-04-27、2026-04-28、2026-04-29、2026-04-30 的 arXiv 日报;如果按“周二到次周一补齐上一工作日”的运行口径,也没有找到 2026-04-28、2026-04-29、2026-04-30、2026-05-04 的 arXiv 日报。因此本报告只代表现有 2026-05-01 日报样本,不能当作 2026-W18 五个工作日的完整趋势。