arXiv 论文雷达 2026-05-05

最值得读

序号	论文	链接	推荐	判断	关键信息	适合谁读
1	Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry Defense	arXiv PDF HTML	必读	把 agent 安全风险从提示注入推进到持久状态重入：外部内容写进 memory、工作区或计划任务后，未来自动读回上下文并触发传播、提权和外泄。	问题：长运行 agent 会把文件、memory、配置和消息状态反复读回 LLM，上游污染一旦进入带工具权限的上下文，就可能驱动授权但恶意的动作。方法：SSCGV 用源码图分析找 file I/O 到 LLM context 的载体，SRPO 优化能经受摘要和改写的 payload；RTW-A 用污染写入到暴露读取再到高风险动作的链条来做阻断、sealed config、typed memory promotion 和 capability attenuation。实验：覆盖 3 个生产 agent 框架，报告 31 个可注入持久载体，并展示 zero-click、3-hop 跨平台传播、低权限影响高权限、系统提示和工作区文件外泄。不足：受披露限制，框架名称、版本、payload 和脚本隐藏，复现性有限；模型覆盖窄，防御假设 runtime 能完整中介读写和高风险动作，真实插件/脚本生态会更难控。	Agent 安全 / 平台工程 / 安全运营
2	EvoPoC: Automated Exploit Synthesis for DeFi Smart Contracts via Hierarchical Knowledge Graphs	arXiv PDF HTML	必读	把 DeFi 审计里最费人的一步自动化：不只发现可疑漏洞，还要合成可执行、可验证、可量化收益的 exploit PoC。	问题：DeFi exploit 通常跨合约、跨资产和跨协议状态，手工从漏洞报告走到可复现 PoC 成本很高，很多风险停留在“疑似可利用”。方法：用分层知识图谱组织协议语义、漏洞根因、攻击步骤、资产流和利用原语，供 LLM agent 多跳规划；再用 SMT 检查路径可达性，用资产级状态模拟验证是否真的能获利。实验：摘要报告覆盖 88 起真实攻击、72 个审计项目和 2573 个合约；PoC 成功率 96.6%，复现 85 起历史攻击，并在 bug bounty 中确认 16 个 0-day。不足：需要核验 HKG 人工构建比例、链上状态快照依赖、SMT/EVM 覆盖范围、MEV/滑点/预言机等经济约束，以及历史攻击模板是否带来过拟合；双用风险也很高。	DeFi 安全 / 智能合约审计 / 攻击验证
3	FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL Agents	arXiv PDF HTML	必读	把 Text-to-SQL 从固定流水线改成可随时查 schema、看数据、跑验证查询并回退计划的交互式数据库 agent。	问题：企业分析库 schema 大、语义隐晦，固定 upfront schema retrieval 一旦选错表或漏掉列值编码，后面只修 SQL 很难恢复。方法：agent 在推理任意阶段探索 schema、检查真实取值、运行 SQL/Python 验证中间假设；生成多个执行计划，用 SQL 或 Python 实现，再做代码级修复和计划级回退。实验：在 Spider2-Snow 上，gpt-oss-120b 约 65.4%，超过多条强开源基线；公开消融显示多样化 planning、Python executor 和回退修复都有贡献。不足：测试时查询和 token 成本较高，真实企业库的权限、隐私、查询开销和 SQL 方言差异可能限制部署；细节还要看完整成本和错误分类。	Text-to-SQL / 数据库 Agent / 企业 BI
4	AOCI: Symbolic-Semantic Indexing for Practical Repository-Scale Code Understanding with LLMs	arXiv PDF HTML	值得读	给大型代码库先建一张稳定的符号-语义地图，再让 LLM 在这张地图上问答和改代码，方向比每次临时检索更工程化。	问题：repo-scale coding agent 的失败常来自上下文构造不稳：检索漏文件、摘要丢约束、临时探索看不到架构边界。方法：每个文件、表或关键模块形成 index entry，符号标签给架构坐标和依赖位置，语义字段写功能、约束和使用方式，并支持增量维护。实验：摘要报告 4 个项目、3 个 LLM、6 种上下文条件共 2160 次评估，准确率超过可部署 baseline；19 个工业任务里报告 0 个 final-state defects，token 使用量也明显低。不足：索引质量决定上限，动态依赖、配置生成、运行时 schema 和跨语言边界不一定好编码；工业任务数量仍小，索引构建和维护成本需要进一步核算。	代码库理解 / Coding agent / 软件工程平台
5	FunFuzz: An LLM-Powered Evolutionary Fuzzing Framework	arXiv PDF HTML	值得读	把 LLM 输入生成放进多岛进化 fuzzing，用覆盖率和失败信号减少重复探索，目标是更有效地测 GCC/Clang。	问题：LLM fuzzing 容易受初始 prompt 和采样方差影响，生成相似输入，覆盖率增长慢，也不容易触发新的 compiler-internal failures。方法：多个 island 并行探索，从文档生成主题化 prompt，用 coverage 排序候选，周期性迁移高价值输入，并用编译器内部失败信号识别 crash 触发输入。实验：在 GCC 和 Clang 上做 24 小时重复 campaign，用覆盖率和 unique failures 比较，摘要称优于已有 LLM fuzzing baseline。不足：还需要看 baseline 调参、重复次数、统计显著性、LLM 调用预算、失败去重和消融；收益可能部分来自更高并行度或采样量。	Fuzzing / 编译器测试 / LLM for SE
6	ARIADNE: Agentic Reward-Informed Adaptive Decision Exploration via Blackboard-Driven MCTS for Competitive Program Generation	arXiv PDF HTML	值得读	把竞赛编程生成做成带 blackboard 的 MCTS：策略、代码、测试、评价和修复共用证据，而不是让模型反复一次性写代码。	问题：竞赛编程需要先选算法，再处理复杂度、边界和实现细节；one-shot 或简单 self-debug 很容易在局部补丁里打转。方法：把生成过程拆成 strategy selection、code generation、test generation、quality evaluation、code repair 五阶段，用 blackboard 保存结构化证据，并让 MCTS 在策略和修复空间里探索。实验：摘要覆盖 APPS、CodeContests、CodeContests+ 和 LiveCodeBench，多种 LLM backend 下 Pass@1 最优，GPT-4o 下最高比 CodeSim 高 26.06 点。不足：需要确认测试时计算预算、公平 baseline、LiveCodeBench 时间切分和消融；自动测试可能更擅长修浅层实现错误，对高难构造题和证明型题目未必稳。	Coding agent / 程序生成 / MCTS