Skip to content

arXiv 论文雷达 2026-05-05

最值得读

序号论文链接推荐判断关键信息适合谁读
1Autonomous LLM Agent Worms: Cross-Platform Propagation, Automated Discovery and Temporal Re-Entry DefensearXiv
PDF
HTML
必读把 agent 安全风险从提示注入推进到持久状态重入:外部内容写进 memory、工作区或计划任务后,未来自动读回上下文并触发传播、提权和外泄。问题:长运行 agent 会把文件、memory、配置和消息状态反复读回 LLM,上游污染一旦进入带工具权限的上下文,就可能驱动授权但恶意的动作。
方法:SSCGV 用源码图分析找 file I/O 到 LLM context 的载体,SRPO 优化能经受摘要和改写的 payload;RTW-A 用污染写入到暴露读取再到高风险动作的链条来做阻断、sealed config、typed memory promotion 和 capability attenuation。
实验:覆盖 3 个生产 agent 框架,报告 31 个可注入持久载体,并展示 zero-click、3-hop 跨平台传播、低权限影响高权限、系统提示和工作区文件外泄。
不足:受披露限制,框架名称、版本、payload 和脚本隐藏,复现性有限;模型覆盖窄,防御假设 runtime 能完整中介读写和高风险动作,真实插件/脚本生态会更难控。
Agent 安全 / 平台工程 / 安全运营
2EvoPoC: Automated Exploit Synthesis for DeFi Smart Contracts via Hierarchical Knowledge GraphsarXiv
PDF
HTML
必读把 DeFi 审计里最费人的一步自动化:不只发现可疑漏洞,还要合成可执行、可验证、可量化收益的 exploit PoC。问题:DeFi exploit 通常跨合约、跨资产和跨协议状态,手工从漏洞报告走到可复现 PoC 成本很高,很多风险停留在“疑似可利用”。
方法:用分层知识图谱组织协议语义、漏洞根因、攻击步骤、资产流和利用原语,供 LLM agent 多跳规划;再用 SMT 检查路径可达性,用资产级状态模拟验证是否真的能获利。
实验:摘要报告覆盖 88 起真实攻击、72 个审计项目和 2573 个合约;PoC 成功率 96.6%,复现 85 起历史攻击,并在 bug bounty 中确认 16 个 0-day。
不足:需要核验 HKG 人工构建比例、链上状态快照依赖、SMT/EVM 覆盖范围、MEV/滑点/预言机等经济约束,以及历史攻击模板是否带来过拟合;双用风险也很高。
DeFi 安全 / 智能合约审计 / 攻击验证
3FlexSQL: Flexible Exploration and Execution Make Better Text-to-SQL AgentsarXiv
PDF
HTML
必读把 Text-to-SQL 从固定流水线改成可随时查 schema、看数据、跑验证查询并回退计划的交互式数据库 agent。问题:企业分析库 schema 大、语义隐晦,固定 upfront schema retrieval 一旦选错表或漏掉列值编码,后面只修 SQL 很难恢复。
方法:agent 在推理任意阶段探索 schema、检查真实取值、运行 SQL/Python 验证中间假设;生成多个执行计划,用 SQL 或 Python 实现,再做代码级修复和计划级回退。
实验:在 Spider2-Snow 上,gpt-oss-120b 约 65.4%,超过多条强开源基线;公开消融显示多样化 planning、Python executor 和回退修复都有贡献。
不足:测试时查询和 token 成本较高,真实企业库的权限、隐私、查询开销和 SQL 方言差异可能限制部署;细节还要看完整成本和错误分类。
Text-to-SQL / 数据库 Agent / 企业 BI
4AOCI: Symbolic-Semantic Indexing for Practical Repository-Scale Code Understanding with LLMsarXiv
PDF
HTML
值得读给大型代码库先建一张稳定的符号-语义地图,再让 LLM 在这张地图上问答和改代码,方向比每次临时检索更工程化。问题:repo-scale coding agent 的失败常来自上下文构造不稳:检索漏文件、摘要丢约束、临时探索看不到架构边界。
方法:每个文件、表或关键模块形成 index entry,符号标签给架构坐标和依赖位置,语义字段写功能、约束和使用方式,并支持增量维护。
实验:摘要报告 4 个项目、3 个 LLM、6 种上下文条件共 2160 次评估,准确率超过可部署 baseline;19 个工业任务里报告 0 个 final-state defects,token 使用量也明显低。
不足:索引质量决定上限,动态依赖、配置生成、运行时 schema 和跨语言边界不一定好编码;工业任务数量仍小,索引构建和维护成本需要进一步核算。
代码库理解 / Coding agent / 软件工程平台
5FunFuzz: An LLM-Powered Evolutionary Fuzzing FrameworkarXiv
PDF
HTML
值得读把 LLM 输入生成放进多岛进化 fuzzing,用覆盖率和失败信号减少重复探索,目标是更有效地测 GCC/Clang。问题:LLM fuzzing 容易受初始 prompt 和采样方差影响,生成相似输入,覆盖率增长慢,也不容易触发新的 compiler-internal failures。
方法:多个 island 并行探索,从文档生成主题化 prompt,用 coverage 排序候选,周期性迁移高价值输入,并用编译器内部失败信号识别 crash 触发输入。
实验:在 GCC 和 Clang 上做 24 小时重复 campaign,用覆盖率和 unique failures 比较,摘要称优于已有 LLM fuzzing baseline。
不足:还需要看 baseline 调参、重复次数、统计显著性、LLM 调用预算、失败去重和消融;收益可能部分来自更高并行度或采样量。
Fuzzing / 编译器测试 / LLM for SE
6ARIADNE: Agentic Reward-Informed Adaptive Decision Exploration via Blackboard-Driven MCTS for Competitive Program GenerationarXiv
PDF
HTML
值得读把竞赛编程生成做成带 blackboard 的 MCTS:策略、代码、测试、评价和修复共用证据,而不是让模型反复一次性写代码。问题:竞赛编程需要先选算法,再处理复杂度、边界和实现细节;one-shot 或简单 self-debug 很容易在局部补丁里打转。
方法:把生成过程拆成 strategy selection、code generation、test generation、quality evaluation、code repair 五阶段,用 blackboard 保存结构化证据,并让 MCTS 在策略和修复空间里探索。
实验:摘要覆盖 APPS、CodeContests、CodeContests+ 和 LiveCodeBench,多种 LLM backend 下 Pass@1 最优,GPT-4o 下最高比 CodeSim 高 26.06 点。
不足:需要确认测试时计算预算、公平 baseline、LiveCodeBench 时间切分和消融;自动测试可能更擅长修浅层实现错误,对高难构造题和证明型题目未必稳。
Coding agent / 程序生成 / MCTS

最后更新: