Skip to content

arXiv 论文雷达 2026-05-01

最值得读

#论文链接推荐判断关键信息适合谁读
1Can Coding Agents Reproduce Findings in Computational Materials Science?arXiv
PDF
HTML
必读Coding Agent 还很难复现真实科研 claim。问题:科研复现不只是写代码,还要恢复论文里没有写全的流程、跑领域工具链、判断结果是否支持 claim。
方法:AutoMat 把材料科学论文里的 claim 做成复现任务,评测多种 coding agent 设置。
实验:最好设置成功率也只有 54.1%,失败多来自流程缺失、方法偏离和执行脆弱。
不足:领域集中在计算材料,外推到其他科学工作流还要继续验证。
Agent 评测 / 科研复现 / AI4Science
2MemRouter: Memory-as-Embedding Routing for Long-Term Conversational AgentsarXiv
PDF
HTML
必读长期记忆写入可以用小路由器替代每轮 LLM 判断。问题:长期对话 Agent 要决定哪些 turn 该写入外部记忆,生成式管理延迟高且耦合回答模型。
方法:MemRouter 用 embedding 和轻量分类头做写侧 memory admission,只训练 12M 参数。
实验:LoCoMo 上 F1 52.0 vs 45.6,记忆管理 p50 延迟从 970ms 降到 58ms。
不足:需要监督数据,跨业务迁移还要看标注和偏好变化。
RAG / Agent 记忆 / 应用系统
3Social Bias in LLM-Generated Code: Benchmark and MitigationarXiv
PDF
HTML
必读代码生成评测不能只看功能正确,还要看生成逻辑里的社会偏见。问题:LLM 会被用于人相关应用代码,功能通过不代表公平性没问题。
方法:SocialBias-Bench 覆盖 343 个真实编码任务和 7 类人口统计维度,并测试缓解策略。
实验:多个模型都有明显 bias,某些 prompt 干预还会放大偏见;结构化多 Agent 流程有一定帮助。
不足:偏见定义、任务采样和缓解策略仍会影响结论。
代码生成 / 模型评测 / AI 治理
4Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot ManipulationarXiv
PDF
HTML
必读长程机器人操作需要文字和图像交错的显式计划。问题:VLA 策略常把计划藏在隐状态里,长程任务容易丢语义顺序或空间约束。
方法:IVLR 生成文本子目标和视觉关键帧组成的全局 trace,再让动作解码器闭环执行。
实验:LIBERO 平均成功率 95.5%,LIBERO-Long 92.4%;去掉 trace 后长程成功率降到 37.7%。
不足:全局计划过期或一开始错误时仍会拖累执行。
多模态模型 / 机器人 / 具身 Agent
5RunAgent: Interpreting Natural-Language Plans with Constraint-Guided ExecutionarXiv
PDF
HTML
必读自然语言计划要可靠执行,需要显式控制结构和逐步约束。问题:LLM 执行 workflow 时容易跳步、漏条件或中途跑偏。
方法:RunAgent 把自然语言计划转成带 IF/GOTO/FORALL 的 agentic language,并为每步生成约束和 rubrics。
实验:Natural-plan 和 SciBench 上超过 baseline LLM 与 PlanGEN 类方法。
不足:系统复杂度不低,约束自动生成本身也可能出错。
Agent 系统 / 工作流自动化 / 规划执行
6CleanBase: Detecting Malicious Documents in RAG Knowledge DatabasesarXiv
PDF
HTML
必读RAG 知识库投毒可以从恶意文档相似结构入手检测。问题:攻击者可把 prompt injection 文档塞进知识库,让检索命中后污染回答。
方法:CleanBase 建文档相似图,利用同一攻击目标下恶意文档成团或成 clique 的特点做检测。
实验:多数据集和多种 prompt injection 攻击下验证,并给出误报/漏报理论界。
不足:假设攻击样本之间有相似性;分散式或低频投毒可能更难抓。
Agent 安全 / RAG 安全 / 安全运营
7A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy ReductionarXiv
PDF
HTML
必读GUI Agent 的 accessibility tree 可以大幅压缩,还能提升任务成功率。问题:原始 accessibility tree 冗余多、空间关系弱,直接给模型又贵又乱。
方法:A11y-Compressor 做 modal detection、冗余消除和语义结构化。
实验:OSWorld 上输入 token 降到 22%,任务成功率平均提升 5.1 个百分点。
不足:复杂 Web UI 和多平台泛化还要继续看。
Agent 评测 / GUI agent / 工作流自动化
8AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?arXiv
PDF
HTML
必读小模型在 Agent 工作流里能走到哪一级,这篇给了更可操作的边界。问题:生产 Agent 每个请求会拆成很多短调用,未必都需要 frontier model。
方法:AgentFloor 用 30 个确定性任务组成六级能力阶梯,覆盖工具使用、多步协调和长程约束。
实验:评测 16 个开源模型与 GPT-5,显示短程结构化工具使用已有不少可下放空间。
不足:benchmark 任务仍是人为设计,真实工具生态的噪声会更高。
Agent 评测 / 工具调用 / 模型路由
9Semia: Auditing Agent Skills via Constraint-Guided Representation SynthesisarXiv
PDF
HTML
必读Agent skill 应该被当作可审计工件,而不是一段可信 prompt。问题:skill 同时有结构化接口和自然语言触发条件,传统静态分析和 LLM 审计各有盲区。
方法:Semia 把 skill 提升为 SDL/Datalog 事实库,合成约束并追踪 tainted input 到高影响 sink。
实验:论文展示了约束引导的静态审计路径,目标是可复现地发现风险。
不足:实际覆盖多少真实 skill 生态还要看工具落地。
Agent 安全 / Skill 审计 / 平台工程
10Structure-Aware Chunking for Tabular Data in Retrieval-Augmented GenerationarXiv
PDF
HTML
必读表格 RAG 需要结构感知切块,不能把表格当普通文本切。问题:CSV/Excel 等表格文档如果按纯文本切块,会丢行列语义和字段关系。
方法:STC 构建 Row Tree,按结构边界递归切分并做无重叠合并。
实验:MAUD 上 chunk 数减少,BM25 Recall@1 从 0.366 提到 0.754,hybrid MRR 从 0.3576 到 0.5945。
不足:真实企业表格的合并单元格、公式和脏数据还要额外验证。
RAG / 表格检索 / 数据工程
11When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AIarXiv
PDF
HTML
值得读医疗 RAG 聊天机器人会把后端隐私和配置暴露到前端边界。问题:患者侧 RAG 上线快,但安全、隐私、治理容易被低估。
方法:论文做匿名非破坏性案例研究,结合 LLM 辅助测试和浏览器网络流量人工验证。
实验:发现前端可见网络流量、API schema、配置和存储交互数据里的风险。
不足:单案例研究,不能直接代表所有医疗 RAG。
医疗 AI / RAG 安全 / 隐私治理
12Skills as Verifiable Artifacts: A Trust Schema and a Biconditional Correctness Criterion for Human-in-the-Loop Agent RuntimesarXiv
PDF
HTML
值得读Skill 是未验证代码,运行时应该按验证级别控制 HITL。问题:Agent skill 已从提示词变成部署工件,但来源签名不等于行为可信。
方法:论文提出 trust schema、capability gate 和 biconditional correctness criterion。
实验:更偏规范和论证,工程实现需要另配审计工具。
不足:概念完整但实证有限。
Agent 安全 / HITL / 平台工程
13LLM-Oriented Information Retrieval: A Denoising-First PerspectivearXiv
PDF
HTML
值得读给 LLM 用的检索首先是去噪问题。问题:人能忍受无关结果,LLM 却会被噪声诱导幻觉或推理失败。
方法:论文把 LLM-oriented IR 拆成 indexing、retrieval、context engineering、verification、agentic workflow 的信噪比优化。
实验:这是 perspective/taxonomy,不是单算法实证。
不足:缺少统一 benchmark,很多判断还需要工程验证。
RAG / 信息检索 / Deep Research
14Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM PipelinesarXiv
PDF
HTML
值得读多 Agent pipeline 可以合并调用省成本,但必须有质量门控。问题:直接把多个 agent 合成一个调用会丢工具能力、压缩 prompt,质量静默下降。
方法:Agent Capsules 对 pipeline 分组、选择 compound execution 策略,并用滚动质量均值决定是否切换。
实验:负结果说明“塞更多上下文”不能解决合并退化;逐级回退能保质量。
不足:需要可靠质量信号,否则门控本身会漂。
Agent 系统 / 多 Agent / 成本优化
15Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement LearningarXiv
PDF
HTML
值得读代码生成 RL 训练要理解需求难度,而不是只按样本顺序喂。问题:复杂编程需求下,现有 curriculum RL 对需求难度感知和采样不够准。
方法:RECRL 从软件需求工程角度做 requirement-aware curriculum reinforcement learning。
实验:论文声称在代码生成 benchmark 上提升复杂需求处理能力。
不足:要看执行反馈、数据污染和多语言覆盖细节。
代码生成 / 软件工程 / 后训练
16ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement LearningarXiv
PDF
HTML
值得读RLVR 提升推理时要避免负样本梯度压掉多样性。问题:只奖励正确会降低生成多样性,负样本惩罚又可能误伤正负共享语义。
方法:ResRL 把负样本 hidden states 投影到正样本低秩子空间,用残差调节负梯度。
实验:12 个数学、代码、Agent、函数调用 benchmark 上超过强基线;数学 Avg@16 比 NSR 高 9.4%。
不足:方法复杂,收益是否依赖特定训练配置要看复现。
NLP / LLM 推理 / RLVR
17Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented GenerationarXiv
PDF
HTML
值得读跨文档 RAG 需要能跨树连接和多粒度检索。问题:单文档 Tree-RAG 扩到跨文档多跳问答时,聚类假设、树间隔离和粗粒度摘要都会拖后腿。
方法:Psi-RAG 用自适应 hierarchical abstract tree 和多粒度检索 agent 组织查询。
实验:在跨文档多跳 QA 上优于 RAPTOR 等基线。
不足:实现复杂,索引更新、摘要误差累积和大规模知识库成本还要验证。
RAG / 多跳问答 / 知识库
18SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU ClustersarXiv
PDF
HTML
值得读Agent 推理调度应该按整个工作流,而不是单个 LLM 请求。问题:Agent 任务有几十上百个链式调用,逐请求调度会丢 KV cache 和中间状态。
方法:SAGA 用 Agent Execution Graph、session-affinity batching 和 Agent Fair Share 做 workflow-atomic scheduling。
实验:声称端到端延迟可避免 3-8x 膨胀,KV 复用接近离线最优。
不足:实现依赖平台控制权,对通用云 API 用户不直接可用。
Agent 系统 / 推理平台 / GPU 调度
19Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria ScoringarXiv
PDF
HTML
值得读代码 reward model 不能只打功能正确,还要支持多标准偏好。问题:代码 RM 研究常被 execution feedback 绑住,难覆盖可读性、鲁棒性、风格等标准。
方法:Themis 构建多语言多标准 CodeRewardBench 和大规模偏好数据。
实验:评测 50+ code/math/general RM,指出当前 RM 在功能正确之外能力不足。
不足:reward 标准间冲突如何处理仍是实际难点。
代码生成 / Reward Model / 后训练
20FollowTable: A Benchmark for Instruction-Following Table RetrievalarXiv
PDF
HTML
值得读表格检索正在从主题相关走向指令约束满足。问题:Agent 访问结构化数据时,检索目标往往包含列语义、包含/排除条件和表示粒度。
方法:FollowTable 定义 Instruction-Following Table Retrieval,并构建 benchmark。
实验:论文系统评估模型对内容范围和 schema 约束的敏感性。
不足:如果真实表格元数据不足,任务难度会更高。
表格检索 / 数据 Agent / 结构化数据
21Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving MemoryarXiv
PDF
HTML
值得读长期用户记忆需要同时学“怎么组织”和“更新什么”。问题:静态记忆规则难跟踪长期偏好变化,RL 奖励又稀疏。
方法:MemCoE 先诱导全局 memory guideline,再训练 guideline-aligned memory update policy。
实验:长对话个性化任务上改善记忆更新稳定性。
不足:记忆偏差和隐私治理仍需额外设计。
RAG / Agent 记忆 / 个性化
22EnCoDe: Energy Estimation of Source Code At Design-TimearXiv
PDF
HTML
值得读代码能耗可以在设计时估计到小代码块粒度。问题:运行时 profiler 粒度粗,开发者很难在写代码阶段比较构造能耗。
方法:EnCoDe 用 PowerLens 测小代码块能耗,并做设计时估计。
实验:基于 18,000+ Python 代码块做经验研究。
不足:跨语言、硬件和运行环境泛化要继续验证。
软件工程 / 代码质量 / 能耗评测
23Self-Adaptive Multi-Agent LLM-Based Security Pattern Selection for IoT SystemsarXiv
PDF
HTML
值得读IoT 安全响应里,LLM 可以提案,但执行约束必须确定性校验。问题:边缘 IoT 防护要在能耗、延迟、冲突和资源约束下选择 mitigation。
方法:ASPO 让 LLM agents 生成候选安全组合,再由 deterministic optimisation core 执行闭环校验。
实验:在 MAPE-K 控制环内验证可行性、冲突安全和执行正确性。
不足:IoT 场景限定,LLM 提案质量仍需监控。
Agent 安全 / IoT / 多 Agent
24Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement LearningarXiv
PDF
HTML
值得读VLM 可以用 RL 训练到 100+ 轮互动决策。问题:现有 VLM 决策多停在短回合或依赖人类轨迹 SFT。
方法:Odysseus 在 Super Mario Land 里用轻量 turn-level critic、PPO 和多任务 auto-curriculum。
实验:显示预训练 VLM action prior 能提升样本效率,并优于 GRPO/Reinforce++ 等设置。
不足:游戏到真实 GUI/机器人仍有迁移距离。
多模态模型 / 强化学习 / 长程决策
25Structure Liberates: How Constrained Sensemaking Produces More Novel Research OutputarXiv
PDF
HTML
值得读科研 ideation 不是越自由越好,结构化 sensemaking 可能更能产出新方向。问题:现有 AI 科研流程常把 ideation 当短前奏,缺少系统化认知过程。
方法:SCISENSE 把 ideation 拆成 8 个认知阶段,并构造 100K citation-conditioned trajectories。
实验:Target-trained 模型在 trajectory 指标和 novelty 上有提升。
不足:指标能否代表真实研究价值仍要谨慎。
AI 研究 / 科研助手 / 文献分析
26BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code SynthesisarXiv
PDF
HTML
值得读用检索示例辅助生成 Blender 代码,能明显提高编译成功率和语义对齐。问题:LLM 从文本生成 Blender 代码时容易语法错误、几何不一致,生成资产不可用。
方法:BlenderRAG 检索 500 个专家验证的文本/代码/图像示例,再让模型参考相似示例生成代码。
实验:跨 4 个 SOTA LLM,编译成功率从 40.8% 到 70.0%,CLIP 语义对齐从 0.41 到 0.77。
不足:数据集只有 500 个示例,复杂场景、组合物体和可控编辑还要继续验证。
多模态模型 / 3D 生成 / 代码生成
27Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety ClassificationarXiv
PDF
HTML
值得读VLM 安全分类的分数会被等价 prompt 明显扰动。问题:安全分类常用首 token 概率当阈值分数,但 prompt 改写会改变分布。
方法:论文测量 prompt-induced variance,并用 mean ensemble 做训练免费校准。
实验:14 个 dataset-model 对中,mean ensemble 在 NLL/ECE 上多数优于单 prompt。
不足:主要是诊断和校准,不能替代更强安全模型。
多模态安全 / 模型校准 / 内容审核
28Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMsarXiv
PDF
HTML
值得读长文本生成会稀释视觉信号,LVLM 需要持久视觉记忆。问题:生成越长,文本历史越多,视觉 attention 被摊薄。
方法:PVM 在 FFN 旁加轻量并行分支,提供距离无关的视觉 embedding 检索通道。
实验:Qwen3-VL 4B/8B 上多项任务有稳定提升,参数开销小。
不足:主要在特定模型族验证,跨架构泛化要看。
多模态模型 / 视觉语言 / 推理
29Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to DiversityarXiv
PDF
HTML
值得读RLVR 的 diversity collapse 可以从“正确解之间概率分配”解释。问题:GRPO 等目标对多个正确答案如何分配概率不敏感,容易压缩到少数解。
方法:UCPO formalize Uniform-Correct Policy,并设计优化方法。
实验:理论分析加 benchmark 验证,关注 Pass@K 覆盖。
不足:训练复杂度和大规模模型收益还要验证。
NLP / LLM 推理 / RLVR
30Learn where to Click from Yourself: On-Policy Self-Distillation for GUI GroundingarXiv
PDF
HTML
值得读GUI grounding 可以用一次 rollout 的 on-policy self-distillation 降低训练成本。问题:GRPO 等 RL 方法多 rollout 昂贵,难样本信号稀疏。
方法:GUI-SD 给 teacher 特权视觉上下文,用 entropy-guided distillation 训练点击坐标。
实验:在 GUI grounding benchmark 上优于多种 RL/SFT 设置。
不足:teacher 特权信息设计不当可能带来分布偏差。
GUI agent / 多模态模型 / 训练方法
31AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement LearningarXiv
PDF
HTML
值得读多轮 Agent RL 可以不用额外过程监督,通过熵动态做 credit assignment。问题:稀疏 outcome reward 难分配到多轮步骤,过程奖励又增加监督成本。
方法:AEM 从 response-level entropy 出发,用 advantage 和 response surprisal 调节探索到利用的转变。
实验:多模型、多 benchmark 验证,包括 SWE-bench-Verified 上小幅增益。
不足:提升幅度不大,和现有 RL pipeline 的耦合要看。
Agent 训练 / 强化学习 / Credit Assignment
32Scaling Video Understanding via Compact Latent Multi-Agent CollaborationarXiv
PDF
HTML
值得读长视频理解可以让多个局部 Agent 用 latent token 协作。问题:长视频超出 MLLM perception budget,文本中介又贵且损失信息。
方法:MACF 把视频切给局部 Agent,并用共享 embedding 空间里的 compact tokens 与中央协调器通信。
实验:论文展示长视频任务上的效率和效果提升。
不足:只在视频理解场景验证,Agent 通信可解释性有限。
多模态模型 / 视频理解 / 多 Agent
33Online Self-Calibration Against Hallucination in Vision-Language ModelsarXiv
PDF
HTML
值得读LVLM 幻觉可以用在线自校准,而不是只蒸馏强模型偏好。问题:离线偏好监督可能要求学生模型对看不清的细节也对齐,反而学会猜。
方法:OSCAR 利用生成-判别差距,用 MCTS 和双粒度 reward 构造偏好数据做 DPO。
实验:幻觉 benchmark 上达到 SOTA,同时保留一般多模态能力。
不足:训练成本和 reward 可靠性要看实现细节。
多模态模型 / 幻觉抑制 / 对齐
34SC-Taxo: Hierarchical Taxonomy Generation under Semantic Consistency Constraints using Large Language ModelsarXiv
PDF
HTML
略读LLM 生成科学 taxonomy 时要显式维护层级语义一致。问题:科学文献增长快,自动 taxonomy 容易上下层语义错位。
方法:SC-Taxo 用 hierarchy-aware refinement 约束语义一致性。
实验:实验显示结构一致性和主题导航质量改善。
不足:更像知识工程组件,和日报重点关联稍弱。
AI 研究 / 知识组织 / 文献分析
35Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting AgentsarXiv
PDF
HTML
略读链上预测 benchmark 设计有趣,但实用门槛不低。问题:静态预测数据容易污染,交易 PnL 又混入仓位和风险偏好。
方法:Foresight Arena 用 commit-reveal、Brier Score 和 Alpha Score 评测预测 Agent。
实验:有形式化方差和 power analysis。
不足:链上机制会引入成本、参与者行为和市场噪声。
模型评测 / 预测 Agent / Benchmark
36Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI InferencearXiv
PDF
HTML
略读推理 benchmark 应按 endpoint 评估成本、能耗和质量。问题:部署决策看的是具体 provider/model/SKU,而不是抽象模型名。
方法:TokenArena 连续评估速度、价格、上下文、质量和能耗估计。
实验:覆盖 78 个 endpoint 和 12 个模型族。
不足:能耗建模和 live endpoint 波动会影响稳定性。
模型评测 / 推理成本 / 能耗分析
37Position: agentic AI orchestration should be Bayes-consistentarXiv
PDF
HTML
略读Agent 编排层比 LLM 本体更适合先做 Bayes-consistent。问题:很多高价值部署要在不确定性下决定调用工具、专家和资源。
方法:Position paper 主张 orchestration layer 维护 belief 并按 Bayesian decision theory 选动作。
实验:不是实证论文。
不足:工程落地需要明确状态、先验和效用函数。
Agent 系统 / 编排层 / 不确定性决策
38Make Your LVLM KV Cache More LightweightarXiv
PDF
HTML
略读LVLM KV cache 可以利用视觉 token 冗余做提示感知压缩。问题:视觉 token 多导致 prefill 阶段 KV cache 占显存。
方法:LightKV 用文本提示引导跨模态消息传递,逐步压缩视觉 token。
实验:8 个 LVLM 和 8 个 benchmark 上,55% 视觉 token 可减半视觉 KV cache、算力最多降 40%。
不足:压缩强度和细粒度视觉任务准确率要谨慎调。
多模态模型 / 推理优化 / 部署
39Hypergraph and Latent ODE Learning for Multimodal Root Cause Localization in MicroservicesarXiv
PDF
HTML
略读微服务 RCA 可以融合 hypergraph、latent ODE 和多模态观测。问题:云原生 RCA 要处理服务依赖、非规则时间动态和 logs/traces/metrics 等异构数据。
方法:HyperODE RCA 用超图注意力、ODE-RNN 和多模态 cross attention。
实验:Tianchi AIOps benchmark 上排名和分类性能优于强基线。
不足:方法堆叠较重,线上可维护性和解释性要看。
AIOps / 多模态建模 / 应用系统
40Agentic AI for Substance Use Education: Integrating Regulatory and Scientific Knowledge SourcesarXiv
PDF
HTML
略读药物使用教育 RAG 应用展示了权威语料和实时检索结合。问题:传统 substance education 难扩展、难个性化,也难保持信息新鲜。
方法:系统结合 DEA 记录、同行评议文献和 PubMed 动态查询,做 context-sensitive education。
实验:5 位专家、30 个问题和 90 次交互做 Likert 评估。
不足:样本小,评估偏专家主观打分,真实用户长期学习效果还没验证。
医疗 AI / 教育应用 / RAG
41Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC RevisionarXiv
PDF
HTML
略读多模态 EBM 可以借助 VAE 初始化和 MCMC revision 改善采样。问题:多模态 EBM 的 MCMC 在联合数据空间混合差,VAE 的简单分布又表达不足。
方法:论文交织训练 EBM、shared latent generator 和 inference model,并在数据/latent 空间做 MCMC refinement。
实验:多模态合成质量和一致性优于多种 baseline,并有消融。
不足:训练和采样成本可能较高。
多模态模型 / 生成模型 / AI 研究
42Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task IntegrationarXiv
PDF
HTML
略读遥感超分辨率评测要看下游任务,不只看 PSNR/SSIM。问题:视觉质量指标和土地覆盖、变化检测等真实任务收益可能不一致。
方法:GeoSR-Bench 用 36,000 个位置的多分辨率配对数据,把 SR 接到下游任务评测。
实验:270 个设置显示传统指标与下游收益相关性弱甚至负相关。
不足:遥感领域限定,和 LLM/Agent 主线关系较弱。
遥感 AI / 多模态模型 / 评测
43Possibilistic Predictive Uncertainty for Deep LearningarXiv
PDF
HTML
略读可能性理论给深度学习不确定性建模提供一个高效替代路线。问题:Bayesian 方法原则清楚但贵,二阶近似又缺推导闭环。
方法:DAPPr 用 possibilistic posterior 投影到预测空间,再用 Dirichlet possibility 近似。
实验:多 benchmark 上和 evidential deep learning 方法竞争。
不足:和 Agent/RAG 重点关系较弱,实际校准表现需复现。
AI 研究 / 不确定性 / 模型校准
44LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal ObservationsarXiv
PDF
HTML
略读训练时也缺模态时,LLM 可以参与缺失模态语义推理。问题:不完整多模态学习常假设训练时有完整模态,这在现实里不成立。
方法:LIMSSR 把问题转成 sequence-to-score reasoning,并用 LLM 做上下文感知模态补全。
实验:多数据集实验显示优于现有 IML 方法。
不足:方法对 LLM 提示和数据域可能敏感。
多模态模型 / 缺失模态 / 推理
45Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents CollaborationarXiv
PDF
HTML
略读多模态协作可以用 routing、auditing 和 public factor 抑制模态支配。问题:集中式多模态融合容易被强模态主导,也会学到偶然相关。
方法:GCL 用 Routing Agent、Auditing Agent 和 Public-Factor Agent 做两阶段协作。
实验:多模态任务上显示性能和鲁棒性改善。
不足:Agent 命名偏概念化,真实可解释性要看实现。
多模态模型 / 协作机制 / 融合
46BOLT: Online Lightweight Adaptation for Preparation-Free Heterogeneous Cooperative PerceptionarXiv
PDF
HTML
略读异构协作感知可以在线轻量适配,减少预训练协同依赖。问题:现实中车辆/机器人模型独立训练,临时相遇时没有联合训练准备。
方法:BOLT 用 ego-as-teacher distillation 在线对齐邻居特征。
实验:只需 0.9M 可训练参数,AP@50 最高提升 32.3。
不足:和 AI Radar 核心关注略远,除非跟机器人/边缘感知。
机器人 / 协作感知 / 在线适配
47From Prediction to Practice: A Task-Aware Evaluation Framework for Blood Glucose ForecastingarXiv
PDF
HTML
略读医疗时间序列预测要按任务后果评估,而不是只看平均误差。问题:血糖预测平均指标好,不代表低血糖预警和胰岛素决策安全。
方法:论文把 hypoglycemia warning 和 dosing support 拆成 task-aware evaluation。
实验:真实临床 cohort 加 UVA/Padova simulator 做双臂评估。
不足:领域较专,和通用 AI 工程关联间接。
医疗 AI / 安全评测 / 时间序列
48Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number GamearXiv
PDF
HTML
略读混淆自然数游戏能区分证明模型的语义记忆和结构推理。问题:形式数学 benchmark 可能被语义模式和训练数据污染。
方法:把 Lean 4 Natural Number Game 标识符混淆,测试 architectural reasoning。
实验:推理模型在混淆后比通用模型更稳,但有 latency tax。
不足:任务很窄,不能代表所有数学发现能力。
形式化推理 / 数学证明 / 模型评测
49Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality CompletionarXiv
PDF
HTML
略读多模态推荐缺模态时,可从图中检索相关子图来补全。问题:节点缺视觉或文本特征时,只看自身或邻居可能不够。
方法:GRE-MC 做 modality-aware subgraph retrieval,再用 graph transformer 联合编码补全缺失模态。
实验:多模态推荐 benchmark 上超过现有方法。
不足:和本项目重点方向关联较弱。
推荐系统 / 图检索 / 多模态模型
50Learning from Compressed CT: Feature Attention Style Transfer and Structured Factorized Projections for Resource-Efficient Medical Image AnalysisarXiv
PDF
HTML
略读压缩 CT 上训练轻量医疗影像模型,工程价值偏垂直。问题:未压缩 CT 体数据处理和传输成本高,限制低资源部署。
方法:FAST 把高保真 CT 表征蒸馏到处理 JPEG 压缩输入的时空视觉编码器。
实验:胸部异常检测实验显示压缩输入也能保持有效表征。
不足:和 AI Agent/RAG 主线关系较弱。
医疗 AI / 影像模型 / 高效部署

最后更新: