arXiv 论文雷达 2026-05-01

最值得读

#	论文	链接	推荐	判断	关键信息	适合谁读
1	Can Coding Agents Reproduce Findings in Computational Materials Science?	arXiv PDF HTML	必读	Coding Agent 还很难复现真实科研 claim。	问题：科研复现不只是写代码，还要恢复论文里没有写全的流程、跑领域工具链、判断结果是否支持 claim。方法：AutoMat 把材料科学论文里的 claim 做成复现任务，评测多种 coding agent 设置。实验：最好设置成功率也只有 54.1%，失败多来自流程缺失、方法偏离和执行脆弱。不足：领域集中在计算材料，外推到其他科学工作流还要继续验证。	Agent 评测 / 科研复现 / AI4Science
2	MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents	arXiv PDF HTML	必读	长期记忆写入可以用小路由器替代每轮 LLM 判断。	问题：长期对话 Agent 要决定哪些 turn 该写入外部记忆，生成式管理延迟高且耦合回答模型。方法：MemRouter 用 embedding 和轻量分类头做写侧 memory admission，只训练 12M 参数。实验：LoCoMo 上 F1 52.0 vs 45.6，记忆管理 p50 延迟从 970ms 降到 58ms。不足：需要监督数据，跨业务迁移还要看标注和偏好变化。	RAG / Agent 记忆 / 应用系统
3	Social Bias in LLM-Generated Code: Benchmark and Mitigation	arXiv PDF HTML	必读	代码生成评测不能只看功能正确，还要看生成逻辑里的社会偏见。	问题：LLM 会被用于人相关应用代码，功能通过不代表公平性没问题。方法：SocialBias-Bench 覆盖 343 个真实编码任务和 7 类人口统计维度，并测试缓解策略。实验：多个模型都有明显 bias，某些 prompt 干预还会放大偏见；结构化多 Agent 流程有一定帮助。不足：偏见定义、任务采样和缓解策略仍会影响结论。	代码生成 / 模型评测 / AI 治理
4	Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation	arXiv PDF HTML	必读	长程机器人操作需要文字和图像交错的显式计划。	问题：VLA 策略常把计划藏在隐状态里，长程任务容易丢语义顺序或空间约束。方法：IVLR 生成文本子目标和视觉关键帧组成的全局 trace，再让动作解码器闭环执行。实验：LIBERO 平均成功率 95.5%，LIBERO-Long 92.4%；去掉 trace 后长程成功率降到 37.7%。不足：全局计划过期或一开始错误时仍会拖累执行。	多模态模型 / 机器人 / 具身 Agent
5	RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution	arXiv PDF HTML	必读	自然语言计划要可靠执行，需要显式控制结构和逐步约束。	问题：LLM 执行 workflow 时容易跳步、漏条件或中途跑偏。方法：RunAgent 把自然语言计划转成带 IF/GOTO/FORALL 的 agentic language，并为每步生成约束和 rubrics。实验：Natural-plan 和 SciBench 上超过 baseline LLM 与 PlanGEN 类方法。不足：系统复杂度不低，约束自动生成本身也可能出错。	Agent 系统 / 工作流自动化 / 规划执行
6	CleanBase: Detecting Malicious Documents in RAG Knowledge Databases	arXiv PDF HTML	必读	RAG 知识库投毒可以从恶意文档相似结构入手检测。	问题：攻击者可把 prompt injection 文档塞进知识库，让检索命中后污染回答。方法：CleanBase 建文档相似图，利用同一攻击目标下恶意文档成团或成 clique 的特点做检测。实验：多数据集和多种 prompt injection 攻击下验证，并给出误报/漏报理论界。不足：假设攻击样本之间有相似性；分散式或低频投毒可能更难抓。	Agent 安全 / RAG 安全 / 安全运营
7	A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction	arXiv PDF HTML	必读	GUI Agent 的 accessibility tree 可以大幅压缩，还能提升任务成功率。	问题：原始 accessibility tree 冗余多、空间关系弱，直接给模型又贵又乱。方法：A11y-Compressor 做 modal detection、冗余消除和语义结构化。实验：OSWorld 上输入 token 降到 22%，任务成功率平均提升 5.1 个百分点。不足：复杂 Web UI 和多平台泛化还要继续看。	Agent 评测 / GUI agent / 工作流自动化
8	AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go?	arXiv PDF HTML	必读	小模型在 Agent 工作流里能走到哪一级，这篇给了更可操作的边界。	问题：生产 Agent 每个请求会拆成很多短调用，未必都需要 frontier model。方法：AgentFloor 用 30 个确定性任务组成六级能力阶梯，覆盖工具使用、多步协调和长程约束。实验：评测 16 个开源模型与 GPT-5，显示短程结构化工具使用已有不少可下放空间。不足：benchmark 任务仍是人为设计，真实工具生态的噪声会更高。	Agent 评测 / 工具调用 / 模型路由
9	Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis	arXiv PDF HTML	必读	Agent skill 应该被当作可审计工件，而不是一段可信 prompt。	问题：skill 同时有结构化接口和自然语言触发条件，传统静态分析和 LLM 审计各有盲区。方法：Semia 把 skill 提升为 SDL/Datalog 事实库，合成约束并追踪 tainted input 到高影响 sink。实验：论文展示了约束引导的静态审计路径，目标是可复现地发现风险。不足：实际覆盖多少真实 skill 生态还要看工具落地。	Agent 安全 / Skill 审计 / 平台工程
10	Structure-Aware Chunking for Tabular Data in Retrieval-Augmented Generation	arXiv PDF HTML	必读	表格 RAG 需要结构感知切块，不能把表格当普通文本切。	问题：CSV/Excel 等表格文档如果按纯文本切块，会丢行列语义和字段关系。方法：STC 构建 Row Tree，按结构边界递归切分并做无重叠合并。实验：MAUD 上 chunk 数减少，BM25 Recall@1 从 0.366 提到 0.754，hybrid MRR 从 0.3576 到 0.5945。不足：真实企业表格的合并单元格、公式和脏数据还要额外验证。	RAG / 表格检索 / 数据工程
11	When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AI	arXiv PDF HTML	值得读	医疗 RAG 聊天机器人会把后端隐私和配置暴露到前端边界。	问题：患者侧 RAG 上线快，但安全、隐私、治理容易被低估。方法：论文做匿名非破坏性案例研究，结合 LLM 辅助测试和浏览器网络流量人工验证。实验：发现前端可见网络流量、API schema、配置和存储交互数据里的风险。不足：单案例研究，不能直接代表所有医疗 RAG。	医疗 AI / RAG 安全 / 隐私治理
12	Skills as Verifiable Artifacts: A Trust Schema and a Biconditional Correctness Criterion for Human-in-the-Loop Agent Runtimes	arXiv PDF HTML	值得读	Skill 是未验证代码，运行时应该按验证级别控制 HITL。	问题：Agent skill 已从提示词变成部署工件，但来源签名不等于行为可信。方法：论文提出 trust schema、capability gate 和 biconditional correctness criterion。实验：更偏规范和论证，工程实现需要另配审计工具。不足：概念完整但实证有限。	Agent 安全 / HITL / 平台工程
13	LLM-Oriented Information Retrieval: A Denoising-First Perspective	arXiv PDF HTML	值得读	给 LLM 用的检索首先是去噪问题。	问题：人能忍受无关结果，LLM 却会被噪声诱导幻觉或推理失败。方法：论文把 LLM-oriented IR 拆成 indexing、retrieval、context engineering、verification、agentic workflow 的信噪比优化。实验：这是 perspective/taxonomy，不是单算法实证。不足：缺少统一 benchmark，很多判断还需要工程验证。	RAG / 信息检索 / Deep Research
14	Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines	arXiv PDF HTML	值得读	多 Agent pipeline 可以合并调用省成本，但必须有质量门控。	问题：直接把多个 agent 合成一个调用会丢工具能力、压缩 prompt，质量静默下降。方法：Agent Capsules 对 pipeline 分组、选择 compound execution 策略，并用滚动质量均值决定是否切换。实验：负结果说明“塞更多上下文”不能解决合并退化；逐级回退能保质量。不足：需要可靠质量信号，否则门控本身会漂。	Agent 系统 / 多 Agent / 成本优化
15	Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning	arXiv PDF HTML	值得读	代码生成 RL 训练要理解需求难度，而不是只按样本顺序喂。	问题：复杂编程需求下，现有 curriculum RL 对需求难度感知和采样不够准。方法：RECRL 从软件需求工程角度做 requirement-aware curriculum reinforcement learning。实验：论文声称在代码生成 benchmark 上提升复杂需求处理能力。不足：要看执行反馈、数据污染和多语言覆盖细节。	代码生成 / 软件工程 / 后训练
16	ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning	arXiv PDF HTML	值得读	RLVR 提升推理时要避免负样本梯度压掉多样性。	问题：只奖励正确会降低生成多样性，负样本惩罚又可能误伤正负共享语义。方法：ResRL 把负样本 hidden states 投影到正样本低秩子空间，用残差调节负梯度。实验：12 个数学、代码、Agent、函数调用 benchmark 上超过强基线；数学 Avg@16 比 NSR 高 9.4%。不足：方法复杂，收益是否依赖特定训练配置要看复现。	NLP / LLM 推理 / RLVR
17	Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation	arXiv PDF HTML	值得读	跨文档 RAG 需要能跨树连接和多粒度检索。	问题：单文档 Tree-RAG 扩到跨文档多跳问答时，聚类假设、树间隔离和粗粒度摘要都会拖后腿。方法：Psi-RAG 用自适应 hierarchical abstract tree 和多粒度检索 agent 组织查询。实验：在跨文档多跳 QA 上优于 RAPTOR 等基线。不足：实现复杂，索引更新、摘要误差累积和大规模知识库成本还要验证。	RAG / 多跳问答 / 知识库
18	SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters	arXiv PDF HTML	值得读	Agent 推理调度应该按整个工作流，而不是单个 LLM 请求。	问题：Agent 任务有几十上百个链式调用，逐请求调度会丢 KV cache 和中间状态。方法：SAGA 用 Agent Execution Graph、session-affinity batching 和 Agent Fair Share 做 workflow-atomic scheduling。实验：声称端到端延迟可避免 3-8x 膨胀，KV 复用接近离线最优。不足：实现依赖平台控制权，对通用云 API 用户不直接可用。	Agent 系统 / 推理平台 / GPU 调度
19	Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring	arXiv PDF HTML	值得读	代码 reward model 不能只打功能正确，还要支持多标准偏好。	问题：代码 RM 研究常被 execution feedback 绑住，难覆盖可读性、鲁棒性、风格等标准。方法：Themis 构建多语言多标准 CodeRewardBench 和大规模偏好数据。实验：评测 50+ code/math/general RM，指出当前 RM 在功能正确之外能力不足。不足：reward 标准间冲突如何处理仍是实际难点。	代码生成 / Reward Model / 后训练
20	FollowTable: A Benchmark for Instruction-Following Table Retrieval	arXiv PDF HTML	值得读	表格检索正在从主题相关走向指令约束满足。	问题：Agent 访问结构化数据时，检索目标往往包含列语义、包含/排除条件和表示粒度。方法：FollowTable 定义 Instruction-Following Table Retrieval，并构建 benchmark。实验：论文系统评估模型对内容范围和 schema 约束的敏感性。不足：如果真实表格元数据不足，任务难度会更高。	表格检索 / 数据 Agent / 结构化数据
21	Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory	arXiv PDF HTML	值得读	长期用户记忆需要同时学“怎么组织”和“更新什么”。	问题：静态记忆规则难跟踪长期偏好变化，RL 奖励又稀疏。方法：MemCoE 先诱导全局 memory guideline，再训练 guideline-aligned memory update policy。实验：长对话个性化任务上改善记忆更新稳定性。不足：记忆偏差和隐私治理仍需额外设计。	RAG / Agent 记忆 / 个性化
22	EnCoDe: Energy Estimation of Source Code At Design-Time	arXiv PDF HTML	值得读	代码能耗可以在设计时估计到小代码块粒度。	问题：运行时 profiler 粒度粗，开发者很难在写代码阶段比较构造能耗。方法：EnCoDe 用 PowerLens 测小代码块能耗，并做设计时估计。实验：基于 18,000+ Python 代码块做经验研究。不足：跨语言、硬件和运行环境泛化要继续验证。	软件工程 / 代码质量 / 能耗评测
23	Self-Adaptive Multi-Agent LLM-Based Security Pattern Selection for IoT Systems	arXiv PDF HTML	值得读	IoT 安全响应里，LLM 可以提案，但执行约束必须确定性校验。	问题：边缘 IoT 防护要在能耗、延迟、冲突和资源约束下选择 mitigation。方法：ASPO 让 LLM agents 生成候选安全组合，再由 deterministic optimisation core 执行闭环校验。实验：在 MAPE-K 控制环内验证可行性、冲突安全和执行正确性。不足：IoT 场景限定，LLM 提案质量仍需监控。	Agent 安全 / IoT / 多 Agent
24	Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning	arXiv PDF HTML	值得读	VLM 可以用 RL 训练到 100+ 轮互动决策。	问题：现有 VLM 决策多停在短回合或依赖人类轨迹 SFT。方法：Odysseus 在 Super Mario Land 里用轻量 turn-level critic、PPO 和多任务 auto-curriculum。实验：显示预训练 VLM action prior 能提升样本效率，并优于 GRPO/Reinforce++ 等设置。不足：游戏到真实 GUI/机器人仍有迁移距离。	多模态模型 / 强化学习 / 长程决策
25	Structure Liberates: How Constrained Sensemaking Produces More Novel Research Output	arXiv PDF HTML	值得读	科研 ideation 不是越自由越好，结构化 sensemaking 可能更能产出新方向。	问题：现有 AI 科研流程常把 ideation 当短前奏，缺少系统化认知过程。方法：SCISENSE 把 ideation 拆成 8 个认知阶段，并构造 100K citation-conditioned trajectories。实验：Target-trained 模型在 trajectory 指标和 novelty 上有提升。不足：指标能否代表真实研究价值仍要谨慎。	AI 研究 / 科研助手 / 文献分析
26	BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis	arXiv PDF HTML	值得读	用检索示例辅助生成 Blender 代码，能明显提高编译成功率和语义对齐。	问题：LLM 从文本生成 Blender 代码时容易语法错误、几何不一致，生成资产不可用。方法：BlenderRAG 检索 500 个专家验证的文本/代码/图像示例，再让模型参考相似示例生成代码。实验：跨 4 个 SOTA LLM，编译成功率从 40.8% 到 70.0%，CLIP 语义对齐从 0.41 到 0.77。不足：数据集只有 500 个示例，复杂场景、组合物体和可控编辑还要继续验证。	多模态模型 / 3D 生成 / 代码生成
27	Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification	arXiv PDF HTML	值得读	VLM 安全分类的分数会被等价 prompt 明显扰动。	问题：安全分类常用首 token 概率当阈值分数，但 prompt 改写会改变分布。方法：论文测量 prompt-induced variance，并用 mean ensemble 做训练免费校准。实验：14 个 dataset-model 对中，mean ensemble 在 NLL/ECE 上多数优于单 prompt。不足：主要是诊断和校准，不能替代更强安全模型。	多模态安全 / 模型校准 / 内容审核
28	Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs	arXiv PDF HTML	值得读	长文本生成会稀释视觉信号，LVLM 需要持久视觉记忆。	问题：生成越长，文本历史越多，视觉 attention 被摊薄。方法：PVM 在 FFN 旁加轻量并行分支，提供距离无关的视觉 embedding 检索通道。实验：Qwen3-VL 4B/8B 上多项任务有稳定提升，参数开销小。不足：主要在特定模型族验证，跨架构泛化要看。	多模态模型 / 视觉语言 / 推理
29	Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity	arXiv PDF HTML	值得读	RLVR 的 diversity collapse 可以从“正确解之间概率分配”解释。	问题：GRPO 等目标对多个正确答案如何分配概率不敏感，容易压缩到少数解。方法：UCPO formalize Uniform-Correct Policy，并设计优化方法。实验：理论分析加 benchmark 验证，关注 Pass@K 覆盖。不足：训练复杂度和大规模模型收益还要验证。	NLP / LLM 推理 / RLVR
30	Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding	arXiv PDF HTML	值得读	GUI grounding 可以用一次 rollout 的 on-policy self-distillation 降低训练成本。	问题：GRPO 等 RL 方法多 rollout 昂贵，难样本信号稀疏。方法：GUI-SD 给 teacher 特权视觉上下文，用 entropy-guided distillation 训练点击坐标。实验：在 GUI grounding benchmark 上优于多种 RL/SFT 设置。不足：teacher 特权信息设计不当可能带来分布偏差。	GUI agent / 多模态模型 / 训练方法
31	AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning	arXiv PDF HTML	值得读	多轮 Agent RL 可以不用额外过程监督，通过熵动态做 credit assignment。	问题：稀疏 outcome reward 难分配到多轮步骤，过程奖励又增加监督成本。方法：AEM 从 response-level entropy 出发，用 advantage 和 response surprisal 调节探索到利用的转变。实验：多模型、多 benchmark 验证，包括 SWE-bench-Verified 上小幅增益。不足：提升幅度不大，和现有 RL pipeline 的耦合要看。	Agent 训练 / 强化学习 / Credit Assignment
32	Scaling Video Understanding via Compact Latent Multi-Agent Collaboration	arXiv PDF HTML	值得读	长视频理解可以让多个局部 Agent 用 latent token 协作。	问题：长视频超出 MLLM perception budget，文本中介又贵且损失信息。方法：MACF 把视频切给局部 Agent，并用共享 embedding 空间里的 compact tokens 与中央协调器通信。实验：论文展示长视频任务上的效率和效果提升。不足：只在视频理解场景验证，Agent 通信可解释性有限。	多模态模型 / 视频理解 / 多 Agent
33	Online Self-Calibration Against Hallucination in Vision-Language Models	arXiv PDF HTML	值得读	LVLM 幻觉可以用在线自校准，而不是只蒸馏强模型偏好。	问题：离线偏好监督可能要求学生模型对看不清的细节也对齐，反而学会猜。方法：OSCAR 利用生成-判别差距，用 MCTS 和双粒度 reward 构造偏好数据做 DPO。实验：幻觉 benchmark 上达到 SOTA，同时保留一般多模态能力。不足：训练成本和 reward 可靠性要看实现细节。	多模态模型 / 幻觉抑制 / 对齐
34	SC-Taxo: Hierarchical Taxonomy Generation under Semantic Consistency Constraints using Large Language Models	arXiv PDF HTML	略读	LLM 生成科学 taxonomy 时要显式维护层级语义一致。	问题：科学文献增长快，自动 taxonomy 容易上下层语义错位。方法：SC-Taxo 用 hierarchy-aware refinement 约束语义一致性。实验：实验显示结构一致性和主题导航质量改善。不足：更像知识工程组件，和日报重点关联稍弱。	AI 研究 / 知识组织 / 文献分析
35	Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents	arXiv PDF HTML	略读	链上预测 benchmark 设计有趣，但实用门槛不低。	问题：静态预测数据容易污染，交易 PnL 又混入仓位和风险偏好。方法：Foresight Arena 用 commit-reveal、Brier Score 和 Alpha Score 评测预测 Agent。实验：有形式化方差和 power analysis。不足：链上机制会引入成本、参与者行为和市场噪声。	模型评测 / 预测 Agent / Benchmark
36	Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference	arXiv PDF HTML	略读	推理 benchmark 应按 endpoint 评估成本、能耗和质量。	问题：部署决策看的是具体 provider/model/SKU，而不是抽象模型名。方法：TokenArena 连续评估速度、价格、上下文、质量和能耗估计。实验：覆盖 78 个 endpoint 和 12 个模型族。不足：能耗建模和 live endpoint 波动会影响稳定性。	模型评测 / 推理成本 / 能耗分析
37	Position: agentic AI orchestration should be Bayes-consistent	arXiv PDF HTML	略读	Agent 编排层比 LLM 本体更适合先做 Bayes-consistent。	问题：很多高价值部署要在不确定性下决定调用工具、专家和资源。方法：Position paper 主张 orchestration layer 维护 belief 并按 Bayesian decision theory 选动作。实验：不是实证论文。不足：工程落地需要明确状态、先验和效用函数。	Agent 系统 / 编排层 / 不确定性决策
38	Make Your LVLM KV Cache More Lightweight	arXiv PDF HTML	略读	LVLM KV cache 可以利用视觉 token 冗余做提示感知压缩。	问题：视觉 token 多导致 prefill 阶段 KV cache 占显存。方法：LightKV 用文本提示引导跨模态消息传递，逐步压缩视觉 token。实验：8 个 LVLM 和 8 个 benchmark 上，55% 视觉 token 可减半视觉 KV cache、算力最多降 40%。不足：压缩强度和细粒度视觉任务准确率要谨慎调。	多模态模型 / 推理优化 / 部署
39	Hypergraph and Latent ODE Learning for Multimodal Root Cause Localization in Microservices	arXiv PDF HTML	略读	微服务 RCA 可以融合 hypergraph、latent ODE 和多模态观测。	问题：云原生 RCA 要处理服务依赖、非规则时间动态和 logs/traces/metrics 等异构数据。方法：HyperODE RCA 用超图注意力、ODE-RNN 和多模态 cross attention。实验：Tianchi AIOps benchmark 上排名和分类性能优于强基线。不足：方法堆叠较重，线上可维护性和解释性要看。	AIOps / 多模态建模 / 应用系统
40	Agentic AI for Substance Use Education: Integrating Regulatory and Scientific Knowledge Sources	arXiv PDF HTML	略读	药物使用教育 RAG 应用展示了权威语料和实时检索结合。	问题：传统 substance education 难扩展、难个性化，也难保持信息新鲜。方法：系统结合 DEA 记录、同行评议文献和 PubMed 动态查询，做 context-sensitive education。实验：5 位专家、30 个问题和 90 次交互做 Likert 评估。不足：样本小，评估偏专家主观打分，真实用户长期学习效果还没验证。	医疗 AI / 教育应用 / RAG
41	Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision	arXiv PDF HTML	略读	多模态 EBM 可以借助 VAE 初始化和 MCMC revision 改善采样。	问题：多模态 EBM 的 MCMC 在联合数据空间混合差，VAE 的简单分布又表达不足。方法：论文交织训练 EBM、shared latent generator 和 inference model，并在数据/latent 空间做 MCMC refinement。实验：多模态合成质量和一致性优于多种 baseline，并有消融。不足：训练和采样成本可能较高。	多模态模型 / 生成模型 / AI 研究
42	Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration	arXiv PDF HTML	略读	遥感超分辨率评测要看下游任务，不只看 PSNR/SSIM。	问题：视觉质量指标和土地覆盖、变化检测等真实任务收益可能不一致。方法：GeoSR-Bench 用 36,000 个位置的多分辨率配对数据，把 SR 接到下游任务评测。实验：270 个设置显示传统指标与下游收益相关性弱甚至负相关。不足：遥感领域限定，和 LLM/Agent 主线关系较弱。	遥感 AI / 多模态模型 / 评测
43	Possibilistic Predictive Uncertainty for Deep Learning	arXiv PDF HTML	略读	可能性理论给深度学习不确定性建模提供一个高效替代路线。	问题：Bayesian 方法原则清楚但贵，二阶近似又缺推导闭环。方法：DAPPr 用 possibilistic posterior 投影到预测空间，再用 Dirichlet possibility 近似。实验：多 benchmark 上和 evidential deep learning 方法竞争。不足：和 Agent/RAG 重点关系较弱，实际校准表现需复现。	AI 研究 / 不确定性 / 模型校准
44	LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations	arXiv PDF HTML	略读	训练时也缺模态时，LLM 可以参与缺失模态语义推理。	问题：不完整多模态学习常假设训练时有完整模态，这在现实里不成立。方法：LIMSSR 把问题转成 sequence-to-score reasoning，并用 LLM 做上下文感知模态补全。实验：多数据集实验显示优于现有 IML 方法。不足：方法对 LLM 提示和数据域可能敏感。	多模态模型 / 缺失模态 / 推理
45	Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration	arXiv PDF HTML	略读	多模态协作可以用 routing、auditing 和 public factor 抑制模态支配。	问题：集中式多模态融合容易被强模态主导，也会学到偶然相关。方法：GCL 用 Routing Agent、Auditing Agent 和 Public-Factor Agent 做两阶段协作。实验：多模态任务上显示性能和鲁棒性改善。不足：Agent 命名偏概念化，真实可解释性要看实现。	多模态模型 / 协作机制 / 融合
46	BOLT: Online Lightweight Adaptation for Preparation-Free Heterogeneous Cooperative Perception	arXiv PDF HTML	略读	异构协作感知可以在线轻量适配，减少预训练协同依赖。	问题：现实中车辆/机器人模型独立训练，临时相遇时没有联合训练准备。方法：BOLT 用 ego-as-teacher distillation 在线对齐邻居特征。实验：只需 0.9M 可训练参数，AP@50 最高提升 32.3。不足：和 AI Radar 核心关注略远，除非跟机器人/边缘感知。	机器人 / 协作感知 / 在线适配
47	From Prediction to Practice: A Task-Aware Evaluation Framework for Blood Glucose Forecasting	arXiv PDF HTML	略读	医疗时间序列预测要按任务后果评估，而不是只看平均误差。	问题：血糖预测平均指标好，不代表低血糖预警和胰岛素决策安全。方法：论文把 hypoglycemia warning 和 dosing support 拆成 task-aware evaluation。实验：真实临床 cohort 加 UVA/Padova simulator 做双臂评估。不足：领域较专，和通用 AI 工程关联间接。	医疗 AI / 安全评测 / 时间序列
48	Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game	arXiv PDF HTML	略读	混淆自然数游戏能区分证明模型的语义记忆和结构推理。	问题：形式数学 benchmark 可能被语义模式和训练数据污染。方法：把 Lean 4 Natural Number Game 标识符混淆，测试 architectural reasoning。实验：推理模型在混淆后比通用模型更稳，但有 latency tax。不足：任务很窄，不能代表所有数学发现能力。	形式化推理 / 数学证明 / 模型评测
49	Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion	arXiv PDF HTML	略读	多模态推荐缺模态时，可从图中检索相关子图来补全。	问题：节点缺视觉或文本特征时，只看自身或邻居可能不够。方法：GRE-MC 做 modality-aware subgraph retrieval，再用 graph transformer 联合编码补全缺失模态。实验：多模态推荐 benchmark 上超过现有方法。不足：和本项目重点方向关联较弱。	推荐系统 / 图检索 / 多模态模型
50	Learning from Compressed CT: Feature Attention Style Transfer and Structured Factorized Projections for Resource-Efficient Medical Image Analysis	arXiv PDF HTML	略读	压缩 CT 上训练轻量医疗影像模型，工程价值偏垂直。	问题：未压缩 CT 体数据处理和传输成本高，限制低资源部署。方法：FAST 把高保真 CT 表征蒸馏到处理 JPEG 压缩输入的时空视觉编码器。实验：胸部异常检测实验显示压缩输入也能保持有效表征。不足：和 AI Agent/RAG 主线关系较弱。	医疗 AI / 影像模型 / 高效部署

arXiv 论文雷达 2026-05-01 ​

最值得读 ​

arXiv 论文雷达 2026-05-01

最值得读