arXiv 论文雷达 2026-05-01
最值得读
| # | 论文 | 链接 | 推荐 | 判断 | 关键信息 | 适合谁读 |
|---|---|---|---|---|---|---|
| 1 | Can Coding Agents Reproduce Findings in Computational Materials Science? | arXiv HTML | 必读 | Coding Agent 还很难复现真实科研 claim。 | 问题:科研复现不只是写代码,还要恢复论文里没有写全的流程、跑领域工具链、判断结果是否支持 claim。 方法:AutoMat 把材料科学论文里的 claim 做成复现任务,评测多种 coding agent 设置。 实验:最好设置成功率也只有 54.1%,失败多来自流程缺失、方法偏离和执行脆弱。 不足:领域集中在计算材料,外推到其他科学工作流还要继续验证。 | Agent 评测 / 科研复现 / AI4Science |
| 2 | MemRouter: Memory-as-Embedding Routing for Long-Term Conversational Agents | arXiv HTML | 必读 | 长期记忆写入可以用小路由器替代每轮 LLM 判断。 | 问题:长期对话 Agent 要决定哪些 turn 该写入外部记忆,生成式管理延迟高且耦合回答模型。 方法:MemRouter 用 embedding 和轻量分类头做写侧 memory admission,只训练 12M 参数。 实验:LoCoMo 上 F1 52.0 vs 45.6,记忆管理 p50 延迟从 970ms 降到 58ms。 不足:需要监督数据,跨业务迁移还要看标注和偏好变化。 | RAG / Agent 记忆 / 应用系统 |
| 3 | Social Bias in LLM-Generated Code: Benchmark and Mitigation | arXiv HTML | 必读 | 代码生成评测不能只看功能正确,还要看生成逻辑里的社会偏见。 | 问题:LLM 会被用于人相关应用代码,功能通过不代表公平性没问题。 方法:SocialBias-Bench 覆盖 343 个真实编码任务和 7 类人口统计维度,并测试缓解策略。 实验:多个模型都有明显 bias,某些 prompt 干预还会放大偏见;结构化多 Agent 流程有一定帮助。 不足:偏见定义、任务采样和缓解策略仍会影响结论。 | 代码生成 / 模型评测 / AI 治理 |
| 4 | Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation | arXiv HTML | 必读 | 长程机器人操作需要文字和图像交错的显式计划。 | 问题:VLA 策略常把计划藏在隐状态里,长程任务容易丢语义顺序或空间约束。 方法:IVLR 生成文本子目标和视觉关键帧组成的全局 trace,再让动作解码器闭环执行。 实验:LIBERO 平均成功率 95.5%,LIBERO-Long 92.4%;去掉 trace 后长程成功率降到 37.7%。 不足:全局计划过期或一开始错误时仍会拖累执行。 | 多模态模型 / 机器人 / 具身 Agent |
| 5 | RunAgent: Interpreting Natural-Language Plans with Constraint-Guided Execution | arXiv HTML | 必读 | 自然语言计划要可靠执行,需要显式控制结构和逐步约束。 | 问题:LLM 执行 workflow 时容易跳步、漏条件或中途跑偏。 方法:RunAgent 把自然语言计划转成带 IF/GOTO/FORALL 的 agentic language,并为每步生成约束和 rubrics。 实验:Natural-plan 和 SciBench 上超过 baseline LLM 与 PlanGEN 类方法。 不足:系统复杂度不低,约束自动生成本身也可能出错。 | Agent 系统 / 工作流自动化 / 规划执行 |
| 6 | CleanBase: Detecting Malicious Documents in RAG Knowledge Databases | arXiv HTML | 必读 | RAG 知识库投毒可以从恶意文档相似结构入手检测。 | 问题:攻击者可把 prompt injection 文档塞进知识库,让检索命中后污染回答。 方法:CleanBase 建文档相似图,利用同一攻击目标下恶意文档成团或成 clique 的特点做检测。 实验:多数据集和多种 prompt injection 攻击下验证,并给出误报/漏报理论界。 不足:假设攻击样本之间有相似性;分散式或低频投毒可能更难抓。 | Agent 安全 / RAG 安全 / 安全运营 |
| 7 | A11y-Compressor: A Framework for Enhancing the Efficiency of GUI Agent Observations through Visual Context Reconstruction and Redundancy Reduction | arXiv HTML | 必读 | GUI Agent 的 accessibility tree 可以大幅压缩,还能提升任务成功率。 | 问题:原始 accessibility tree 冗余多、空间关系弱,直接给模型又贵又乱。 方法:A11y-Compressor 做 modal detection、冗余消除和语义结构化。 实验:OSWorld 上输入 token 降到 22%,任务成功率平均提升 5.1 个百分点。 不足:复杂 Web UI 和多平台泛化还要继续看。 | Agent 评测 / GUI agent / 工作流自动化 |
| 8 | AgentFloor: How Far Up the tool use Ladder Can Small Open-Weight Models Go? | arXiv HTML | 必读 | 小模型在 Agent 工作流里能走到哪一级,这篇给了更可操作的边界。 | 问题:生产 Agent 每个请求会拆成很多短调用,未必都需要 frontier model。 方法:AgentFloor 用 30 个确定性任务组成六级能力阶梯,覆盖工具使用、多步协调和长程约束。 实验:评测 16 个开源模型与 GPT-5,显示短程结构化工具使用已有不少可下放空间。 不足:benchmark 任务仍是人为设计,真实工具生态的噪声会更高。 | Agent 评测 / 工具调用 / 模型路由 |
| 9 | Semia: Auditing Agent Skills via Constraint-Guided Representation Synthesis | arXiv HTML | 必读 | Agent skill 应该被当作可审计工件,而不是一段可信 prompt。 | 问题:skill 同时有结构化接口和自然语言触发条件,传统静态分析和 LLM 审计各有盲区。 方法:Semia 把 skill 提升为 SDL/Datalog 事实库,合成约束并追踪 tainted input 到高影响 sink。 实验:论文展示了约束引导的静态审计路径,目标是可复现地发现风险。 不足:实际覆盖多少真实 skill 生态还要看工具落地。 | Agent 安全 / Skill 审计 / 平台工程 |
| 10 | Structure-Aware Chunking for Tabular Data in Retrieval-Augmented Generation | arXiv HTML | 必读 | 表格 RAG 需要结构感知切块,不能把表格当普通文本切。 | 问题:CSV/Excel 等表格文档如果按纯文本切块,会丢行列语义和字段关系。 方法:STC 构建 Row Tree,按结构边界递归切分并做无重叠合并。 实验:MAUD 上 chunk 数减少,BM25 Recall@1 从 0.366 提到 0.754,hybrid MRR 从 0.3576 到 0.5945。 不足:真实企业表格的合并单元格、公式和脏数据还要额外验证。 | RAG / 表格检索 / 数据工程 |
| 11 | When RAG Chatbots Expose Their Backend: An Anonymized Case Study of Privacy and Security Risks in Patient-Facing Medical AI | arXiv HTML | 值得读 | 医疗 RAG 聊天机器人会把后端隐私和配置暴露到前端边界。 | 问题:患者侧 RAG 上线快,但安全、隐私、治理容易被低估。 方法:论文做匿名非破坏性案例研究,结合 LLM 辅助测试和浏览器网络流量人工验证。 实验:发现前端可见网络流量、API schema、配置和存储交互数据里的风险。 不足:单案例研究,不能直接代表所有医疗 RAG。 | 医疗 AI / RAG 安全 / 隐私治理 |
| 12 | Skills as Verifiable Artifacts: A Trust Schema and a Biconditional Correctness Criterion for Human-in-the-Loop Agent Runtimes | arXiv HTML | 值得读 | Skill 是未验证代码,运行时应该按验证级别控制 HITL。 | 问题:Agent skill 已从提示词变成部署工件,但来源签名不等于行为可信。 方法:论文提出 trust schema、capability gate 和 biconditional correctness criterion。 实验:更偏规范和论证,工程实现需要另配审计工具。 不足:概念完整但实证有限。 | Agent 安全 / HITL / 平台工程 |
| 13 | LLM-Oriented Information Retrieval: A Denoising-First Perspective | arXiv HTML | 值得读 | 给 LLM 用的检索首先是去噪问题。 | 问题:人能忍受无关结果,LLM 却会被噪声诱导幻觉或推理失败。 方法:论文把 LLM-oriented IR 拆成 indexing、retrieval、context engineering、verification、agentic workflow 的信噪比优化。 实验:这是 perspective/taxonomy,不是单算法实证。 不足:缺少统一 benchmark,很多判断还需要工程验证。 | RAG / 信息检索 / Deep Research |
| 14 | Agent Capsules: Quality-Gated Granularity Control for Multi-Agent LLM Pipelines | arXiv HTML | 值得读 | 多 Agent pipeline 可以合并调用省成本,但必须有质量门控。 | 问题:直接把多个 agent 合成一个调用会丢工具能力、压缩 prompt,质量静默下降。 方法:Agent Capsules 对 pipeline 分组、选择 compound execution 策略,并用滚动质量均值决定是否切换。 实验:负结果说明“塞更多上下文”不能解决合并退化;逐级回退能保质量。 不足:需要可靠质量信号,否则门控本身会漂。 | Agent 系统 / 多 Agent / 成本优化 |
| 15 | Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning | arXiv HTML | 值得读 | 代码生成 RL 训练要理解需求难度,而不是只按样本顺序喂。 | 问题:复杂编程需求下,现有 curriculum RL 对需求难度感知和采样不够准。 方法:RECRL 从软件需求工程角度做 requirement-aware curriculum reinforcement learning。 实验:论文声称在代码生成 benchmark 上提升复杂需求处理能力。 不足:要看执行反馈、数据污染和多语言覆盖细节。 | 代码生成 / 软件工程 / 后训练 |
| 16 | ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning | arXiv HTML | 值得读 | RLVR 提升推理时要避免负样本梯度压掉多样性。 | 问题:只奖励正确会降低生成多样性,负样本惩罚又可能误伤正负共享语义。 方法:ResRL 把负样本 hidden states 投影到正样本低秩子空间,用残差调节负梯度。 实验:12 个数学、代码、Agent、函数调用 benchmark 上超过强基线;数学 Avg@16 比 NSR 高 9.4%。 不足:方法复杂,收益是否依赖特定训练配置要看复现。 | NLP / LLM 推理 / RLVR |
| 17 | Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation | arXiv HTML | 值得读 | 跨文档 RAG 需要能跨树连接和多粒度检索。 | 问题:单文档 Tree-RAG 扩到跨文档多跳问答时,聚类假设、树间隔离和粗粒度摘要都会拖后腿。 方法:Psi-RAG 用自适应 hierarchical abstract tree 和多粒度检索 agent 组织查询。 实验:在跨文档多跳 QA 上优于 RAPTOR 等基线。 不足:实现复杂,索引更新、摘要误差累积和大规模知识库成本还要验证。 | RAG / 多跳问答 / 知识库 |
| 18 | SAGA: Workflow-Atomic Scheduling for AI Agent Inference on GPU Clusters | arXiv HTML | 值得读 | Agent 推理调度应该按整个工作流,而不是单个 LLM 请求。 | 问题:Agent 任务有几十上百个链式调用,逐请求调度会丢 KV cache 和中间状态。 方法:SAGA 用 Agent Execution Graph、session-affinity batching 和 Agent Fair Share 做 workflow-atomic scheduling。 实验:声称端到端延迟可避免 3-8x 膨胀,KV 复用接近离线最优。 不足:实现依赖平台控制权,对通用云 API 用户不直接可用。 | Agent 系统 / 推理平台 / GPU 调度 |
| 19 | Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring | arXiv HTML | 值得读 | 代码 reward model 不能只打功能正确,还要支持多标准偏好。 | 问题:代码 RM 研究常被 execution feedback 绑住,难覆盖可读性、鲁棒性、风格等标准。 方法:Themis 构建多语言多标准 CodeRewardBench 和大规模偏好数据。 实验:评测 50+ code/math/general RM,指出当前 RM 在功能正确之外能力不足。 不足:reward 标准间冲突如何处理仍是实际难点。 | 代码生成 / Reward Model / 后训练 |
| 20 | FollowTable: A Benchmark for Instruction-Following Table Retrieval | arXiv HTML | 值得读 | 表格检索正在从主题相关走向指令约束满足。 | 问题:Agent 访问结构化数据时,检索目标往往包含列语义、包含/排除条件和表示粒度。 方法:FollowTable 定义 Instruction-Following Table Retrieval,并构建 benchmark。 实验:论文系统评估模型对内容范围和 schema 约束的敏感性。 不足:如果真实表格元数据不足,任务难度会更高。 | 表格检索 / 数据 Agent / 结构化数据 |
| 21 | Learning How and What to Memorize: Cognition-Inspired Two-Stage Optimization for Evolving Memory | arXiv HTML | 值得读 | 长期用户记忆需要同时学“怎么组织”和“更新什么”。 | 问题:静态记忆规则难跟踪长期偏好变化,RL 奖励又稀疏。 方法:MemCoE 先诱导全局 memory guideline,再训练 guideline-aligned memory update policy。 实验:长对话个性化任务上改善记忆更新稳定性。 不足:记忆偏差和隐私治理仍需额外设计。 | RAG / Agent 记忆 / 个性化 |
| 22 | EnCoDe: Energy Estimation of Source Code At Design-Time | arXiv HTML | 值得读 | 代码能耗可以在设计时估计到小代码块粒度。 | 问题:运行时 profiler 粒度粗,开发者很难在写代码阶段比较构造能耗。 方法:EnCoDe 用 PowerLens 测小代码块能耗,并做设计时估计。 实验:基于 18,000+ Python 代码块做经验研究。 不足:跨语言、硬件和运行环境泛化要继续验证。 | 软件工程 / 代码质量 / 能耗评测 |
| 23 | Self-Adaptive Multi-Agent LLM-Based Security Pattern Selection for IoT Systems | arXiv HTML | 值得读 | IoT 安全响应里,LLM 可以提案,但执行约束必须确定性校验。 | 问题:边缘 IoT 防护要在能耗、延迟、冲突和资源约束下选择 mitigation。 方法:ASPO 让 LLM agents 生成候选安全组合,再由 deterministic optimisation core 执行闭环校验。 实验:在 MAPE-K 控制环内验证可行性、冲突安全和执行正确性。 不足:IoT 场景限定,LLM 提案质量仍需监控。 | Agent 安全 / IoT / 多 Agent |
| 24 | Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning | arXiv HTML | 值得读 | VLM 可以用 RL 训练到 100+ 轮互动决策。 | 问题:现有 VLM 决策多停在短回合或依赖人类轨迹 SFT。 方法:Odysseus 在 Super Mario Land 里用轻量 turn-level critic、PPO 和多任务 auto-curriculum。 实验:显示预训练 VLM action prior 能提升样本效率,并优于 GRPO/Reinforce++ 等设置。 不足:游戏到真实 GUI/机器人仍有迁移距离。 | 多模态模型 / 强化学习 / 长程决策 |
| 25 | Structure Liberates: How Constrained Sensemaking Produces More Novel Research Output | arXiv HTML | 值得读 | 科研 ideation 不是越自由越好,结构化 sensemaking 可能更能产出新方向。 | 问题:现有 AI 科研流程常把 ideation 当短前奏,缺少系统化认知过程。 方法:SCISENSE 把 ideation 拆成 8 个认知阶段,并构造 100K citation-conditioned trajectories。 实验:Target-trained 模型在 trajectory 指标和 novelty 上有提升。 不足:指标能否代表真实研究价值仍要谨慎。 | AI 研究 / 科研助手 / 文献分析 |
| 26 | BlenderRAG: High-Fidelity 3D Object Generation via Retrieval-Augmented Code Synthesis | arXiv HTML | 值得读 | 用检索示例辅助生成 Blender 代码,能明显提高编译成功率和语义对齐。 | 问题:LLM 从文本生成 Blender 代码时容易语法错误、几何不一致,生成资产不可用。 方法:BlenderRAG 检索 500 个专家验证的文本/代码/图像示例,再让模型参考相似示例生成代码。 实验:跨 4 个 SOTA LLM,编译成功率从 40.8% 到 70.0%,CLIP 语义对齐从 0.41 到 0.77。 不足:数据集只有 500 个示例,复杂场景、组合物体和可控编辑还要继续验证。 | 多模态模型 / 3D 生成 / 代码生成 |
| 27 | Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification | arXiv HTML | 值得读 | VLM 安全分类的分数会被等价 prompt 明显扰动。 | 问题:安全分类常用首 token 概率当阈值分数,但 prompt 改写会改变分布。 方法:论文测量 prompt-induced variance,并用 mean ensemble 做训练免费校准。 实验:14 个 dataset-model 对中,mean ensemble 在 NLL/ECE 上多数优于单 prompt。 不足:主要是诊断和校准,不能替代更强安全模型。 | 多模态安全 / 模型校准 / 内容审核 |
| 28 | Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs | arXiv HTML | 值得读 | 长文本生成会稀释视觉信号,LVLM 需要持久视觉记忆。 | 问题:生成越长,文本历史越多,视觉 attention 被摊薄。 方法:PVM 在 FFN 旁加轻量并行分支,提供距离无关的视觉 embedding 检索通道。 实验:Qwen3-VL 4B/8B 上多项任务有稳定提升,参数开销小。 不足:主要在特定模型族验证,跨架构泛化要看。 | 多模态模型 / 视觉语言 / 推理 |
| 29 | Uniform-Correct Policy Optimization: Breaking RLVR's Indifference to Diversity | arXiv HTML | 值得读 | RLVR 的 diversity collapse 可以从“正确解之间概率分配”解释。 | 问题:GRPO 等目标对多个正确答案如何分配概率不敏感,容易压缩到少数解。 方法:UCPO formalize Uniform-Correct Policy,并设计优化方法。 实验:理论分析加 benchmark 验证,关注 Pass@K 覆盖。 不足:训练复杂度和大规模模型收益还要验证。 | NLP / LLM 推理 / RLVR |
| 30 | Learn where to Click from Yourself: On-Policy Self-Distillation for GUI Grounding | arXiv HTML | 值得读 | GUI grounding 可以用一次 rollout 的 on-policy self-distillation 降低训练成本。 | 问题:GRPO 等 RL 方法多 rollout 昂贵,难样本信号稀疏。 方法:GUI-SD 给 teacher 特权视觉上下文,用 entropy-guided distillation 训练点击坐标。 实验:在 GUI grounding benchmark 上优于多种 RL/SFT 设置。 不足:teacher 特权信息设计不当可能带来分布偏差。 | GUI agent / 多模态模型 / 训练方法 |
| 31 | AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning | arXiv HTML | 值得读 | 多轮 Agent RL 可以不用额外过程监督,通过熵动态做 credit assignment。 | 问题:稀疏 outcome reward 难分配到多轮步骤,过程奖励又增加监督成本。 方法:AEM 从 response-level entropy 出发,用 advantage 和 response surprisal 调节探索到利用的转变。 实验:多模型、多 benchmark 验证,包括 SWE-bench-Verified 上小幅增益。 不足:提升幅度不大,和现有 RL pipeline 的耦合要看。 | Agent 训练 / 强化学习 / Credit Assignment |
| 32 | Scaling Video Understanding via Compact Latent Multi-Agent Collaboration | arXiv HTML | 值得读 | 长视频理解可以让多个局部 Agent 用 latent token 协作。 | 问题:长视频超出 MLLM perception budget,文本中介又贵且损失信息。 方法:MACF 把视频切给局部 Agent,并用共享 embedding 空间里的 compact tokens 与中央协调器通信。 实验:论文展示长视频任务上的效率和效果提升。 不足:只在视频理解场景验证,Agent 通信可解释性有限。 | 多模态模型 / 视频理解 / 多 Agent |
| 33 | Online Self-Calibration Against Hallucination in Vision-Language Models | arXiv HTML | 值得读 | LVLM 幻觉可以用在线自校准,而不是只蒸馏强模型偏好。 | 问题:离线偏好监督可能要求学生模型对看不清的细节也对齐,反而学会猜。 方法:OSCAR 利用生成-判别差距,用 MCTS 和双粒度 reward 构造偏好数据做 DPO。 实验:幻觉 benchmark 上达到 SOTA,同时保留一般多模态能力。 不足:训练成本和 reward 可靠性要看实现细节。 | 多模态模型 / 幻觉抑制 / 对齐 |
| 34 | SC-Taxo: Hierarchical Taxonomy Generation under Semantic Consistency Constraints using Large Language Models | arXiv HTML | 略读 | LLM 生成科学 taxonomy 时要显式维护层级语义一致。 | 问题:科学文献增长快,自动 taxonomy 容易上下层语义错位。 方法:SC-Taxo 用 hierarchy-aware refinement 约束语义一致性。 实验:实验显示结构一致性和主题导航质量改善。 不足:更像知识工程组件,和日报重点关联稍弱。 | AI 研究 / 知识组织 / 文献分析 |
| 35 | Foresight Arena: An On-Chain Benchmark for Evaluating AI Forecasting Agents | arXiv HTML | 略读 | 链上预测 benchmark 设计有趣,但实用门槛不低。 | 问题:静态预测数据容易污染,交易 PnL 又混入仓位和风险偏好。 方法:Foresight Arena 用 commit-reveal、Brier Score 和 Alpha Score 评测预测 Agent。 实验:有形式化方差和 power analysis。 不足:链上机制会引入成本、参与者行为和市场噪声。 | 模型评测 / 预测 Agent / Benchmark |
| 36 | Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference | arXiv HTML | 略读 | 推理 benchmark 应按 endpoint 评估成本、能耗和质量。 | 问题:部署决策看的是具体 provider/model/SKU,而不是抽象模型名。 方法:TokenArena 连续评估速度、价格、上下文、质量和能耗估计。 实验:覆盖 78 个 endpoint 和 12 个模型族。 不足:能耗建模和 live endpoint 波动会影响稳定性。 | 模型评测 / 推理成本 / 能耗分析 |
| 37 | Position: agentic AI orchestration should be Bayes-consistent | arXiv HTML | 略读 | Agent 编排层比 LLM 本体更适合先做 Bayes-consistent。 | 问题:很多高价值部署要在不确定性下决定调用工具、专家和资源。 方法:Position paper 主张 orchestration layer 维护 belief 并按 Bayesian decision theory 选动作。 实验:不是实证论文。 不足:工程落地需要明确状态、先验和效用函数。 | Agent 系统 / 编排层 / 不确定性决策 |
| 38 | Make Your LVLM KV Cache More Lightweight | arXiv HTML | 略读 | LVLM KV cache 可以利用视觉 token 冗余做提示感知压缩。 | 问题:视觉 token 多导致 prefill 阶段 KV cache 占显存。 方法:LightKV 用文本提示引导跨模态消息传递,逐步压缩视觉 token。 实验:8 个 LVLM 和 8 个 benchmark 上,55% 视觉 token 可减半视觉 KV cache、算力最多降 40%。 不足:压缩强度和细粒度视觉任务准确率要谨慎调。 | 多模态模型 / 推理优化 / 部署 |
| 39 | Hypergraph and Latent ODE Learning for Multimodal Root Cause Localization in Microservices | arXiv HTML | 略读 | 微服务 RCA 可以融合 hypergraph、latent ODE 和多模态观测。 | 问题:云原生 RCA 要处理服务依赖、非规则时间动态和 logs/traces/metrics 等异构数据。 方法:HyperODE RCA 用超图注意力、ODE-RNN 和多模态 cross attention。 实验:Tianchi AIOps benchmark 上排名和分类性能优于强基线。 不足:方法堆叠较重,线上可维护性和解释性要看。 | AIOps / 多模态建模 / 应用系统 |
| 40 | Agentic AI for Substance Use Education: Integrating Regulatory and Scientific Knowledge Sources | arXiv HTML | 略读 | 药物使用教育 RAG 应用展示了权威语料和实时检索结合。 | 问题:传统 substance education 难扩展、难个性化,也难保持信息新鲜。 方法:系统结合 DEA 记录、同行评议文献和 PubMed 动态查询,做 context-sensitive education。 实验:5 位专家、30 个问题和 90 次交互做 Likert 评估。 不足:样本小,评估偏专家主观打分,真实用户长期学习效果还没验证。 | 医疗 AI / 教育应用 / RAG |
| 41 | Learning Multimodal Energy-Based Model with Multimodal Variational Auto-Encoder via MCMC Revision | arXiv HTML | 略读 | 多模态 EBM 可以借助 VAE 初始化和 MCMC revision 改善采样。 | 问题:多模态 EBM 的 MCMC 在联合数据空间混合差,VAE 的简单分布又表达不足。 方法:论文交织训练 EBM、shared latent generator 和 inference model,并在数据/latent 空间做 MCMC refinement。 实验:多模态合成质量和一致性优于多种 baseline,并有消融。 不足:训练和采样成本可能较高。 | 多模态模型 / 生成模型 / AI 研究 |
| 42 | Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration | arXiv HTML | 略读 | 遥感超分辨率评测要看下游任务,不只看 PSNR/SSIM。 | 问题:视觉质量指标和土地覆盖、变化检测等真实任务收益可能不一致。 方法:GeoSR-Bench 用 36,000 个位置的多分辨率配对数据,把 SR 接到下游任务评测。 实验:270 个设置显示传统指标与下游收益相关性弱甚至负相关。 不足:遥感领域限定,和 LLM/Agent 主线关系较弱。 | 遥感 AI / 多模态模型 / 评测 |
| 43 | Possibilistic Predictive Uncertainty for Deep Learning | arXiv HTML | 略读 | 可能性理论给深度学习不确定性建模提供一个高效替代路线。 | 问题:Bayesian 方法原则清楚但贵,二阶近似又缺推导闭环。 方法:DAPPr 用 possibilistic posterior 投影到预测空间,再用 Dirichlet possibility 近似。 实验:多 benchmark 上和 evidential deep learning 方法竞争。 不足:和 Agent/RAG 重点关系较弱,实际校准表现需复现。 | AI 研究 / 不确定性 / 模型校准 |
| 44 | LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations | arXiv HTML | 略读 | 训练时也缺模态时,LLM 可以参与缺失模态语义推理。 | 问题:不完整多模态学习常假设训练时有完整模态,这在现实里不成立。 方法:LIMSSR 把问题转成 sequence-to-score reasoning,并用 LLM 做上下文感知模态补全。 实验:多数据集实验显示优于现有 IML 方法。 不足:方法对 LLM 提示和数据域可能敏感。 | 多模态模型 / 缺失模态 / 推理 |
| 45 | Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration | arXiv HTML | 略读 | 多模态协作可以用 routing、auditing 和 public factor 抑制模态支配。 | 问题:集中式多模态融合容易被强模态主导,也会学到偶然相关。 方法:GCL 用 Routing Agent、Auditing Agent 和 Public-Factor Agent 做两阶段协作。 实验:多模态任务上显示性能和鲁棒性改善。 不足:Agent 命名偏概念化,真实可解释性要看实现。 | 多模态模型 / 协作机制 / 融合 |
| 46 | BOLT: Online Lightweight Adaptation for Preparation-Free Heterogeneous Cooperative Perception | arXiv HTML | 略读 | 异构协作感知可以在线轻量适配,减少预训练协同依赖。 | 问题:现实中车辆/机器人模型独立训练,临时相遇时没有联合训练准备。 方法:BOLT 用 ego-as-teacher distillation 在线对齐邻居特征。 实验:只需 0.9M 可训练参数,AP@50 最高提升 32.3。 不足:和 AI Radar 核心关注略远,除非跟机器人/边缘感知。 | 机器人 / 协作感知 / 在线适配 |
| 47 | From Prediction to Practice: A Task-Aware Evaluation Framework for Blood Glucose Forecasting | arXiv HTML | 略读 | 医疗时间序列预测要按任务后果评估,而不是只看平均误差。 | 问题:血糖预测平均指标好,不代表低血糖预警和胰岛素决策安全。 方法:论文把 hypoglycemia warning 和 dosing support 拆成 task-aware evaluation。 实验:真实临床 cohort 加 UVA/Padova simulator 做双臂评估。 不足:领域较专,和通用 AI 工程关联间接。 | 医疗 AI / 安全评测 / 时间序列 |
| 48 | Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game | arXiv HTML | 略读 | 混淆自然数游戏能区分证明模型的语义记忆和结构推理。 | 问题:形式数学 benchmark 可能被语义模式和训练数据污染。 方法:把 Lean 4 Natural Number Game 标识符混淆,测试 architectural reasoning。 实验:推理模型在混淆后比通用模型更稳,但有 latency tax。 不足:任务很窄,不能代表所有数学发现能力。 | 形式化推理 / 数学证明 / 模型评测 |
| 49 | Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion | arXiv HTML | 略读 | 多模态推荐缺模态时,可从图中检索相关子图来补全。 | 问题:节点缺视觉或文本特征时,只看自身或邻居可能不够。 方法:GRE-MC 做 modality-aware subgraph retrieval,再用 graph transformer 联合编码补全缺失模态。 实验:多模态推荐 benchmark 上超过现有方法。 不足:和本项目重点方向关联较弱。 | 推荐系统 / 图检索 / 多模态模型 |
| 50 | Learning from Compressed CT: Feature Attention Style Transfer and Structured Factorized Projections for Resource-Efficient Medical Image Analysis | arXiv HTML | 略读 | 压缩 CT 上训练轻量医疗影像模型,工程价值偏垂直。 | 问题:未压缩 CT 体数据处理和传输成本高,限制低资源部署。 方法:FAST 把高保真 CT 表征蒸馏到处理 JPEG 压缩输入的时空视觉编码器。 实验:胸部异常检测实验显示压缩输入也能保持有效表征。 不足:和 AI Agent/RAG 主线关系较弱。 | 医疗 AI / 影像模型 / 高效部署 |