Morning News / AI Daily Briefing 2026.05.04

AI Foresight / 前瞻

Agentic Workflow & AI for Science

Agent · AI Coding · 工具调用 · RAG · AI for Science · 材料科研

263 sources scanned 12 items expanded 8 figures retained

Overview / 1-minute scan

Layer 01Agent 评测与开发入口

Agent 评测与开发入口

workflow benchmark、execution trace、audit log、terminal coding agent、MCP、Skills

  1. Claw-Eval-Live:执行轨迹、审计日志、服务状态、工作区产物。
  2. DeepSeek-TUI:把 DeepSeek 接入终端编程工作流。

#1Claw-Eval-Live 发布动态工作流 Agent 评测

arXivPaperAgentAgent Benchmark

Claw-Eval-Live 提出面向真实工作流的动态 Agent benchmark。

当前 release 包含 105 个任务,评测 13 个前沿模型;最高通过率为 66.7%,没有模型达到 70%

论文将工作流 Agent 的评测对象定义为跨软件工具、业务服务和本地工作区的端到端任务。

该 benchmark 拆分为可刷新的信号层和可复现的发布时间戳快照。信号层从公开 workflow demand signals 更新,发布层固定任务、夹具、服务、工作区和评分器。

评分阶段记录执行轨迹、审计日志、服务状态和运行后的工作区产物。证据充分时使用确定性检查,语义维度再使用结构化 LLM judge。

实验显示,HR、管理和多系统业务工作流仍是主要瓶颈。本地 workspace repair 相对更容易,但同样没有饱和。

PaperAgent 报道中列出,HR 平均通过率为 6.8%,WORKFLOW 为 12.8%。终端修复任务不是当前 Agent 的主要上限。

Claw-Eval-Live 评测示意图
Claw-Eval-Live 将最终回答之外的执行证据纳入评分。

#2DeepSeek-TUI 登上 GitHub 热榜,定位终端编程 Agent

GitHub量子位AI CodingTerminal Agent

DeepSeek-TUI 是一个用 Rust 编写的 TUI 编程工具。

项目按 Claude Code 式终端工作流设计,针对 DeepSeek 做适配,报道时 GitHub 星标约 2.3k

项目由独立开发者 Hunter Bown 发起,采用 MIT 协议开源。

工具运行在终端内,支持读写文件、执行 Shell、搜索网页、管理 Git、调度子 Agent、接入 MCP 服务器和安装 Skills

量子位报道称,DeepSeek-TUI 会把模型推理过程流式输出到终端,用户可以实时看到模型的分析路径。

项目默认使用 DeepSeek V4 的 100 万 token 上下文窗口。上下文接近上限时,工具会自动压缩,也可通过 /compact 手动触发。

贡献记录中包含 Claude、Gemini、Qwen、Cursor、GitHub Copilot 等 AI 工具参与痕迹,其中 Claude 贡献了 150 多次 commit。

DeepSeek-TUI GitHub 趋势截图
DeepSeek-TUI 在 GitHub 上星标增长并进入热榜。

Layer 02工具调用与检索

工具调用与检索

tool-use tax、tool calling decision、necessity、utility、affordability、reasoning-intensive retrieval

  1. Tool-use Tax:工具协议本身会带来性能税。
  2. To Call or Not to Call:把调用决策拆成必要性、收益和成本。
  3. Reasoning-Intensive Retrieval:检索从相似度走向推理链。

#3论文提出 Tool-use Tax,工具调用不总是增益

arXivLLM AgentTool Calling

Are Tools All We Need? 研究了 LLM Agent 中工具增强推理的收益边界。

论文称,在存在语义干扰项时,工具增强推理不一定优于原生 CoT

论文提出 Factorized Intervention Framework,将性能差异拆成三部分:prompt formatting 成本、tool-calling protocol 开销和实际工具执行收益。

研究将工具调用协议本身带来的性能下降称为 tool-use tax

在语义噪声条件下,工具执行带来的收益经常不足以抵消协议开销。

论文提出 G-STEP,作为轻量 inference-time gate,用于缓解协议诱发错误。

实验显示,G-STEP 只能部分恢复性能。论文结论仍指向模型自身推理能力和工具交互能力的提升。

#4论文提出 LLM 工具调用决策评估框架

arXivTool Use DecisionWeb Search

To Call or Not to Call 将工具使用问题拆成是否调用、何时调用和调用是否划算。

框架围绕 necessityutilityaffordability 三个因素评估 Web search 工具调用。

论文指出,Agentic AI 架构通过外部工具增强 LLM,但部分工具调用可能冗余或有害。

研究同时使用两种视角:规范视角根据最优工具调用分配推断真实需要,描述视角根据模型行为推断模型自感知需要。

实验显示,模型自感知的工具调用需求和真实需求经常不一致。

研究团队基于模型 hidden states 训练轻量 need 与 utility estimator。

这些 estimator 可形成简单 controller,在三个任务和六个模型上改善工具调用决策质量。

#5推理密集型检索综述发布

arXivRAGInformation Retrieval

Reasoning-Intensive Retrieval 面向查询与证据之间存在隐含推理链的检索场景。

该综述系统整理了 RIR 的 benchmark、retriever、reranker、方法分类和挑战。

论文将 RIR 与传统语义相似度检索区分开。相关性不只由文本相似度决定,而由 query 与 supporting evidence 之间的潜在推理关系决定。

综述按知识领域和模态整理现有 benchmark。

方法层面,论文按推理能力被集成到检索 pipeline 的位置和方式进行分类。

覆盖范围包括 LLM 驱动的查询理解、证据组合、重排序和答案支撑。

论文同时列出该方向的碎片化问题、评测难点和未来研究路径。

Layer 03前瞻能力与模型系统

前瞻能力与模型系统

World Model、Foresight Governance、MoE、Blackwell GPU、DeepGEMM、QuACK

  1. 世界模型 + Agent:前瞻工具化仍不稳定。
  2. SonicMoE:细粒度 MoE 的训练核优化。

#6世界模型作为 Agent 前瞻工具的稳定性受质疑

ACL 2026机器之心AgentWorld Model

机器之心报道了一项关于 World ModelAgent 交互的 ACL 2026 研究。

研究结论显示,多数当前智能体不能稳定、有效地把世界模型当作前瞻工具。

研究将世界模型视为一种可调用的前瞻工具。Agent 在每一步行动前,可以选择是否调用世界模型来模拟动作影响。

任务设置包括 Agentic Task 和视觉推理任务。前者使用环境模拟器提供动作前瞻,后者使用开源模型 WAN2.1 进行 rollout。

评测模式包括原始模式、正常模式和强制模式。正常模式下,模型知道世界模型存在,并自行决定是否调用。

研究提出 Foresight Governance,将前瞻治理拆成三个阶段:Foresight FormulationSimulation GenerationInterpretation & Integration

失败模式包括过度规划、无效调用、模拟结果歧义和行动循环。错误前瞻会在 Agent 与世界模型的闭环中被放大。

世界模型工具化范式示意图
在工具化范式下,Agent 可在执行前调用世界模型生成前瞻信号。

#7Tri Dao 团队发布 SonicMoE,优化细粒度 MoE 训练

GitHub机器之心MoEBlackwell GPU

SonicMoE 是 Tri Dao 与 Ion Stoica 团队推出的细粒度 MoE 训练优化方案。

在 Blackwell GPU 上,SonicMoE 相比 DeepSeek 的 DeepGEMM,前向传播平均提升 54%,反向传播平均提升 35%

文章称,MoE 专家粒度提升后,训练过程主要遇到两类瓶颈:激活内存和内存带宽。

SonicMoE 的核心处理包括 Gather 融合、更快的分组矩阵乘法,以及面向 Blackwell 的内核调度优化。

与 Triton 官方 MoE 示例相比,SonicMoE 前向传播快 21%

与 ScatterMoE、MoMoE 等训练框架相比,SonicMoE 在部分配置上达到近两倍或更高速度优势。

团队还提供名为 QuACK 的软件抽象层,将 MoE 矩阵乘法核函数统一为「主循环 + 可定制尾声」结构。

项目已在 GitHub 和 PyPI 开源,支持 H100B200B300,后续计划扩展到专家并行、MXFP8 / FP4 精度和 Rubin GPU。

SonicMoE 推文截图
SonicMoE 面向细粒度 MoE 在新一代 GPU 上的训练效率问题。

Layer 04Agent 产品化基础设施

Agent 产品化基础设施

plugin architecture、Gateway、Agent startup、message channel、Email for AI Agent

  1. OpenClaw:插件架构和运行路径优化。
  2. ClawEmail:用真实邮箱触发 Agent 工作流。

#8OpenClaw 发布 2026.5.2 版本

GitHub ReleaseAgent RuntimePlugin Architecture

OpenClaw 发布 2026.5.2 版本,重写插件架构,并切换到 npm 优先安装路径。

新版本优化 GatewayAgent 启动和热路径,并新增 xAI Grok 4.3 作为默认模型。

该版本通过插件架构调整解决此前的依赖问题。

版本新增 Beta 通道回退和医生修复功能。

性能部分集中优化 Gateway 与 Agent 的就绪延迟,减少重复 CPU 工作。

消息通道侧修复覆盖 DiscordSlackWhatsApp 等边缘问题。

搜索引擎集成也在该版本中继续补全。

OpenClaw 2026.5.2 发布截图
OpenClaw 2026.5.2 聚焦插件安装路径、启动性能和消息通道稳定性。

#9网易内测 ClawEmail,为 Agent 分配真实邮箱

Agent ProductEmail Interface

ClawEmail 定位为 Email for AI Agent

用户可为 Agent 分配 @claw.163.com 邮箱,向该邮箱发信即可触发 Agent 处理任务并回复。

内测期间,每个账号最多创建 5 个 Agent 邮箱。

每账号每月发信额度为 3000 封。

产品能力包括邮件收发、正文解析、附件处理、检索和批量管理。

单个附件限制为 30MB

产品支持主流 Agent 框架集成。

Layer 05AI for Science 与应用边界

AI for Science 与应用边界

protein characterization、mass spectrometry、emergency diagnosis、electronic friction、materials science

  1. 10x Science:AI Agent 进入质谱数据解释。
  2. 哈佛急诊研究:文字病历中的 AI 诊断能力和问责边界。
  3. 电子摩擦主动控制:材料科研高价值进展。

#1010x Science 获 480 万美元融资,面向蛋白质表征

ScienceAIAI for ScienceProtein Characterization

10x Science 宣布完成 480 万美元 种子轮融资。

公司成立于 2025 年 12 月,目标是处理 AI 生成候选药物后的蛋白质表征瓶颈。

本轮融资由 Initialized Capital 领投,Y CombinatorCivilization VenturesFounder Factor 跟投。

三位联合创始人为化学生物学家 David Roberts、生物学家 Andrew Reiter,以及具有计算机科学与 AI 背景的 Vishnu Tejus。

平台将化学与生物学中的确定性算法和 AI Agent 结合,用于解释质谱数据。

文章称,质谱分析是评估分子组成和结构的准确方法,但数据复杂,解读依赖专业知识且耗时。

10x Science 表示,其模型分析过程可追溯,用于支持企业合规需求。

10x Science 报道配图
10x Science 将 AI Agent 用于质谱数据解释和蛋白质表征流程。

#11哈佛急诊研究:OpenAI o1 诊断准确率 67%

Science新智元Medical AIEmergency Room

哈佛医学院与 Beth Israel Deaconess Medical Center 的研究登上 Science

76 名真实急诊患者案例中,OpenAI o1 的诊断准确率为 67%,两位内科主治医生分别为 55%50%

研究场景为急诊室真实分诊案例。

治疗管理方案测试中,o1 得分为 89%;人类医生使用传统资源辅助后的中位数为 34%

文章同时保留了临床边界:AI 主要处理文字病历和结构化信息,无法直接观察患者脸色、痛苦程度和现场体征。

报道引用研究者观点称,未来任务可能分成三类:人类持续更强、AI 持续更强,以及需要人机协作增强。

问责框架仍未明确。AI 建议错误、医生采纳错误建议、医生忽视正确建议等场景都缺少稳定制度答案。

哈佛急诊 AI 研究报道配图
研究比较了 OpenAI o1 与人类医生在急诊案例中的诊断和治疗管理表现。

#12清华团队实现电子摩擦主动控制

计算材料学Materials ScienceTribologyPRX

计算材料学报道,清华大学郑泉水院士团队在摩擦学方向实现电子摩擦主动控制。

研究在原子尺度观察电子摩擦,并使用电压和压力进行调控。

报道标题将该工作归入 2026 摩擦学科 PRX 进展。

文章称,该研究首次在原子尺度看清电子摩擦的物理本质。

调控方式包括连续可调和开关式控制。

应用指向无磨损、低功耗微型机器和芯片器件设计。

该条来源为材料科研公众号,主题为原子尺度摩擦机制与低功耗器件设计。

电子摩擦主动控制研究配图
电子摩擦主动控制面向原子尺度摩擦机制和低功耗器件设计。

Short Notes

  • DeepSeek API:调整兼容性,修复部分第三方框架调用时报 400 的问题。
  • Codex Security:整合五个 AppSec 工作流:安全扫描、威胁建模、漏洞发现、验证和攻击路径分析。
  • SenseNova Token Plan:进入免费公测。6.7 Flash-LiteU1 Fast 每模型每 5 小时 1500 次,DeepSeek-V4-flash 每 5 小时 150 次。
  • Google Omni:TestingCatalog 报道称 Google 正在 Gemini 平台测试名为 Omni 的新视频生成模型。
  • Physically Native World Models:从 Hamiltonian 视角讨论生成式世界建模。