Morning News / AI Daily Briefing 2026.05.04
AI Foresight / 前瞻
Agentic Workflow & AI for Science
Agent · AI Coding · 工具调用 · RAG · AI for Science · 材料科研
263 sources scanned
12 items expanded
8 figures retained
Claw-Eval-Live 提出面向真实工作流的动态 Agent benchmark。
当前 release 包含 105 个任务,评测 13 个前沿模型;最高通过率为 66.7%,没有模型达到 70%。
论文将工作流 Agent 的评测对象定义为跨软件工具、业务服务和本地工作区的端到端任务。
该 benchmark 拆分为可刷新的信号层和可复现的发布时间戳快照。信号层从公开 workflow demand signals 更新,发布层固定任务、夹具、服务、工作区和评分器。
评分阶段记录执行轨迹、审计日志、服务状态和运行后的工作区产物。证据充分时使用确定性检查,语义维度再使用结构化 LLM judge。
实验显示,HR、管理和多系统业务工作流仍是主要瓶颈。本地 workspace repair 相对更容易,但同样没有饱和。
PaperAgent 报道中列出,HR 平均通过率为 6.8%,WORKFLOW 为 12.8%。终端修复任务不是当前 Agent 的主要上限。
Claw-Eval-Live 将最终回答之外的执行证据纳入评分。
DeepSeek-TUI 是一个用 Rust 编写的 TUI 编程工具。
项目按 Claude Code 式终端工作流设计,针对 DeepSeek 做适配,报道时 GitHub 星标约 2.3k。
项目由独立开发者 Hunter Bown 发起,采用 MIT 协议开源。
工具运行在终端内,支持读写文件、执行 Shell、搜索网页、管理 Git、调度子 Agent、接入 MCP 服务器和安装 Skills。
量子位报道称,DeepSeek-TUI 会把模型推理过程流式输出到终端,用户可以实时看到模型的分析路径。
项目默认使用 DeepSeek V4 的 100 万 token 上下文窗口。上下文接近上限时,工具会自动压缩,也可通过 /compact 手动触发。
贡献记录中包含 Claude、Gemini、Qwen、Cursor、GitHub Copilot 等 AI 工具参与痕迹,其中 Claude 贡献了 150 多次 commit。
DeepSeek-TUI 在 GitHub 上星标增长并进入热榜。
机器之心报道了一项关于 World Model 与 Agent 交互的 ACL 2026 研究。
研究结论显示,多数当前智能体不能稳定、有效地把世界模型当作前瞻工具。
研究将世界模型视为一种可调用的前瞻工具。Agent 在每一步行动前,可以选择是否调用世界模型来模拟动作影响。
任务设置包括 Agentic Task 和视觉推理任务。前者使用环境模拟器提供动作前瞻,后者使用开源模型 WAN2.1 进行 rollout。
评测模式包括原始模式、正常模式和强制模式。正常模式下,模型知道世界模型存在,并自行决定是否调用。
研究提出 Foresight Governance,将前瞻治理拆成三个阶段:Foresight Formulation、Simulation Generation、Interpretation & Integration。
失败模式包括过度规划、无效调用、模拟结果歧义和行动循环。错误前瞻会在 Agent 与世界模型的闭环中被放大。
在工具化范式下,Agent 可在执行前调用世界模型生成前瞻信号。
SonicMoE 是 Tri Dao 与 Ion Stoica 团队推出的细粒度 MoE 训练优化方案。
在 Blackwell GPU 上,SonicMoE 相比 DeepSeek 的 DeepGEMM,前向传播平均提升 54%,反向传播平均提升 35%。
文章称,MoE 专家粒度提升后,训练过程主要遇到两类瓶颈:激活内存和内存带宽。
SonicMoE 的核心处理包括 Gather 融合、更快的分组矩阵乘法,以及面向 Blackwell 的内核调度优化。
与 Triton 官方 MoE 示例相比,SonicMoE 前向传播快 21%。
与 ScatterMoE、MoMoE 等训练框架相比,SonicMoE 在部分配置上达到近两倍或更高速度优势。
团队还提供名为 QuACK 的软件抽象层,将 MoE 矩阵乘法核函数统一为「主循环 + 可定制尾声」结构。
项目已在 GitHub 和 PyPI 开源,支持 H100、B200、B300,后续计划扩展到专家并行、MXFP8 / FP4 精度和 Rubin GPU。
SonicMoE 面向细粒度 MoE 在新一代 GPU 上的训练效率问题。
OpenClaw 发布 2026.5.2 版本,重写插件架构,并切换到 npm 优先安装路径。
新版本优化 Gateway 与 Agent 启动和热路径,并新增 xAI Grok 4.3 作为默认模型。
该版本通过插件架构调整解决此前的依赖问题。
版本新增 Beta 通道回退和医生修复功能。
性能部分集中优化 Gateway 与 Agent 的就绪延迟,减少重复 CPU 工作。
消息通道侧修复覆盖 Discord、Slack 和 WhatsApp 等边缘问题。
搜索引擎集成也在该版本中继续补全。
OpenClaw 2026.5.2 聚焦插件安装路径、启动性能和消息通道稳定性。
ClawEmail 定位为 Email for AI Agent。
用户可为 Agent 分配 @claw.163.com 邮箱,向该邮箱发信即可触发 Agent 处理任务并回复。
内测期间,每个账号最多创建 5 个 Agent 邮箱。
每账号每月发信额度为 3000 封。
产品能力包括邮件收发、正文解析、附件处理、检索和批量管理。
单个附件限制为 30MB。
产品支持主流 Agent 框架集成。
10x Science 宣布完成 480 万美元 种子轮融资。
公司成立于 2025 年 12 月,目标是处理 AI 生成候选药物后的蛋白质表征瓶颈。
本轮融资由 Initialized Capital 领投,Y Combinator、Civilization Ventures 和 Founder Factor 跟投。
三位联合创始人为化学生物学家 David Roberts、生物学家 Andrew Reiter,以及具有计算机科学与 AI 背景的 Vishnu Tejus。
平台将化学与生物学中的确定性算法和 AI Agent 结合,用于解释质谱数据。
文章称,质谱分析是评估分子组成和结构的准确方法,但数据复杂,解读依赖专业知识且耗时。
10x Science 表示,其模型分析过程可追溯,用于支持企业合规需求。
10x Science 将 AI Agent 用于质谱数据解释和蛋白质表征流程。
哈佛医学院与 Beth Israel Deaconess Medical Center 的研究登上 Science。
在 76 名真实急诊患者案例中,OpenAI o1 的诊断准确率为 67%,两位内科主治医生分别为 55% 和 50%。
研究场景为急诊室真实分诊案例。
治疗管理方案测试中,o1 得分为 89%;人类医生使用传统资源辅助后的中位数为 34%。
文章同时保留了临床边界:AI 主要处理文字病历和结构化信息,无法直接观察患者脸色、痛苦程度和现场体征。
报道引用研究者观点称,未来任务可能分成三类:人类持续更强、AI 持续更强,以及需要人机协作增强。
问责框架仍未明确。AI 建议错误、医生采纳错误建议、医生忽视正确建议等场景都缺少稳定制度答案。
研究比较了 OpenAI o1 与人类医生在急诊案例中的诊断和治疗管理表现。
计算材料学报道,清华大学郑泉水院士团队在摩擦学方向实现电子摩擦主动控制。
研究在原子尺度观察电子摩擦,并使用电压和压力进行调控。
报道标题将该工作归入 2026 摩擦学科 PRX 进展。
文章称,该研究首次在原子尺度看清电子摩擦的物理本质。
调控方式包括连续可调和开关式控制。
应用指向无磨损、低功耗微型机器和芯片器件设计。
该条来源为材料科研公众号,主题为原子尺度摩擦机制与低功耗器件设计。
电子摩擦主动控制面向原子尺度摩擦机制和低功耗器件设计。