AI 每日热点 · 2026-05-25
🔬 AI 新工艺
1. smallcode: 4B 小模型达 87% 代码生成基准
AI 编程 Agent smallcode 用 4B 活跃参数的小模型在 SWE-bench 类任务上达到 87% 分,证明大模型不是写好代码的必要条件。和你在用的 Agent Plan 模式不同在于,smallcode 不靠模型规模碾压,而是通过对小模型的架构级优化(token 预算管理、搜索空间剪枝、缓存复用)达到同等水平,大幅降低推理成本和部署门槛。
https://github.com/Doorman11991/smallcode
2. Constraint Decay: LLM Agent 代码生成中的约束衰减问题
arXiv 新论文揭示 LLM Agent 在长序列后端代码生成中会逐渐"遗忘"初始约束(数据库 schema、API 规范、业务规则),产生越来越偏离需求的代码。和你在用的 Agent Plan 模式不同在于,Plan 模式通过显式步骤拆分在一定程度上缓解了该问题,但论文证明即使有步骤拆分,约束衰减仍会导致 30%+ 的生成结果不可用——提示 Agent 需要额外的约束回溯机制。
https://arxiv.org/abs/2605.06445
3. DeepSeek Reasonix — 专为 DeepSeek 缓存优化的终端编程 Agent ♻️
开源终端 AI 编程 Agent,从架构层针对 DeepSeek 的 prefix-cache 机制做深度优化,在长 Session 中 token 成本极低。支持 MCP 协议、plan 模式、cache-first loop。和你在用 Cursor/Claude Code 的区别在于,它不是通用 Agent 加 DeepSeek 模型适配,而是围绕 DeepSeek 推理和缓存特性从零设计。重推自 2026-04。
https://github.com/esengine/DeepSeek-Reasonix
🛠️ 工具及技巧
1. invisible_playwright — 通过所有 bot 检测的隐身浏览器
基于 Firefox 的 AI 浏览器框架,通过所有主流 bot 检测(Cloudflare、reCAPTCHA 等),可替代 Playwright 做 AI 网页自动化。
https://github.com/feder-cr/invisible_playwright
2. Microsoft AI Engineering Coach — Agentic 工程实践指南
微软开源的 Agentic 工程指南,涵盖 AI 辅助开发的模式、陷阱和最佳实践。
https://github.com/microsoft/AI-Engineering-Coach
⭐ 开源亮点
1. opensquilla — Token-Efficient AI Agent 框架
同样预算下获得更高智能密度的 AI Agent 框架,通过 token 优化让 Agent 在受限预算下做更多推理。
https://github.com/opensquilla/opensquilla
2. mirage — AI Agent 统一虚拟文件系统
为 AI Agent 提供统一虚拟文件系统抽象层,解决 Agent 在多工具间的文件状态管理混乱问题。
https://github.com/strukto-ai/mirage
3. html-anything — Agentic HTML 编辑器
本地 AI Agent 自动写 HTML,75+ Skills × 9 种输出面(杂志、幻灯片、博客等),你直接发布。
https://github.com/nexu-io/html-anything
📰 行业动态
1. AI 芯片成本中内存占比已升至近三分之二(Epoch AI 数据分析)
2. Greg Brockman 接受 Farnam Street 博客播客访谈
🚀 重磅发布
(no items this day)
