imtoken钱包下载|新闻动态
imtoken功能
科学网关于Claude CimTokenode 泄漏事件的愚人节思考
2026-04-05 20:02
第二组是执行连续性问题, 更重要的是 它会加速一个行业共识: agent 不是一个 prompt 技巧 而是一套系统软件工程,官方 quickstart 和 SDK 文档都把这个 loop 描述为 Claude Code 的核心,比如 The Verge 报道提到 社区在泄漏代码中发现了类似 Tamagotchi 的宠物功能 以及一个名为 KAIROS 的 always-on agent 模式,上下文窗口有限 任务却可能持续几十分钟 几小时 甚至更多,2024 年底他们就强调 成功的 agent 系统通常不是靠复杂框架取胜 而是靠简单可组合的模式;2025 年开始 又进一步把重心从 prompt engineering 推向 context engineering 以及 harness design;到了 2026 年 更是直接把长程应用开发能力的提升归因于 harness design,Anthropic 甚至直接把 Claude Code 描述成一种 flexible agent harness,官方文档明确说明 Claude Code 支持自定义 skills hooks 和 subagents 并且 SDK 将 Claude Code 的 tools agent loop 和 context management 暴露给开发者。
我觉得这事有 但没那么大,sandbox 与权限模式像内核安全边界, Claude Code 官方文档也表明 它已有 built-in subagents 而且不同子代理有不同工具限制,真正难抄的不是“写个 terminal agent 界面” 甚至也不是“写一堆工具包装器” 真正难抄的是一整套 OS-level harness。

我甚至觉得 未来最有效的 multi-agent 形态 大概率都不是“平权群聊” 而是“有明显上下游边界的分层工种体系”,公开信息显示 这次事故来自 @anthropic-ai/claude-code 的一个 npm 发布包 其中误带了一个约 60MB 的 sourcemap 文件 由此暴露出约 1900 个文件和 51.2 万行以上的 TypeScript 源码,不是插件消失了 而是它被更细粒度的能力单元替代,因为 agent 的真正瓶颈一直不是“想不出来” 而是“你敢不敢让它持续做”, 五 真正前沿的地方 不是单轮工具调用 而是长程任务中的状态管理 Anthropic 在 2025 年和 2026 年关于 long-running agents 的几篇文章 其实已经把核心难题说透了,你一旦敢让它持续做 它才有可能完成长程任务。

一个成熟的 skill 既要像 API 一样可靠 又要像文档一样易懂 还要像系统调用一样可审计 可受限 可回滚。
而你之所以敢 不是因为它变成圣人了 而是因为你给它戴上了 harness,主代理如果只给子代理一句含糊命令 子代理就会重复劳动 误解目标 或者留下空白,甚至 release notes 还暴露出更多“工程打磨痕迹” 例如 CLAUDE_CODE_NO_FLICKER=1 提供 flicker-free alt-screen rendering with virtualized scrollback PermissionDenied hook 允许 auto mode 分类器拒绝后让模型重试 以及 named subagents 的类型提示,这些东西不性感 但它们极其说明问题: 这不是一个会写代码的聊天模型 这是一个正在变成开发环境基础设施的系统,因为一个成熟产品层系统被如此大规模暴露 对行业的示范价值是巨大的, 这也是为什么我一直觉得 现在很多人把“长上下文”吹得过于神奇,长程任务不可能永远在一个上下文窗口里完成 必须会暂停 恢复 压缩 续跑,Claude Code 这次无论从官方文档 还是从泄漏镜像暴露出的迹象看 都已经远远超过这个阶段, 第二层是上下文层,媒体和 Anthropic 的对外表态都很清楚 这是 Claude Code 内部源码被误打进包里 不是模型本身外流。
十二 最后给一个更直白的结论 如果你把这次 Claude Code TypeScript 泄漏只看成一次尴尬的发布事故 那就看小了, 第一 领先 agent 产品的秘密已经不再主要藏在 prompt 里 而藏在系统装配里,只要边界一模糊 它就可能被 prompt injection 带偏 或把不该带出的东西带出去,因为很多团队今天还在用“人类软件工程接口”的思维给 agent 造工具 结果就是工具说明含糊 输入输出不稳 返回上下文不利于下一步推理 token 消耗还高,更何况 很多真正决定产品强度的东西 可能本就不在某次 CLI 仓库里,官方 memory 文档写得非常明确:每个 Claude Code 会话都从一个全新的上下文窗口开始 但知识可以通过 CLAUDE.md 和 auto memory 跨会话带入 subagents 也可以有自己的 auto memory, 第三 规则要可注入,你不能把整个对话历史原样永远背着走 必须学会把历史提炼成面向后续行动的工作摘要,泄漏代码不等于泄漏护城河全部,可如果粗暴 dangerously-skip-permissions 又不现实,这个 loop 的基本元素包括读取项目上下文 载入 CLAUDE.md 载入 auto memory 解析可用工具或子代理 然后在多轮推理中交替进行“思考 读文件 搜索 编辑 运行命令 检查结果 再修正”, 第四层是执行与安全层,因为只要 agent 要接触真实世界 它就立刻会面对三组老问题,原因并不只是“顶流产品翻车了”这么简单 更重要的是 这次泄漏意外把一个真正跑在生产一线的 coding agent 体系结构摊在了公众面前,它更像施工总包体系 不像几个聊天机器人开圆桌会, 一 先把事实说清楚 这次到底泄漏了什么 目前可以比较稳地确认三点,prompt 当然重要 但它只是 context engineering 的一个子集。
Axios 与多家媒体也都指出 泄漏暴露了未发布功能与架构细节 相当于给竞争者送出了一张 blueprint,imToken, 所以 我现在越来越倾向于一个判断: agent 的未来不是“多一个聊天框” 而是“多一层执行操作系统”,Anthropic 在 context engineering 一文里给出的说法很到位:工程问题已不再只是“怎么写 prompt” 而是“在有限 token 预算下 该把什么状态送进模型 以最大概率得到想要行为”,Anthropic 在 2026 年关于 auto mode 的文章中甚至强调 auto mode 的目标 是替代 --dangerously-skip-permissions 而不是把人再拉回每一步审批, 大模型负责理解与决策harness 负责让理解变成可持续 可审计 可中断 可恢复的现实执行 真正会改变软件世界的 不是模型会说话而是模型终于长出了手脚 但这些手脚不再直接裸奔它们被一整套系统级 harness 驯化成了可以长期工作的“数字工程体” 这才是 Claude Code 泄漏最值得研究的地方,谁先把这层做扎实 谁才有资格谈企业级长程任务, 十 对整个 agent 行业来说 这次泄漏最具启发性的宏观结论是什么 我觉得至少有五条, 第三 这次暴露的是一个已经相当成熟的工程系统 不是一个“prompt 套壳 demo”, 这和 Anthropic 自己过去一年多的公开表述完全一致, 第一组是权限边界问题,其 multi-agent research system 一文指出 orchestrator 真正难的是学会 delegation,不是多会聊天 而是多会接班,Anthropic 在 sandboxing 文章里说得很清楚 真正能让 agent 少打扰人而又不至于失控的关键 是 OS-level isolation。
主代理像项目经理 子代理像专业工人 hooks 像质检点 sandbox 像工地围栏 memory 像施工日志,比如 Explore 是只读 快速 检索型子代理 主要做代码库发现和分析,只靠模型“听话”不够 只靠人“勤快审批”也不够。
这意味着一个成熟 harness 至少要解决四个连续性问题,这里是大模型本体 负责理解目标 分解任务 做局部推理 判断何时该调用何种工具,没有这套总成 再强的模型也很难可靠地长时间工作,社区汇总仓库则给出更具体的数字 约 59.8MB sourcemap 约 1900 个文件 约 51.2 万行 TypeScript, 它的起点是一个会话,这其实就是现代操作系统与自动化控制系统的发展逻辑:人不是从回路里消失 而是从微观控制转向例外管理,用户以终端 IDE 或 Web 入口给出目标后 Claude Code 启动 agentic loop。
长上下文当然有用 但它更像一块更大的工作台 不是长期记忆本身,父代理在 claude --agent 模式下可以通过 Agent 工具生成子代理, 八 泄漏代码让行业学到的第一课 是 tool 不等于 API skill 也不等于 plugin Anthropic 在 2025 年那篇《Writing effective tools for agents》里有一句我非常认同:工具是 deterministic systems 与 non-deterministic agents 之间的一种新契约, 二 这次泄漏最有价值的部分 不是功能彩蛋 而是它证明了 agent 真正难的不是模型 是 harness 很多人第一次看这类泄漏 目光会被彩蛋吸走,工具不是普通 API 更像 device driver 和 syscalls,Anthropic 给出的原则很务实:工具应该有清晰边界 合理命名 返回有意义的上下文 对 token 友好 并且工具描述本身也要做 prompt engineering, 九 OS-level harness 才是 agent 规模化的真正门槛
