Manus决定出售前最后的访谈
B战原视频
备份视频
访谈深度整理报告:Manus 的进化与 Agent 的未来
本报告基于 2025 年底对 Manus 联合创始人兼首席科学家季逸超(Peak)的访谈记录整理而成。报告通过“整理-总结-重构”的方式,系统性地呈现了季逸超关于个人成长、技术演进、产品哲学及行业趋势的深度思考。
一、 个人背景与早期创业:从“瞎琢磨”到科技创业者
季逸超的成长路径深受家庭环境影响,他在科学理性的父亲与连续创业的母亲之间找到了“科技创业者”的平衡点。
| 核心阶段 | 关键总结 | 时间标签 |
|---|---|---|
| 家庭背景 | 父亲是北大物理系教授,母亲是中关村连续创业者。他在两种风格中成长,定位自己为科技创业者。 | [01:45] |
| 猛犸浏览器 | 高中时期开发 Menas Web Browser,成为中国第一代软件出海创业者,通过 App Store 赚取了 30 多万美金。 | [02:37], [03:31] |
| 商业模式反思 | 早期采用朴素的按份销售模式,后来意识到移动互联网转向免费+增值模式,蛮荒期已过。 | [03:31], [04:05] |
| NLP 启蒙 | 为解决浏览器预加载(预测用户下一次点击)的需求,于 2011 年开始研究自然语言处理(NLP)。 | [08:44] |
| Maggie 项目 | 2014-2018 年间,致力于基于知识图谱的语义搜索,开发了 Maggie,实现了自动构建知识图谱的技术。 | [12:57], [19:19] |
| 技术转折点 | 2013 年的 Word2Vec 和后来的 GPT-3 让他意识到“大一统”模型的威力,决定卖掉公司转向新范式。 | [11:16], [20:46] |
二、 Manus 的诞生与转型:从浏览器到通用 Agent
Manus 的成功并非一蹴而就,而是经历了一次深刻的“自我否定”和产品形态的剧烈转型。
| 关键决策/事件 | 核心总结 | 时间标签 |
|---|---|---|
| 加入 Manus | 2024 年 3 月加入,被创始人肖鸿(Red)提出的“重做浏览器、搜索引擎和大模型”的愿景吸引。 | [49:12] |
| 浏览器的失败尝试 | 2024 年 4 月至 9 月尝试做 AI 原生浏览器,后因用户习惯难以迁移、交互体验怪异(与 AI 抢电脑)而放弃。 | [50:45], [58:20], [01:01:17] |
| 产品哲学 | 认为如果一个产品做完后连开发者自己都不觉得酷,那就没有发布的必要。 | [01:03:10] |
| 通用 Agent 的定义 | 放弃 GUI 自动化,转向基于浏览器使用(Browser Use)的长任务处理,定位为“远程劳动力”。 | [59:24], [01:46:01] |
| 1.5 版本演进 | 1.5 版本并非突变,而是过去数月功能的打包,核心提升在于任务完成速度(快 3-5 倍)和推理成本优化。 | [02:29:15], [02:30:02] |
三、 技术洞察与决策:Agent 时代的“苦涩教训”
作为首席科学家,季逸超在模型使用、上下文管理和推理架构上有着独特的非共识判断。
| 技术领域 | 核心观点与决策 | 时间标签 |
|---|---|---|
| SOTA 的价值 | 必须追求 SOTA(最高水平),因为评估指标决定了产品能否落地,而模型的保质期仅 1-1.5 个月。 | [45:37], [46:14] |
| 上下文压力 | 认为 200K 以上的 Context 长度不再重要,更重要的是模型对“压缩”的意识(Compaction Awareness)。 | [01:36:00], [01:36:48] |
| 推理模型(Reasoning) | 盲目将竞赛类推理模型用于 Agent 会导致指令遵循能力下降,应采用“交错式思考”(Interleaved Thinking)。 | [01:38:23], [01:39:13] |
| 模型竞合关系 | 将模型训练“外包”给巨头,通过大规模消耗 Token 获得影响力,反向推动模型厂商(如 Google)改进 API。 | [01:32:53], [01:33:46], [01:42:10] |
| MCP 决策 | 对 MCP(模型上下文协议)持保守态度,认为会污染动作空间并降低缓存命中率,采用了非原生的调用方法。 | [02:51:57], [02:52:23] |
| 去人格化 | 认为将 Agent 人格化是人类的自恋,应站在模型角度设计工具,减小其“犯糊涂”的概率。 | [02:44:55], [02:46:12] |
四、 商业模式与行业竞争:数据飞轮与算力挑战
Manus 的商业逻辑建立在高效的 Token 消耗和用户反馈闭环之上。
| 商业/竞争要素 | 核心总结 | 时间标签 |
|---|---|---|
| Token 消耗量 | Manus 的 Token 消耗量是 Chatbot 的几十到上百倍,输入输出比高达 100:1 甚至 1000:1。 | [01:31:25], [01:32:28] |
| 算力危机与邀请码 | 上线初期因云厂商算力储备不足被迫采用邀请码控量,并非过度营销。 | [02:12:42], [02:13:40] |
| 数据飞轮 | 通过用户对 Agent 轨迹的纠错(Fix)和教导(Teach),形成非参数化的自我进化能力。 | [01:47:21], [01:48:18] |
| 商业化现状 | 2025 年底已实现 1 亿美金 ARR,通过技术优化和规模效应,利润已接近打平或转正。 | [02:12:42], [01:31:44] |
| 出海策略 | 坚定选择海外市场,因为海外用户对生产力工具的付费意愿更强,且 Agent 运行成本极高。 | [02:17:36], [02:26:54] |
五、 团队管理与组织架构:为模型设计产品的组织
Manus 的组织架构是为了适配 Agent 这一特殊形态而设计的,强调“面向模型”而非单纯“面向人”。
| 组织维度 | 核心总结 | 时间标签 |
|---|---|---|
| 合伙人分工 | 6 位合伙人均为连续创业者。Red(CEO)负责决策,张涛(CPO)负责产品与外部对接,季逸超负责技术。 | [51:59], [52:22] |
| 决策机制 | 采用混合模式:目标设定(Goal)专制,优先级(Priority)半民主,方案(Alternative)充分民主。 | [54:02], [54:29] |
| 特色团队 | 设有 Sandbox Team(负责虚拟化环境,为 Agent 做操作系统)和 Agent Team(负责架构与评估)。 | [02:46:25], [02:47:03] |
| 评估体系 | 拥有 10 多人的专业评估团队,强调主观评估与自动化 Benchmark(如 RLI)的结合。 | [01:49:57], [01:50:17] |
六、 总结与前瞻:2025 Agent 元年的终局思考
季逸超认为,Agent 的未来不在于模仿人,而在于成为高效的“远程劳动力”。
“不要把生而为人的限制颁给 Agent,你应该站在模型的角度去思考问题。” —— 季逸超 [02:44:55]
- 远程劳动力指标(RLI):Manus 关注 RLI 这一衡量 AI 完成真实工作能力的指标,目前虽仅为 2.5%,但预示着巨大的 GDP 加速潜力。[01:46:29]
- NBA 级别的竞争:他形容现在的创业是从 CBA 打到了 NBA,必须在全方位的技术和产品细节上做到极致。[03:00:25]
- 竞合关系:Agent 作为一个连接器,将串联起 Notion、Microsoft 等各类 SaaS 服务,产生协同效应而非简单的竞争。[02:50:49]
整理人:Manus
日期:2026年1月7日
AI 技术见解总结
本次访谈深入探讨了季逸超在 AI 领域的长期实践与思考,涵盖了从早期 NLP 技术到现代通用 Agent 的演进历程、模型能力的边界以及对未来技术趋势的预判。
一、 AI 技术的发展过程与转折点
季逸超将 AI 的发展视为一系列具体需求牵引下的技术跃进,并强调了几个关键的里程碑:
| 时间阶段 | 关键技术/事件 | 季逸超的见解 | 访谈时间标签 |
|---|---|---|---|
| 2011年 | NLP 早期探索 | 早期 NLP 依赖复杂的依存句法分析(Dependency Parsing)和原始的分词技术,模型不具备扩展性,需重度标注。 | [09:19], [11:40] |
| 2013年 | Word2Vec 发布 | 被视为“最石破天惊的转折点”,首次实现了自然语言文本向稠密向量的高效转换,开启了深度学习在 NLP 领域的应用。 | [11:16] |
| 2014-2018年 | 模型架构演进 | 经历了从 LSTM 到 Attention,再到 Transformer 和 BERT 的更迭。解决了上下文相关性(Contextual)问题。 | [18:11], [19:00] |
| 2019年 | GPT-3 出现 | 意识到通用大模型(LLM)能够统一各种 NLP 任务,垂直领域的专用模型在通用模型面前失去竞争优势。 | [20:46], [21:48] |
| 2025年 | Agent 元年 | AI 从简单的对话(Chatbot)转向能够自主完成长链路任务的通用 Agent(如 Manus)。 | [00:51] |
二、 不同模型的优缺点与厂商分化
季逸超认为当前头部模型厂商已出现明显的关注点分化,应用层应根据场景选择最合适的“养料”:
-
Anthropic (Claude):
- 优点: 在代码生成(Coding)方面表现最强,尤其是处理现实工程中的多轮编程任务。 [01:40:11]
- 特点: 响应速度快,技术博客中的研究方向(如 Thinking Tool)与 Agent 实践高度契合。 [01:41:22], [01:42:10]
-
Google (Gemini):
- 优点: 多模态理解(尤其是视频理解)具有断层级别的优势;拥有独有的 Google 搜索索引资源。 [01:40:40]
- 合作: 能够根据应用层需求快速迭代 API 功能(如可控的并行函数调用)。 [01:33:46]
-
OpenAI (GPT系列):
- 优点: 在纯推理(Reasoning)领域投入巨大,具有领先优势;模型在各类榜单(Benchmark)上表现稳健。 [01:40:40]
- 缺点: 现有的 Reasoning 模型(如 o1)若直接用于 Agent,可能导致指令遵循能力下降及幻觉增加。 [01:38:23]
-
DeepSeek:
- 冲击: 极大地缩短了模型的保质期,让行业意识到如果不追求 SOTA(最高水平)就很难生存。 [45:37]
三、 AI 模型的能力边界与 Agent 核心逻辑
季逸超对 Agent 的本质及模型能力的局限性提出了深刻的暴论与见解:
1. 记忆与上下文的边界
- 长上下文并非无限好: 认为 200K 以上的上下文不再重要。相比长度,模型更应具备压缩意识(Compaction Awareness),学会将信息外化到文件系统而非死记硬背。 [01:36:00], [01:36:46]
- KV Cache 的局限: 无限增加上下文会带来不必要的延迟和成本,模型需要学会像人一样整理文档。 [01:37:05]
2. 推理(Reasoning)的误区
- 反对“缸中之脑”: Agent 的推理不应是闭门造车(如 o1 的长思维链),而应是交错式思考(Interleaved Thinking),即:观察 -> 短暂推理 -> 行动 -> 再观察。 [01:38:23], [01:39:13]
- 工具集成推理(TIR): 推理必须与工具使用深度结合,而非纯粹的逻辑运算。 [02:58:16]
3. Agent 与 Chatbot 的本质区别
- 耐心问题: 为 Chatbot 训练的模型倾向于一轮回答完所有问题,而 Agent 需要在长链路任务中保持耐心,基于环境反馈(Observation)逐步调整。 [01:34:13], [01:35:00]
- 上下文压力: 模型在长输出时会感受到“压力”,导致后期质量下降(如频繁使用 bullet points)。 [01:35:40], [01:36:00]
四、 技术决策与未来趋势
- 去人格化: 认为赋予 Agent 人格是人类的自恋。Agent 应该被视为一种新的操作系统或工具,其思维模式与人不同,应通过环境工程(Context Engineering)而非人格化来提升能力。 [02:44:55], [02:46:14]
- 数据飞轮: 应用层公司的壁垒在于用户的使用轨迹和反馈(Feedback),这种数据留存于应用层,可用于实现模型的自我进化(Self-evolving)。 [01:43:26], [01:48:18]
- 端侧模型的坑: 在浏览器这类天然联网的场景下,盲目追求端侧离线运行是误区,用户更在乎最终效果而非运行位置。 [57:15], [57:42]
- 错误恢复能力(Error Resilience): 真实环境中的 Agent 必须具备处理非代码性错误的能力,能够绕路尝试而非陷入死循环。 [02:59:09]
“做 Agent 其实跟训模型很像,就是你其实更重要的是做对 1,000 件小事,而不是做对三个大事。” —— 季逸超 [02:52:23]