115: 华为发布超节点，如何搅动AI算力市场？与魔形智能徐凌杰聊芯片层新变化

11 maj · 晚点聊 LateTalk

01:28:13

「从拼单颗芯片的性能，到优化多芯片互联的系统。」
AI 算力，现在是中美都最关注的 AI 底层竞争力。约 1 个月前，华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群，CloudMatrix 384。
https://cdn.z.wiki/autoupload/20250511/lcah/1707X960/6q3VUj0GtASHEDVv.jpg
图注：这是超节点发布会上展示的 CloudMatrix 服务器机柜组，如播客中介绍的，一共是 12 台机柜（每台机柜里又有 4 个服务器），中间有光纤、交换机等部件连接。
华为超节点发布后不久，我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。
自 2000 年代中期，徐凌杰先后在英伟达、AMD 和三星，参与设计 GPU 架构。后来加入阿里云，领导GPU 云计算基础设施的搭建；2019 年与张文等人联合创立国产 GPU 公司壁仞科技；2024 年开始新创业，成立魔形智能，专注 AI 算力集群产品设计和优化。
超节点本身就是一种从拼单芯片性能，到优化整个节点和机架的算力思路变化，徐凌杰的从业经验正好匹配了这一趋势。
本期节目的第一部分，我们聊了华为 CloudMatrix 384 是什么，它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为，把节点做得越来越大，从集群芯片数量要性能，以网络能力弥补计算和存储的瓶颈，已成为算力市场的共识性趋势。
在第二部分，我们则主要讨论了超节点趋势，对英伟达、对其它国产芯片，对整个 AI 算力市场的可能影响，和一个“经典问题”：下一个改变算力格局的变量可能是什么？
节目录制后不久，华为超节点开始出货。据《金融时报》报道，一套完整的 CloudMatrix 384 售价约 800 万美元，是售价约 300 万美元的 NVL72 的 2 倍多。但要注意，这并不是华为的官方价格信息。
5 月 7 日，华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文，称在 6000 多块昇腾芯片组成的超大集群上，实现了 7180 亿（718B）参数 MoE 模型的长期稳定训练。
本期嘉宾：
徐凌杰，魔形智能CEO，邮箱：[email protected]
时间线跳转：
- 华为 Cloud 384 集群 & 把节点做大的趋势
03:15 CloudMatrix 384 是什么？Scale up vs Scale out
08:33 算力底层构成，不止 GPU，还有互联、网络、冷却等综合系统
11:09 NVLink、NVSwitch 是英伟达的另一重壁垒，69 亿美元收购 Mellanox 前后开始布局
18:22 广义与狭义的 AI Infra
20:38 第三方系统优化公司的机会？——同时掌握计算、网络能力的芯片原厂是少数
22:51 “超节点”好坏，看什么指标？
29:08 黄仁勋想推“训推一体”，实际上业界在怎么用 GPU？
33:17 模型越大，显存压力越大——显存正成为芯片主要成本
36:02 华为超节点功耗高，但中国电费成本相对小，以总量换性能
38:11 华为的多卡互联来自什么积累 ——华为在成为 Nvidia 之前已是一个 Mellanox
42:57 NV Switch 为何难？去年 AMD 49 亿美元收购 ZT 补能力
- 超节点趋势，对英伟达和 AI 算力市场的影响
45:43 华为超节点，短期不冲击英伟达，压力给到其它 AI 国产芯片商
47:51 英伟达 H20 已计提 55 亿美元损失，但可能通过技术手段提升部分性能
51:19 华为在阿里 Qwen3 发布当天宣布支持
55:12 英伟达上游有全球供应链支持，下游有客户生态，危险之一是客户集中
01:00:44 为什么 Google TPU 没有动摇英伟达的地位？
01:04:23 可能是 Nvidia 的“防守措施”：已成立“半定制”部门
01:06:17 为什么离开英伟达，十年前的老黄是什么样？
01:12:01 2024 年选择创业：看到芯片周边集群优化能做出差异化，也是长坡厚雪
01:18:44 新硬件架构的苗头？——存算一体、类脑计算（脉冲神经网络）
相关链接
一文洞悉超节点：解密AI时代的算力基 (https://mp.weixin.qq.com/s/QOd3KG8E8pehnrIoYkD7aQ)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs（盘古超级混合专家模型：如何在昇腾 NPU 上训练超大规模混合模型 (https://arxiv.org/abs/2505.04519)
晚点聊 103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
晚点聊 49：3nm 是谎言？光刻工厂真能造芯片？与汪波聊芯片行业那些流传的误解 (https://www.xiaoyuzhoufm.com/episode/6539a26bf22dab1924a45eb1)
晚点聊 32：最怕客户来参观的行业：和谈三圈仔细谈谈芯片 (https://www.xiaoyuzhoufm.com/episode/6413a0a3a988be4df94059ab)
附录：
GPU、GPGPU、ASIC、NPU：都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器，GPGPU 是针对通用计算（而非图形任务）优化的 GPU，AISC 是专用集成电路，它的性价比理论上比GPU 更好，但不如 GPU 通用；NPU（Neural Processing Unit）也是一种 ASIC。
DPU（Data Processing Unit）：：数据处理单元，用于优化网络通信、安全和存储操作，减轻 CPU和 GPU 的负担，提升AI 算力中心整体性能。
GPU 的精度：如节目中提到的 FP8（（8位浮点数）、INT8（（8位浮点数）都是 GPU 精度的一种，是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。
总线（Bus）：计算机内部用于传输数据、地址和控制信号的通信系统，连接 CPU、内存和外设等组件，确保信息在各部分之间高效传递。
高速互联协议：用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议，如英伟达的NVLink、InfiniBand（由 IBTA 协会开发）和 PCIe （由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI-SIG 开发），支持大规模并行计算和数据中心的高效运行。
Mellanox：一家提供高性能互联解决方案的以色列公司，英伟达在 2019 年以 69 亿美元收购了 Mellanox。
ZT Systems：2024 年，AMD 则以 49 亿美元收购了 ZT Systems，为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。
NVSwitch：英伟达推出的高带宽交换芯片，支持多 GPU 间的全互联通信，可提升系统整体性能和可扩展性。
NVLink：英伟达开发的高速互联技术，提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信，支持大规模并行计算和深度学习任务。
Dynamo：英伟达推出的开源推理软件平台，支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。
英伟达的费米（Fermi）架构：英伟达 2010 前后开发、推出的 GPU 架构，开发过程很不顺利，经历两次流片失败。
神经脉冲（Neuromorphic Computing）：模拟人脑神经网络结构和功能的计算方法，用脉冲神经网络处理信息，特点是高效能、低功耗。（人脑的功耗就比较低，只有 20 W 左右）
存算一体（Compute-in-Memory）：将计算功能集成到存储器中的计算架构，减少数据在存储器和处理器之间的传输，提高计算效率和能效，适用于大规模数据处理和人工智能应用。
剪辑制作：甜食、Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png

Lyt Lyt igen Fortsæt Spiller...
Følg Følger
Del

Episoder

117: 印奇的AI创业14年：所有不能闭环的辉煌都是暂时的
20 maj· 晚点聊 LateTalk
「Business model is the best model.」
本期的嘉宾是 A 股上市公司，千里科技的董事长印奇。他今年 37 岁，已 AI 创业 14 年。在 2011 年，印奇和同为清华姚班的同学，杨沐、唐文斌一起创立旷视科技时，3 人都在 22 岁上下。
https://hv.z.wiki/autoupload/20250521/LDil/3360X2240/4141747043022-.pic-hd.jpg
图注：旷视的三位创始人（从左至右）：杨沐、印奇、唐文斌
上一轮 AI 热潮中，这群年轻人打造的旷视，后来和商汤、云从、依图并称为 AI 四小龙。四家公司曾累计融资 80 亿美元，不过至今无一家规模盈利。从 2020 年到 2024 年，旷视一度在科创板上市流程里等待了 3 年多。
去年年中，印奇得到一个新机会，入股力帆科技，担任董事长，继续做与硬件终端结合的 AI，第一阶段是做 AI+车，即智驾和智舱的完整方案。力帆科技在今年初改名千里科技，千里股东之一的吉利会成为其重要的合作伙伴。
从年少成名、高歌猛进，到被资本追捧，再到公司被美国制裁、两次上市遇阻、苦寻商业闭环未果——印奇完整经历了上一轮 AI 热潮的起落。
本期包含了今年 3 月中旬和 5 月初，我们与印奇的两次访谈：
* 其中 3 月这次访谈，我们集中聊了从旷视到千里的转变，印奇对过去 AI 创业的总结，和千里的新进展；
* 最后一部分则是 5 月的访谈，我们更多聊了 AI 大模型的创业机会，和正在快速涌现的 Agent 应用市场。
印奇仍在追求 AGI，但不再是以 22 岁时那种一往无前的方式。这是一个有关 AI 创业的非爽文故事。
本期嘉宾：
印奇，千里科技董事长
时间线跳转：
3月中旬的访谈
- 从旷视到千里
03:17 AI 是 lifelong 的方向，一直想走软硬结合的 AI
05:55 继续推动旷视上市、大模型创业、AI+车（千里），三个选项里为何最终选了千里？
08:34 更倾向 AI in physical，AGI 必须有物理支撑
13:16 智能机器人未到爆发时机
- 只有技术信仰是不够的
17:43 DeepSeek 破圈，不代表能形成商业闭环
18:41 搜狗、旷视、DeepSeek，前沿科技创新的“天才少年”组织模式
20:47 技术信仰 vs. 价值务实：所有不能闭环的辉煌都是暂时的
25:24 一代版本一代神，组织能否迭代决定未来
- 千里新战略
26:10 千里战略关键词：AI 加车，差异化，聚焦智驾
28:43 开放 + 国际化，与吉利的合作不是绑定，而是起点
30:25 供应链开放：寻找各环节最优产品，组成完整方案
35:21 深度绑定车企才能形成数据闭环和技术支点
40:40 对 VLA 的判断：具身更需要 VLA，车的动作（action）很有限
44:41 中国智驾要回归基本功，提升模型化比例
49:39 技术品味来自背景积累，但也不用神话技术背景
52:17 智驾合适的商业模式是 2B2C，消费者要为软件付费，软件才能持续迭代
- 卡在上市流程的 5 年
54:46 低谷的 5 年反而是成长最快的 5 年
58:29 价值务实 + 精细经营 + 战斗型组织
01:06:01 调整研发与销售投入比例的过程——客户导向不是说出来的，而是价值链压出的
01:08:16 管理没那么多新概念，因为人没变；世界是连续的，不存在真正的突变式创新
01:11:13 好的科研关键是定义好问题，创业也一样
01:14:15 在互联网领域，what 很重要；但在大部分其它行业，how（执行力）比 what（认知）重要。
- 节奏比方向更重要，智驾已进入冲刺期
01:17:54 节奏比方向更重要，要判断冲刺时机
01:20:04 智驾冲刺信号已出现，赢下冲刺所需的 3 个体系
- 见世界、见众生，然后见自己
01:26:50 比以前更狠了？——更追求结果了
01:30:51 聪明人用笨办法，不奢求用小的力获得大成功
01:33:50 为何在少年时就找到 lifelong 的方向？
01:35:30 姚班的科研价值观
01:41:38 人类会选择虚拟世界吗？
01:45:34 艺术家徐冰，科技边界扩大，艺术边界缩小
01:47:57 当你对这个世界有认知，跟一群人做成了很多事，最后可能才能真正知道内心支点，见自己是最后的。
5月的访谈
01:48:31 AI 现在是一个大周期的决赛环节，各公司的积累
01:52:05 Super App，短期有爆发势能，长期上限高
01:54:42 第二阶段的 Super App 方向：Agent——四种分类（办公、内容创作、生活、情感陪伴）& 机会比较
相关链接：
《晚点对话印奇：AI 1.0 的教训是，所有不能闭环的辉煌都是暂时的》 (https://mp.weixin.qq.com/s/v_YuEPgBrrHLFDEO398pGQ)
《旷视印奇入主力帆始末：放下上市执念，赌汽车智能化》 (https://mp.weixin.qq.com/s/VWaRhjWb-ydfDLXpqFABkg)
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
116: 当AI研究者写科幻，与Meta田渊栋聊他的智能想象：我们终会“所思即所得”
17 maj· 晚点聊 LateTalk
「到那时，高级文明最想要的宇宙资源会是：good idea.」
这是「I，AI」的第二期，这个系列中，我们会讨论 AI 和我们日常工作与生活的关系。
这一期的嘉宾是 Meta GenAI 研究总监，田渊栋。他是 AI 研究者，先后于上海交大、卡耐基梅隆大学机器人研究所获学士、硕士和博士学位。田渊栋自 2005 年开始探索智能和人工智能，最近 10 年，他一直在 Meta 从事 AI 研发。
他还有另一重职业身份——小说家。博士生期间，田渊栋就开始写小说。他在 2021 年连载完了第一部长篇科幻小说《破晓之钟》，这本书在 2024 年正式出版。
《破晓之钟》写作于 ChatGPT 热潮之前，全部内容都是田渊栋自己写的，没有借助 AI。而书里的核心科幻概念和科幻点子，则体现了一个 AI 科学家的技术思维。田渊栋认为，每个技术时代——蒸汽时代、电气时代、信息时代、智能时代——都对应的不同科幻命题和故事。他想写出有 AI 内核的科幻。
几年后再看，书里的一些设计，“预言”了后来围绕算力与智能的攻防战，本书也讨论了当人类不再需要工作时，可能带来什么危机。
这一期，我们会从《破晓之钟》这本科幻长篇开始聊，延展到田渊栋对未来 AI 技术、社会与人类命运的想象。
https://cdn.z.wiki/autoupload/20250517/RQHW/1274X586/%E6%88%AA%E5%B1%8F2025-05-17_22.29.43.png
图注：《破晓之钟》2024 年出版版。
因为本书的主角和英雄们是一群研究者，我们也由此聊了 AI 研究人员的生活与选择。田渊栋也分享了 2023 年之后，他如何尝试在写作工作流里引入更多 AI，AI 现在能帮他做什么，还不能做什么。
由于本期节目是远程录制，音质有一些瑕疵，请听友见谅。
本期嘉宾：田渊栋，Meta GenAI 研究总监，他的个人网站 (https://yuandong-tian.com/)
时间线跳转：
-《破晓之钟》写作意图 & 故事设定
05:03 《破晓之钟》想写AI时代的科幻，融合少年热血与中年反思
07:35 主要情节：外星人非暴力入侵，以“完美虚拟生活”诱惑人类；一群研究者如何寻找出路
*-书中的 AI 思维和未来文明想象 *
12:34 灵界立方灵感来自英伟达 GPU 互联，20 年的科幻点子现在照进现实
16:44 人们的两种选择：进入虚拟世界 or 拥抱未知星海
19:38 “虚拟永生”带来的不可忍受之轻和平庸
23:24 结尾悬念：人类真的逃离灵界虚拟世界了吗？
26:03 高级文明银河联盟的动机：寻找独特的智慧和宇宙角落里的其它更优解
29:44 技术终会发展到“所思即所得”，好的发展思路被渴求
35:11 人类进入虚拟世界已成趋势，服务器更适宜星际旅行
39:53 虚拟世界带来短期冲击、中期内卷、长期机会——当我们从常规工作中被解放，创造力可能爆发
-研究者的处境与生活
45:34 AI 未来能否做科研？现阶段仍不具深层推理能力
48:50 田渊栋早年在深度学习相对冷门阶段的研究经历
55:10 小改进 vs 大革新，两类科研者的贡献与角色都很重要
01:00:04 技术 leader 的任务：掌握方向，识人用人，制定策略
01:03:02 从埋头苦干到战略设定，再回归 hands-on 的转变
01:06:08 借助 AI，现在的研发团队可以更小、更精悍
-AI 研究者 & 小说创作者的双重生活
01:12:27 AI 生成的内容，仍缺乏对人物关系的理解和长线逻辑
01:14:40 不同 AI 模型的使用体验：Claude 相对擅长人物关系；给定大纲后，Gemini 可以完成具体情节；DeepSeek 适合“脑洞”，用来写小说“很麻烦”
01:17:28 自制写作工具：人机协作，用 AI 补空、润色，保持人类创意主导
01:25:19 人类独一无二的经验，短时间内无法被 AI 替代
01:26:32 就像银河联盟想要全宇宙的好想法，大模型现在也最需要人的智慧（数据）
相关链接：
《幽夜星火》连载页面 (https://yuandong-tian.com/novel_dark_spark.html)
晚点聊 115：华为发布超节点，如何搅动AI算力市场？与魔形智能徐凌杰聊芯片层新变化 (https://www.xiaoyuzhoufm.com/episode/68212579c6581153998acd62)
晚点聊 109：数字生命卡兹克如何用 AI：把任何要重复 3 遍的事 AI 化 (https://www.xiaoyuzhoufm.com/episode/67e9c97af98b7b10b58e2e90)
晚点聊106：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66)
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
题图：ChatGPT 生成，prompt 是《破晓之钟》里的一段描述：
“人类遗产信息已编辑完成，若计划失败则发送：“我们是人类，曾于银河系悬臂太阳系第三行星居住，被银河联盟毁灭。我们知道四种基本力及一百一十八种由不同原子核构成的元素，目前模式识别方式为多层非线性神经网络……我们存在过、进步过、抗争过！感谢您的收听。”
（ChatGPT-4o 并未生成正确的元素周期表。）
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
Manglende episoder?

Klik her for at forny feed.
115: 华为发布超节点，如何搅动AI算力市场？与魔形智能徐凌杰聊芯片层新变化
11 maj· 晚点聊 LateTalk
「从拼单颗芯片的性能，到优化多芯片互联的系统。」
AI 算力，现在是中美都最关注的 AI 底层竞争力。约 1 个月前，华为推出由 384 块昇腾 910 互联而成的/超节点 AI 集群，CloudMatrix 384。
https://cdn.z.wiki/autoupload/20250511/lcah/1707X960/6q3VUj0GtASHEDVv.jpg
图注：这是超节点发布会上展示的 CloudMatrix 服务器机柜组，如播客中介绍的，一共是 12 台机柜（每台机柜里又有 4 个服务器），中间有光纤、交换机等部件连接。
华为超节点发布后不久，我邀请有 20 多年芯片从业经验的徐凌杰来一起聊一聊这项算力底层的新变化。
自 2000 年代中期，徐凌杰先后在英伟达、AMD 和三星，参与设计 GPU 架构。后来加入阿里云，领导GPU 云计算基础设施的搭建；2019 年与张文等人联合创立国产 GPU 公司壁仞科技；2024 年开始新创业，成立魔形智能，专注 AI 算力集群产品设计和优化。
超节点本身就是一种从拼单芯片性能，到优化整个节点和机架的算力思路变化，徐凌杰的从业经验正好匹配了这一趋势。
本期节目的第一部分，我们聊了华为 CloudMatrix 384 是什么，它和英伟达 2024 年开始重磅推出的集群方案 NVL72 的异同。不止英伟达、华为，把节点做得越来越大，从集群芯片数量要性能，以网络能力弥补计算和存储的瓶颈，已成为算力市场的共识性趋势。
在第二部分，我们则主要讨论了超节点趋势，对英伟达、对其它国产芯片，对整个 AI 算力市场的可能影响，和一个“经典问题”：下一个改变算力格局的变量可能是什么？
节目录制后不久，华为超节点开始出货。据《金融时报》报道，一套完整的 CloudMatrix 384 售价约 800 万美元，是售价约 300 万美元的 NVL72 的 2 倍多。但要注意，这并不是华为的官方价格信息。
5 月 7 日，华为盘古大模型团队又在预印本平台 Arxiv 发表了一篇论文，称在 6000 多块昇腾芯片组成的超大集群上，实现了 7180 亿（718B）参数 MoE 模型的长期稳定训练。
本期嘉宾：
徐凌杰，魔形智能CEO，邮箱：[email protected]
时间线跳转：
- 华为 Cloud 384 集群 & 把节点做大的趋势
03:15 CloudMatrix 384 是什么？Scale up vs Scale out
08:33 算力底层构成，不止 GPU，还有互联、网络、冷却等综合系统
11:09 NVLink、NVSwitch 是英伟达的另一重壁垒，69 亿美元收购 Mellanox 前后开始布局
18:22 广义与狭义的 AI Infra
20:38 第三方系统优化公司的机会？——同时掌握计算、网络能力的芯片原厂是少数
22:51 “超节点”好坏，看什么指标？
29:08 黄仁勋想推“训推一体”，实际上业界在怎么用 GPU？
33:17 模型越大，显存压力越大——显存正成为芯片主要成本
36:02 华为超节点功耗高，但中国电费成本相对小，以总量换性能
38:11 华为的多卡互联来自什么积累 ——华为在成为 Nvidia 之前已是一个 Mellanox
42:57 NV Switch 为何难？去年 AMD 49 亿美元收购 ZT 补能力
- 超节点趋势，对英伟达和 AI 算力市场的影响
45:43 华为超节点，短期不冲击英伟达，压力给到其它 AI 国产芯片商
47:51 英伟达 H20 已计提 55 亿美元损失，但可能通过技术手段提升部分性能
51:19 华为在阿里 Qwen3 发布当天宣布支持
55:12 英伟达上游有全球供应链支持，下游有客户生态，危险之一是客户集中
01:00:44 为什么 Google TPU 没有动摇英伟达的地位？
01:04:23 可能是 Nvidia 的“防守措施”：已成立“半定制”部门
01:06:17 为什么离开英伟达，十年前的老黄是什么样？
01:12:01 2024 年选择创业：看到芯片周边集群优化能做出差异化，也是长坡厚雪
01:18:44 新硬件架构的苗头？——存算一体、类脑计算（脉冲神经网络）
相关链接
一文洞悉超节点：解密AI时代的算力基 (https://mp.weixin.qq.com/s/QOd3KG8E8pehnrIoYkD7aQ)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs（盘古超级混合专家模型：如何在昇腾 NPU 上训练超大规模混合模型 (https://arxiv.org/abs/2505.04519)
晚点聊 103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
晚点聊 49：3nm 是谎言？光刻工厂真能造芯片？与汪波聊芯片行业那些流传的误解 (https://www.xiaoyuzhoufm.com/episode/6539a26bf22dab1924a45eb1)
晚点聊 32：最怕客户来参观的行业：和谈三圈仔细谈谈芯片 (https://www.xiaoyuzhoufm.com/episode/6413a0a3a988be4df94059ab)
附录：
GPU、GPGPU、ASIC、NPU：都是可以做 AI 模型训练和推理的 AI 芯片。GPU 是图形处理器，GPGPU 是针对通用计算（而非图形任务）优化的 GPU，AISC 是专用集成电路，它的性价比理论上比GPU 更好，但不如 GPU 通用；NPU（Neural Processing Unit）也是一种 ASIC。
DPU（Data Processing Unit）：：数据处理单元，用于优化网络通信、安全和存储操作，减轻 CPU和 GPU 的负担，提升AI 算力中心整体性能。
GPU 的精度：如节目中提到的 FP8（（8位浮点数）、INT8（（8位浮点数）都是 GPU 精度的一种，是不同的数据格式标准。DeepSeek-V3 和 R1 就是在预训练阶段使用了以 FP8 为主的混合低精度训练方法。
总线（Bus）：计算机内部用于传输数据、地址和控制信号的通信系统，连接 CPU、内存和外设等组件，确保信息在各部分之间高效传递。
高速互联协议：用于在计算系统内部或系统之间实现高速、低延迟的数据通信的协议，如英伟达的NVLink、InfiniBand（由 IBTA 协会开发）和 PCIe （由 Intel、Dell、HP、IBM 等公司成立的联盟 PCI-SIG 开发），支持大规模并行计算和数据中心的高效运行。
Mellanox：一家提供高性能互联解决方案的以色列公司，英伟达在 2019 年以 69 亿美元收购了 Mellanox。
ZT Systems：2024 年，AMD 则以 49 亿美元收购了 ZT Systems，为云计算厂商设计、制造和部署复杂的计算、存储和加速器解决方案。
NVSwitch：英伟达推出的高带宽交换芯片，支持多 GPU 间的全互联通信，可提升系统整体性能和可扩展性。
NVLink：英伟达开发的高速互联技术，提供高带宽、低延迟的 GPU 与 GPU、GPU 与 CPU 之间的通信，支持大规模并行计算和深度学习任务。
Dynamo：英伟达推出的开源推理软件平台，支持多种 AI 框架和硬件架构。在谈到英伟达收购 Lepton.ai 的背景时提及。
英伟达的费米（Fermi）架构：英伟达 2010 前后开发、推出的 GPU 架构，开发过程很不顺利，经历两次流片失败。
神经脉冲（Neuromorphic Computing）：模拟人脑神经网络结构和功能的计算方法，用脉冲神经网络处理信息，特点是高效能、低功耗。（人脑的功耗就比较低，只有 20 W 左右）
存算一体（Compute-in-Memory）：将计算功能集成到存储器中的计算架构，减少数据在存储器和处理器之间的传输，提高计算效率和能效，适用于大规模数据处理和人工智能应用。
剪辑制作：甜食、Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
114: 秘塔闵可锐2：“我不是演员”
5 maj· 晚点聊 LateTalk
「你得相信，最坏的事情会发生。」
今天我们一次发了两期节目，嘉宾都是秘塔创始人，闵可锐。
113 期，是我和可锐在 2023 年年初的一次访谈，那次大模型热潮初期的漫谈中，有不少此后被印证的预言。本期，是 2025 年 4 月底，秘塔发布新产品“今天学点啥”之后，我和晚点科技组作者与桐，一起对闵可锐的访谈。
我们从“今天学点啥”这个新产品切入，聊了秘塔探索新产品的方法、思路和执行，以及闵可锐对 AI 应用发展的思考。
https://cdn.z.wiki/autoupload/20250505/dMYX/1008X1218/WechatIMG207.jpg
秘塔持续推出了一些有口碑和用户的 AI 产品，包括秘塔写作猫、秘塔搜索等。与之形成反差的是，在 2023 年的大模型热潮后，秘塔并没有加速扩张和融资，仅在 2024 年新融了 1 亿多人民币。整个公司的估值也是低得保守。
可锐是一个直言、坦诚，甚至有些“我行我素”的创始人。我问他为什么不融更多钱？他说，他当不了一个演员，他也不知道，为什么一些在他看起来拙劣的故事，不少投资人会 buy in，这超出了他的“能力范围”。
他说最初看到 DeepSeek 的人才组织方式，就觉得这样非常对。我问他为什么秘塔不是这么组织的，他说，因为“我们没钱”。
一方面，可锐的一些观点似乎有些悲观，他会说：“我们摸着石头过河，大厂摸着我们过河”；任何有潜力主要依靠大模型能力达到 1000 万 DAU 的软件应用，大模型厂商和大公司一定会自己做。另一方面，他依然在持续经营秘塔这家已经成立 7 年的小 AI 公司，拒绝了去年的一些收购机会。
这是一期小 AI 公司创始人的生存之道，也是一个“没有偶像包袱”的 AI 从业者的一手观察。
本期嘉宾：
闵可锐，秘塔科技创始人，@「AI秘塔」公众号 ID：METASOTA2018
时间线跳转：
- 今天学点啥
03:05 今天学点啥：黑神话冯骥自来水，闵可锐自己打 70 分；马上会推出新优化
09:09 其实秘塔 80% 的产品决策是“我拍脑袋”的
11:18 to C、to B AI 产品秘塔都做过，不同的决策方式
18:14 “为什么没做 Agent 方向产品”——为什么做大家都在做的事？
20:32 Manus 的很多效果得益于 Claude；25 年的模型来做通用 Agent，成功率仍是问题
25:58 秘塔为何没沿着法律场景、做垂直 Agent？
27:56 收入是产品决策的重要指标；过去 7 年多少名噪一时的 AI 公司，要么死了，要么大幅收缩
29:45 我融不了很多钱；我讲真话大家也不信，也做不了演员
- 再聊两年前的「预言」
34:44 模型做不到全球 top 的 foundation model 创业公司挑战重重
36:14 做基础模型就应该是 DeepSeek 的人才组织方式
37:27 AI 战场都是聪明人，不要奢望兼顾 8 个产品、同时开几条模型线，还能在某个方向碾压别人
38:11 AI 一定要算 ROI 吗？AGI 也可以是消费
41:46 Llama4 再次证明，“一流资源、二流团队”打不过“二流资源、一流团队”；字节人才密度很高，关键是怎么发挥价值
42:55 梁文锋最懂什么？
- 模型和应用的边界
44:56 to B、to C 应用，基础模型，我都可以做，不过没人相信
49:48 法律翻译、秘塔搜索，都不适合出海，但“今天学点啥”之后会出海
52:48 我们的对手会是 1 万亿的公司，你得相信，最坏的事情会发生
54:30 因为保守错失了哪些机会？
57:36 去年为什么拒绝被收购？
01:01:21 谨慎与抛弃沉末成本，闵可锐的双面性
01:03:28 Jasper 没死，但大家都要“踩一脚”
01:05:06 所有主要依靠大模型有潜力到 1000 万 DAU 的软件应用，大（模型）公司都会自己做
-模型技术讨论
01:10:19 大模型和小模型结合，只是个很简单描述；整体思路是：1.服务自己的用户 2.及时跟进下一代模型解锁的能力
01:16:46 o 和 R 真的在推理吗？智能的形式比本质更可验证
01:23:58 用强化学习做推理模型之后，很多人低估了好的预训练的重要性
01:25:42 Grok3 和 Llama4 是两件事，Grok3 成功证明了一个后出发的团队，能快速追赶一线能力
01:29:55 Scaling Laws 不是线性外推，很可能到了新卡点，又会有新突破
01:32:59 过去曾有哪些技术误判，导致错失机会？
-过去两年，我各方面都更会了
01:37:26 我们摸着石头过河，大厂摸着我们过河，创业公司得更快找到下一个石头
01:38:43 一个足够灵敏的组织，理想 vs 现实
01:41:03 目前秘塔的团队分工、协作
01:45:52 为什么没找产品合伙人？
01:49:33 热潮前后，秘塔团队节奏的变化
01:55:25 23 年至今的变化：自己“更会了”，接下来希望能和整个组织一起成长
相关链接：
晚点聊108：与马毅聊智能史：DNA是最早的大模型，智能的本质是减熵 (https://www.xiaoyuzhoufm.com/episode/67d8a5084e49c8b5501f611b)
晚点聊110：与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专 (https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642)
晚点聊107：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66)
剪辑制作：甜食
*本期主播：
*小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
**即刻 @王与桐 (https://okjk.co/UmgW69)
https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/%E4%B8%8E%E6%A1%90-shownotes_%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
113: 秘塔闵可锐1：回到故事开始，那些「神预言」
5 maj· 晚点聊 LateTalk
「我现在有一个判断，很多人会认为是胡说八道：在这一轮大模型热潮里，中国投资人很可能会集体 miss。」
今天，《晚点聊》一次发了两期节目，嘉宾都是秘塔创始人，闵可锐。一次访谈发生在 2023 年年初，另一次是在最近。本期，是 2023 年 3 月中旬的那一次访谈。
那是中国大模型热潮的开端，王慧文刚自己投资 5000 万美元，成立光年之外，月之暗面还在组建，六小龙的名号还没有兴起，DeepSeek 还没有正式成立，字节等大公司也没有充分展现对 AI 的志在必得和激进投入。
秘塔当时已是一家成立近 5 年的公司，推出了法律翻译、秘塔写字猫等多款 AI 应用。现在更为人熟知的秘塔搜索则还没有上线。
回顾这次发生在热潮开端的讨论，恍若隔世，也有很多先见之明。那时可锐就有一些犀利的观察和观点，包括：
* 中国 VC 可能会集体 miss 掉一位最有雄心的中国大模型创业者。
* 在大模型领域，传统的组织人才方式不work。
* 真正的天才想法很难被媒体和大众所认知。
* 预训练很重要，是范式转变，具体到Transformer架构，其实没那么重要。
* (2023 年上半年）未来半年各大厂商将密集发模型，但热潮不可持续，拿不到正反馈的团队将很快退场，速生速死。
* AI 产品领域的创业是战国时代，不论个人开发者和大厂之间，还是大厂和大厂之间，进入到一个所有人在PK所有人的状态。
* 研发投入 95% 是浪费，而且你不知道哪 95% 是浪费的。一流 researcher 能节约 80% 的成本，但大部分组织没能力知道谁是一流的 researcher。
在秘塔刚成立的 2018 年，闵可锐就写过一篇文章，叫《关于机器学习的前尘往事》（见 shownotes “相关链接”部分），这篇文章已经提到了当时 Anthropic 创始人，Dario 在百度工作期间，发现的 Scaling Laws 的雏形。这篇文章开头，是模仿《百年孤独》经典开篇的一个 AI 小故事。其中提到了 108 期节目中，马毅老师也聊到的 50 年代 AI 热潮中的“感知机”。
https://cdn.z.wiki/autoupload/20250505/WuW6/1582X774/39805253-2d01-4eb4-8aed-988f9ece9ec9.png
闵可锐是马老师在伊利诺伊大学任职时的博士研究生，后肄业创业。此前他获得了复旦计算机学士学位，和牛津大学数学硕士学位。
这期节目，我们完整聊了可锐的职业经历、秘塔创业故事、他在 2023 年年初对大模型格局的思考。而今天发的另一期节目，是最近秘塔发布新产品“今天学点啥”之后的访谈，我们从这个产品切入，聊了这两年的变化。
本期嘉宾：
闵可锐，秘塔科技创始人，@「AI秘塔」公众号 ID：METASOTA2018
时间线跳转：
00:05 开场介绍
-预训练的想法很重要，而非具体架构
02:20 秘塔的重心在应用；竞赛→复旦→牛津→伊利诺伊→第一次创业→猎豹→创立秘塔的简要回顾
05:48 2017 年前后的真正技术转折是：预训练想法的出现
12:36 2018 年，预训练到来后的创业选择：在特定领域做出价值→法律翻译
12:14 OpenAI 难以效法；ChatGPT 之前，行业没有技术秘密
14:41 GPT-3 刚出来时，参数规模大到短期内难以应用；没必要神话某一个架构
22:14 一些 idea 的引用次数很高，但不是真正天才的想法
25:25 Ilya 的成就：不是视觉背景的人做出了 NLP 突破，而是深度学习的不同领域在合流，AI 本身的泛化性在提升
- 创业两条路：大故事、很多钱 vs 服务好能服务的用户
27:17 Jasper 的贡献：找到一个机器贵、但人更贵的切入口
30:58 从法律翻译到秘塔写作猫，垂直领域到更泛 C 的转变如何发生
36:16 AI to C、to B，商业模式切身体验
40:42 “创业公司的差异化是什么？”——要“做着瞧”
45:56 AI 应用是战国时代，是所有人和所有人的 PK
47:43 AI Native 应用的突破很可能在交互上
52:16 秘塔也在自己训练模型，应用为重心的情况下，怎么做模型？
01:01:28 开源模型的影响
- “坦白来讲，大模型热潮也不是什么好事”
01:08:02 AI 热潮对秘塔发展节奏的影响
01:11:15 中国投资机构会集体 miss 模型层投资；开源是另一股力量
01:16:13 中国有雄心更大的人，但还没有进入人们的视野
01:19:14 这次热潮对比 2016 年 AlphaGo 之后的 AI 热，有何不同？
01:24:11 秘塔当时的新融资推进：战投比较积极，财投很谨慎
01:27:19 两种 AI 研究机构：手作坊 vs 工业化
01:33:24 95% 的研发投入是浪费的，而且不知道浪费在哪儿；OpenAI 的成功经验是找到会花钱的少数研究者，让他们花很多钱
01:37:14 短期 vs 长期，当前应用 vs 追求 AGI——“你以为的平衡，实际上是平衡不了”
01:44:13 AI 热潮给算力成本带来的变化
01:51:27 市场存在大的资源错配
相关链接：
关于机器学习的前尘往事（闵可锐） (https://mp.weixin.qq.com/s/Gvx0mLzphhR7XIzX0JlhtQ)
晚点聊110：与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专 (https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642)
晚点聊107：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66)
附录
* BERT（Bidirectional Encoder Representations from Transformers）：Google 于 2018 年提出的一种预训练语言模型，首次引入双向 Transformer 编码器来理解上下文，显著提升了多个自然语言处理（NLP）任务的表现。
T5（Text-to-Text Transfer Transformer）：Google Research 2019 年提出，它将所有 NLP 任务统一建模为文本到文本的转换问题。
Vision Transformer (ViT)：Google Research 2020 年提出，它是首个成功将纯Transformer 架构应用于图像分类任务的模型，将图像分割为小块并视为序列输入 Transformer。
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
112: 与千寻高阳聊具身：一个像机器人的人，怎么做像人的机器人
29 apr· 晚点聊 LateTalk
「伯克利 BAIR 博士、清华叉院助理教授，跳进具身创业。」
高阳是清华大学交叉信息研究院的助理教授，同时也是具身智能公司千寻的联合创始人和首席科学家。
高阳在具身智能领域深耕多年，他是清华计算机系本科，UC Berkeley 博士，师从国际计算机视觉大师 Trevor Darrell。在 2016 年时，他就和许华哲一起做了端到端自动驾驶的课题，这在当时是个小众的方向，但如今已经成为自动驾驶行业的共识。
这几年在具身智能领域崭露头角的早期公司，多多少少有 UC Berkeley 学子的身影——刚才提到的许华哲是星海图的首席科学家，星动纪元的创始人陈建宇、最近刚刚加入估值最高的智元机器人的罗建兰，都曾在 UC Berkeley 深造过；创立边塞科技的吴翼也是毕业于 UC Berkeley。
在 2024 年，高阳与有产业经历的韩峰涛共同创立了千寻，千寻在非共识中找到的切入点是端到端+具身大脑+机器人本体+互联网视频预训练、模仿学习、强化学习。成立至今，千寻已经获得了四轮融资。最近他们也发布了VLA Spirit v1 的 demo，机器人可以叠衣服了。
这次我们不仅聊到了高阳的技术理解，也聊到了他的思维方式和过往经历。
创业者们都在尝试怎么把机器人做得更像人，而高阳像一个融入人类世界的机器人：他从不熬夜，早晨七点半“开机”，每天骑 31-33 分钟的共享单车前往工作地点，在每周固定时间健身；他相信 COT（Chain-of-Thought，思维链），认为所有事情都可以按照 COT 一步一步走向结果，不仅是生活，也包括学术研究和创业，甚至“一步一步，每一个链条都做好，自然会导向具身智能的 L2、L3 的实现”。
这位 91 年出生的具身研究者和创业者，不倾向输出斩钉截铁的结论，但他相信他推理出的一切，不管和别人的声音是否一致。
本期嘉宾：
高阳，千寻智能首席科学家，清华叉院助理教授，个人主页（内有邮箱联系方式） (https://people.iiis.tsinghua.edu.cn/~gaoyang/yang-gao.weebly.com/index.html)
时间线跳转：
-“中国速度”在具身智能的体现：修机器
02:02 创业 moment：科学家能做的探索越来越少，这在大语言模型领域已经发生
04:09 团队搭建：产业老炮+年轻科学家
07:18 Figure 02 的 demo 很好，展示了快慢系统
09:38 中国相对美国优势在于修机器人快，不然修机器人的速度赶不上做实验的速度
12:12 具身智能的阶段划分
14:23 现在中国具身智能在从 L1 到 L2 的路上
-机器人必须得是“人”形吗？
14:41 机器人不一定是人形，但 L2 以后可能需要双臂+轮式底盘
15:31 没有操作、只有移动，不能解决主要矛盾
18:52 双足不难，没有本质的卡点
21:31 虽然操作重要，但一定得有上半身吗？其实是从成本角度考虑的，像“人”一定可行
23:53 人形机器人，到底是更精细分工，还是更泛化？
-“端到端是走向具身智能的共识，分层只是短期工程选择”
27:00 端到端（VLA，Vision-Language-Action）是现在具身智能的共识吗？
28:53 训练过程：互联网视频预训练、模仿学习、强化学习
29:51 为什么叠衣服这样的操作会成为具身智能领域的“智商测试”？
34:14 快慢系统在叠衣服这件事里怎么配合的？
35:35 当前机器人的主要挑战是泛化性
-“人是分布式，机器人是中心式”
36:28 视频数据的可用量只有 1%，机器人学习怎么操作、预测轨迹
38:44 人类的肌肉记忆，机器人也有
43:33 跨任务泛化：强化学习成功率取决于基模的训练和 SFT（监督微调 Supervised Fine-Tun-ing）
45:00 具身智能也有 Scaling Laws 吗？做到 GPT3.5，可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据
49:05 Scaling Laws 在仿真数据不成立
-“具身智能做到 GPT-4 那种程度还得5年”
50:32 为什么只做大脑不行？驯化新的躯体很难的
51:55 为什么只做本体不行？价值在大脑端，现在有了大脑能力才引起的风潮
53:06 机器人未来会像汽车产业链
55:10 关于朱啸虎说的没有商业化，高阳觉得现在最重要的还是把技术做好
56:41 行业何时收敛？当具身智能走向 L2 时
57:57 现在具身智能的瓶颈还是在 AI，要补齐才能成为“木盆”
-个人成长：一位信奉 COT 的“小天才”
59:35 伯克利“归国几子”的介绍
01:01:27 同一个实验室的，还有许华哲、贾扬清等
01:03:22 2016 年博士最开始做自动驾驶，那时端到端自动驾驶还不被相信
01:06:41 学术不需要灵光乍现，个人的思考方式就是 COT
01:07:11 所以在明年 6 月具身智能会到 L2，再过一年半到两年 L3
01:07:34 读书时在 waymo 实习三个月：感觉脑子要坏掉了
01:10:15 读博想创业，但没好机会；毕业后回国做科研，伯克利“归国几子”兼职“HR”
01:12:43 跟许华哲最近讨论：看起来具身智能是个非共识行业，但这已经是坍缩、收敛后的结果
01:15:54 大学教授出来创业，会拍拍屁股走人吗？
01:17:37 一个崇尚规律的 ISTJ：不熬夜、骑共享单车上下班、规律健身
相关链接：
晚点聊 86：We,Robot-2，清华叉院/星海图许华哲看“Optimus”的门道 (https://www.xiaoyuzhoufm.com/episode/671eaa8fd6db5bf9593a1e6f?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
晚点聊 65：信仰充值的威力，与逐际谌华聊 GTC 和人形机器人新进展 (https://www.xiaoyuzhoufm.com/episode/660ba14925e97345b65cc5b4?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
晚点聊 40：与梅卡邵天兰聊通用机器人，AI 的下一个浪潮？ (https://www.xiaoyuzhoufm.com/episode/64c239d70f7b199a693a55fa?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
剪辑制作：甜食
本期主播：即刻 @王与桐 (https://okjk.co/UmgW69)
https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/%E4%B8%8E%E6%A1%90-shownotes_%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端
22 apr· 晚点聊 LateTalk
「长期看，LLM 是 Agent 和人类之间交互的前端，后端则靠 RL 模型完成工作。」
几乎所有主流 AI Agent 产品，都把大语言模型（LLM），或者它的多模态升级版当作“大脑”，靠一个或几个 LLM 编排工作、调用工具。
但也有不同的路。这期节目的嘉宾，Pokee.ai 的创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。
Bill 提到，把 LLM 当作大脑时，Agent 调用工具的能力有限。这是因为 LLM 使用工具时，需要先把工具描述、输入、输出等相关信息传入上下文，而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。
本期节目中，Bill 还聊到优秀的通用 Agent 需要具备四个要素：实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术，而在于和用户的工作流深度绑定。
此外，我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断，以及他在强化学习还并没有成为显学时，便相信强化学习潜力的原因。
Bill 本科开始便在海外留学，不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语，可参考 Shownotes 文末附录。
本期嘉宾：
Pokee.ai 创始人，前 Meta 应用强化学习负责人、工程经理朱哲清
时间线：
-创业前，花近十年研究、落地强化学习算法
04:02 一边在斯坦福读博士，一边在 Meta 上班，每周工作 110 个小时
07:20 拒绝 LLM 创业机会，留在强化学习主航道上
10:17 刚开始研究强化学习的时候，强化学习还并不是显学
16:52 DeepSeek R1 带火了强化学习，让投资人意识到强化学习重要性
-强化学习做 Agent 的优势
19:26 现有 LLM 写入能力较弱，调用工具数量有限
23:51 长期看，LLM 可能只是模型和用户的交互层，Agent 之间沟通不一定用语言
-如何设计一款 Agent 产品，服务专业用户
31:02 保留用户控制节点，避免“自由落体”的失控感
36:36 Pokee.ai 想服务专业用户，未来还要进入企业工作流
43:46 一项子任务失败，不一定挡住 Pokee.ai 完成其他子任务
45:33 抛开 browser-use，强化学习 Agent 完成一项任务只需要数十秒
46:53 Pokee.ai 最初没用 MCP，团队自己设计更简单的协议
48:47 目前主流做 Agent 的方法还是以 LLM 为核心
50:00 优秀 Agent 的四要素：速度快、无需干预、能读能写、成本低
-创业故事：从垂直 Agent 回归通用 Agent
58:20 Pokee.ai 团队全职员工只有四人，成员主要来自 Meta
59:30 早期产品：旅行规划助手 / Shopify 助手
01:02:07 强化学习爆火后，回归创业初衷做通用 Agent
01:07:33 Manus 出圈是意料之内
01:09:54 Pokee.ai 发布产品不会用邀请码，单次任务成本是同类产品的 1/10
01:10:59 技术不是 Agent 的护城河，重要的是和用户工作流绑定
01:20:24 Pokee.ai 在做通用 Agent，但也能帮垂直 Agent 落地
01:22:15 Agent 行业最后会存留三到五家公司，接下来是各个通用 Agent 差异化的时候
01:26:03 判断技术潜力的好方法：Toy Example（玩具案例）
附录：
RL（Reinforcement Learning）：强化学习；
policy：策略，强化学习语境下指模型完成任务的方式；
exploration：探索，强化学习语境下指探索可能完成任务的新路径；
exploitation：利用，强化学习语境下指利用已知信息，选择最优的动作，和 exploration 相对；
reward model：奖励模型，是强化学习算法的一部分，用于评价某个动作的好坏；
ground truth：真值，指训练强化学习模型时使用的标准答案；
prosumer（professional consumer）：专业用户，本期节目语境下指用 Agent 产品完成工作需求的用户；
context length：大模型的上下文长度；
browser-use：使 AI 能够像人类一样浏览、操作网页的开源工具；
Monte-Carlo Tree Search：一种基于随机模拟的搜索算法，用于在决策过程中评估不同选择的潜在结果，常用于需要策略规划的情境中；
API：应用程序编程接口，是一组允许不同软件系统之间通信、交换数据的规则；
SDK：软件开发工具包，旨在帮助开发者为特定平台或系统构建应用程序。
剪辑制作：甜食
本期主播：
孙海宁（微信 @_HaydenSun）
程曼祺小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://hv.z.wiki/autoupload/20250422/AHFm/1788X252/WechatIMG1762.jpg
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
110: 与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专
14 apr· 晚点聊 LateTalk
「与模型公司的主航道保持距离。」
2022 年初，夏令在 AI 热潮之前，投资了大模型创业公司 MiniMax 的天使轮。明势创始合伙人黄明明后来曾在暗涌组织的活动上，和 MiniMax 创始人闫俊杰一起回忆投资故事：在米哈游联创刘伟介绍下，明势第一次见了闫俊杰，那会儿其实大家都没太明白闫俊杰要做什么。“好在，夏令听懂了，回来后说，这个项目一定要投”。夏令也是文生图应用 LibLib.ai 和具身智能明星公司逐际动力的早期投资人。
这一期，我和夏令聊了 Agent 行业的竞争形势推演。
在他的认知里，Agent 横跨软硬件——除了 DeepResearch、Devin 这些主要在云端的Agent，以及接下来可能会进入白热化竞争的与手机结合的 Agent；和车结合的自动驾驶，和机器人结合的具身都是 Agent。它们各自处于不同的成熟阶段和竞争形势中。
夏令的观察和判断是，今年下半年开始，围绕入口级 Agent 的大战就会拉开。最为焦灼的战场会是以手机为终端的通用 Agent 产品竞争，主要玩家是掌握超级 App 或流量的大厂和自己能迭代模型的头部大模型公司。OpenAI、Google、Meta、字节、阿里、腾讯都不会放过这个机会，美团、小红书，乃至智能汽车领域的理想也都跃跃欲试。
而在早期投资视野里，大多数创业公司的机会可能在于垂直和专业的 Agent。更通用的 Agent 很可能会因处在模型公司主航道上而备受挑战。模型公司的主航道边界在哪儿？今年 2 月 Google 的一份白皮书有一个比较清晰的框架，我们在节目中有展开。
https://hv.z.wiki/autoupload/20250414/UJb8/1526X794/974c7786-df11-46a2-a33c-f92d2fac680a.png
图注：Google Agents 白皮书中的能力框架图。
夏令已经投资了一些不同的垂直 Agent 商业模式，这也是中美差异所在——在中国，一些新公司不再用做工具的思路做 Agent，来赚订阅的钱，而是用 Agent 直接做服务，获取收入分成。因为中国客户更愿意为结果本身付费，而不是为效率付费。
至于近期被朱啸虎的言论推到风口浪尖的具身智能，夏令投资了这个行业，也从他的角度讲了风险：具身最大的危险，并不是朱啸虎提到的目前没有商业化的 PMF，不能去工厂和商店打工、搬砖，而是具身模型的技术还没有收敛，机器人大脑还没来到它的 GPT-3 的时刻。
本期嘉宾：
夏令，明势创投合伙人，邮箱：[email protected]
时间线跳转：
00:06 开场介绍
跨软硬件视角的 Agent & Google 白皮书的里的技术框架
04:57 OpenAI 提出 5 级分类，推理是 L2、Agent 是 L3，DeepSeek 爆火是 L2 对 L1 的降维打击，所有人开始提前想 L3
11:14 Agent 技术框架：模型+编排层（目标理解、推理、记忆）+工具使用
14:23 OpenAI 全局记忆功能上线，新的 wow 时刻
16:19 更强推理能力，会削减 workflow 优势
19:52 MCP 成为工具使用的主流生态，更利好模型公司而非应用公司
通用入口大战，下半年就拉开序幕
22:57 已经逃离九宫格的美团等公司，不想再回到“九宫格”
25:21 美团、滴滴最初可以拒绝接入其它公司的 Agent，但这也许会给身后的第二名创造机会
27:25 云端→手机→新终端，通用 Agent 的入口数量递减；Agent 也会冲击互联网传统的广告商业模式
32:22 大厂布局眼镜端 Agent，Meta 牌面最好
36:07 B（字节）AT 三家，生态相对封闭，互通可能性是什么？一个待验证的预言：下半年就会看到巨头间的入口 Agent 竞争
模型大厂 vs 应用创业，边界在哪儿？
37:45 创业要和模型主航道保持距离
43:20 GPT 4o 对泛 C 文生图应用冲击大，却能帮 to 专业人群的文生图应用打 Adobe
50:44 模型大厂和 Agent 应用的边界在于前者都有泛 C 野心，后者更擅长服务精准人群，做“最后一公里”
53:24 离模型主航道太近的通用 Agent，壁垒不能在技术本身
垂直 Agent 创业机会
54:52 Agent 概念火后，一批已存在的 RPA 公司先受益
57:31 新公司机会：重塑流程（如 Shein）、规模化原本不能规模化的行业、找到低垂的果实（如满帮）
01:02:04 实例：用 AI 帮银行起诉坏账，1 个月发起超 1 万起案件，分收入提成
01:08:30 为什么不是律所+AI，而是原生 AI 公司来做这件事？
01:12:29 这类项目的团队画像：懂行业+懂 AI
01:15:10 Kill time 的内容型 Agent，内核不是解决任务，而是有一定自主性；在当前记忆受限的情况下，还提供不了长期关系
01:17:18 短期机会是做新型内容平台
01:22:12 远期想象：工具 Agent 和陪伴 Agent 的融合
01:24:35 未来 3 年再不到“GPT-3 时刻”可能是个大泡沫，但这是早期投资可以容忍的风险
01:31:42 结尾分享，那些创业公司和开源历史的启发——《九胜一败》、《安卓传奇》、《与开源同行》
01:37:39 本期连点成线
相关链接：
Google Agents 白皮书原文 (https://www.kaggle.com/whitepaper-agents)
晚点聊106：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66)
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
109: 数字生命卡兹克如何用 AI：把任何重复3遍的事AI化
30 mar· 晚点聊 LateTalk
“AI 殿堂的门童”更先看到了什么？今天的嘉宾，是不少关注 AI 的听友都很熟悉的一位朋友——“数字生命卡兹克”。
这期也是《晚点聊》想做的一个系列「I，AI」的第一期，会探讨更多 AI 和“人”，和“我”，和“你”，也就是 AI 和我们的日常工作与生活的内容。
从 2023 年 2 月开始，卡兹克在“数字生命卡兹克”这个公众号上发布了第一篇 AI 文章，此后吸引了大量想了解 AI 和把 AI 用起来的受众。之后卡兹克在 2024 年 3 月开始全职运营这个账号，也陆续做起了视频，见同名视频号。
我本来想和卡兹克聊他广泛使用和测评各种 AI 产品的感受，以及他对那些想更好使用 AI 的人的建议。不过谈话在流动中触及了更多话题。
这期前半部分，卡兹克分享了自己在 2023 年用 AI 做产品的经历。其实 24 年全职做数字生命卡兹克之前，他在一家做公募基金数据分析平台的创业公司担任设计总监。在 22 年底 ChatGPT 刚上线后，他们就开始在公司内全面使用 AI，甚至在 23 年 9 月第二批拿到了算法备案，也是金融领域的第一个。但当他们试图用 AI 赋能业务，做一款想卖给基金公司和券商等机构的 toB 产品后，进展却并不顺利。
24年3月，公司收束和调整业务后，卡兹克离开，变身“肝神卡兹克”。我们从卡兹克怎么用 AI 来改造自己的工作流聊了现在各方向的 AI 产品。这对同样是做内容的我有很多启发。
卡兹克能精准、快速挖掘选题，和高频产出，当然和他“肝”有关，但也和他利用 AI 做了大量自动化有关，比如他们会每天搜集全网 AI 资讯，然后用 AI 模型帮助打分、筛选，挑出最重要的 10 条发到 30 多个社群里，作为早报。他们也会用 AI 分析社群里的讨论焦点，帮助产生选题。
一个特别有意思的案例是，前不久，卡兹克做了一次线下活动，有 2000 多人报名，但只能容纳 200 人。要筛选报名者和分组，在以往组织线下活动时是浩大工程，而这次 AI 帮了大忙。
卡兹克说，他现在想做“AI 殿堂的门童”：让更多人看到 AI 原来能做这么多有意思的事，能帮我们解决问题。
本期结尾最，我们一起回顾、对比了 2023 年和 2025 年卡兹克分别发的两次 AI 产品推荐：
https://hv.z.wiki/autoupload/20250331/vEzm/1080X733/640.webp
图：2023 年，卡兹克写的的 AI 工具推荐。
2025 年，卡兹克写的 AI 工具盘点，见文章：2025最好用的AI产品大全推荐，看这一篇就够了。 (https://mp.weixin.qq.com/s/oqAV5CkC5qx3ciL985J0XA)
这篇开头没有全览图，我自己用 Manus 做了一个简单的交互网页：
https://hhlxioqr.manus.space/mindmap
产品名和公司名是我自己输入的，上线时间是请 Manus 自己查找的，可以看到并不太准确，比如 TripoAI 应该是 23 年 12 月上线的。
https://cdn.z.wiki/autoupload/20250331/BN3C/1490X1156/%E6%88%AA%E5%B1%8F2025-03-31_08.42.13.png
*本期头图：卡兹克 2023 年用 Midjourney 制作的 AI《流浪地球3》预告片截图。
本期嘉宾：
数字生命卡兹克，公众后 ID：Rockhazix
时间线跳转：
00:23 开场总结
- 交互设计师-用 AI 做金融分析产品-成为“数字生命”
02:25 交互设计师到首次参与创业
10:23 全公司开始用 AI（代码翻译、UI 设计）→用 AI 做基金分析产品→拿到备案，但客户推广不顺
25:23 兼职做 AI 内容的两次出圈大火：AI 流浪地球3预告片，开始协助郭帆导演在电影制作流程中用 AI；发布 Pika 文章第二天，一天做了 13 个券商线上路演
32:42 AI 内容变难做，一是用户阈值变高，二是一些新进展已离普通人较远（数学、AI for Science 等）；DeepSeek 出圈不是因为数学、逻辑，中国人的“ChatGPT”时刻
41:32 想做 “AI 殿堂的门童”
56:26 最近被喷最多是因为 Manus，“我真的没收钱”
- 卡兹克怎么用 AI：模型找选题、做分析，DeepResearch 真香！
01:01:09 别人问我怎么用 AI，我先问：你觉得什么东西浪费时间、不相干？
01:03:49 AI 总结社群焦点，用字节 Trae 写数据分析工具，ChatGPT 干“大活”靠谱，DeepResearch 真香！
01:12:09 AI帮助全网筛选提：早 8 早报，晚 8 “内参”，深夜 12 点再汇总外网新动态——干跑两个实习生后搭建的 AI 提效流程
01:18:55 多模态 AI 使用：做海报和设计，但视频内容目前想保持“人味”
01:24:36 用 AI 的坑：错估 AI 能力边界，但不要受挫就放弃；DeepResearch 写小说能力惊人，但现在秒不了乔治·马丁；第一部分账模式的 AI 短剧《兴安岭诡事》已出现
01:31:31 各 Agent 使用体验，大部分偏玩具，因为多步任务中错误会叠加，规划、执行和整合能力最重要
01:39:00 23 年用 Coze 和 Dify 多，但这部分需求后来被 Cursor、Trae 满足
01:41:15 一个用飞书多维表格跑工作流的例子；最近办线下活动，DeepResearch 11 分钟干了去年 11 个人一起做的活：筛选报名者和现场分组
01:51:49 今夕对比，2023 年 3 月的 AI 产品推荐 VS 2025 年 2 月 AI 产品推荐；Jasper 怎么了？音频、视频全部大洗牌，豆包、元宝的崛起，字节系产品多类开花
02:05:50 卡兹克的“焦虑”：AI 会不会正在精英化？AI 还没有出现手机之后的新终端
02:18:36 AI 对更多普通人的意义，群友们的故事
02:26:06 本期「连点成线」
相关链接：
你要的AI工具大全都在这里了！（上） (https://mp.weixin.qq.com/s/IQ2i8gnRpnOzFdCpbbAhCw)
你要的AI工具大全都在这里了！（下） (https://mp.weixin.qq.com/s/20KuT5priO0gnANqN7WvYA)
2025最好用的AI产品大全推荐，看这一篇就够了。 (https://mp.weixin.qq.com/s/oqAV5CkC5qx3ciL985J0XA)
我用AI做了一部《流浪地球3》的预告片... (https://mp.weixin.qq.com/s?fallback_from_env=not_support&vid=wxv_3044576754394382336&__biz=MzIyMzA5NjEyMA==&mid=2647659108&idx=1&sn=9fcd0e59b59786358869fcbebe15d60d&mpshare=1&scene=1&srcid=0331zTyTdeO5RyONMc0taX1M&sharer_shareinfo=dcb359cafddb386e51de00802b2ba053&sharer_shareinfo_first=dcb359cafddb386e51de00802b2ba053&key=daf9bdc5abc4e8d007fe6d92aa5fc59b3950f1d4aaf4e955fe7e7f6c13ed35ec8939de89c74739e13917572117b0b9d9240b52d92fb785b5761becc662d40647a82c1e09b73091f0271db84f17dc6c6b54b5796a781e3df2d240238a19d964306ac995d2a5e6cbd686589e740b50233253f7a78432b62d212e4ea249083635da&ascene=0&uin=MjkwNzUzNDE3NA%3D%3D&devicetype=iMac+Mac14%2C3+OSX+OSX+14.4.1+build(23E224)&version=13080215&nettype=WIFI&lang=zh_CN&countrycode=CN&fontScale=100&exportkey=n_ChQIAhIQ9GQClRDkcLd%2Fc5bO9AUpTBKCAgIE97dBBAEAAAAAANjWJH9JqXwAAAAOpnltbLcz9gKNyK89dVj0YcbooMioRCvdLqQC2x6nhANvwBWyO5R3fZpdcib9EY1quD7yPmDvfcgzqse7X4v9Xi6oV0gkBQ1b6OWMsN4z7xVACEnOgwYJT6iSLJIfHwAftacplgwp8toDbSPTxsucWJvssDeVe77wvg1wC1TvJulCxSNLNzT7rq2qQJ73Kx2NVcjB69PR%2FNVmN9ZrPl0guIGXhu8pvkQ3qTubioTYa3H8yLvUvgVnFEe1MlY7G1Wm5QRGCka9GZSRGFtY%2BN0XmU7meSwTw5jUsXarIVefcAWKazcSqOuVAl0SMQ%3D%3D&acctmode=0&pass_ticket=iNW3f9nfej1LzbpDOJ2WqTRgUdtCZEXTb4ScoEgGXJhxWIhYR9YJV8T3da20Qyb0&wx_header=0)
贤者之石（卡兹克 DeepResearch 撰写的 3 万字小说） (https://datakhazix.feishu.cn/wiki/Tsl1wGzr0iKSYJkh4y9c4MWQnvV)
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
108: 与马毅聊智能史:“DNA是最早的大模型”，智能的本质是减熵
17 mar· 晚点聊 LateTalk
香港大学计算与数据科学学院院长，看 35 亿年智能史。欲知未来，先知过去。
这期是《晚点聊》的一个新系列「LongContext」“长语境”的第 1 期。
封面：马毅上周五（3 月 14 日）在北大做分享（刚好是 π 日）
类似于现在的大模型需要 LongContext，我们去学习智能，也需要一个更全面的历史语境，让我们能在新东西不断涌现的此刻，找到一个更稳定的坐标。
在这个系列的开端，我邀请了香港大学计算与数据科学学院院长，马毅教授，来与我们聊智能和机器智能的历史。
马毅本科毕业于清华大学，2000 年在加州伯克利大学获得博士学位，先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学，是人工智能和计算机视觉领域的全球知名学者。
最近 5 年，马毅自己关心的课题之一，就是智能的历史。为了在港大推动面向所有学科本科生的 AI 通识教育，他也在撰写教材、设计课程，对智能的发展做了更全面和深入浅出的整理。
马毅对智能有一些“少数派”的理解，比如本系列的名称「LongContext」——当作为一个技术概念时，马老师认为与其一味追逐预训练模式下的更长 LongContext，更好的方法是找到一种机制，能让智能系统有闭环的、长久的、不会遗忘的记忆。这些理解本身与他对智能史的梳理和认知有关。
智能是如何在地球上诞生的？马毅认为，生命就是智能的载体：从 DNA 出现，到神经系统诞生和寒武纪物种大爆发，再到人类的语言与数学的诞生，智能有不同的表现形式，但不变的是，智能都是在学习外部世界的知识与规律，从而进行预测，使知识可以为我所用。智能是在寻找规律并利用规律，是一个对抗宇宙熵增的过程。
从智能的历史，我们进一步聊了机器智能的历史：大部分人会把 1956 年的达特茅斯会议视为人工智能的开端，而马毅认为，对机器智能的研究，要追溯到 1940 年代的维纳的控制论、香农的信息论等更早的源头。从那时到现在的 80 多年里，机器智能发展几经起伏。马毅也分享了自己亲历的部分变化：比如他刚博士毕业时，找不到对口方向的教职；他现在被引用最多的成果，一度没有任何会议接受。
马毅也分享了一个研究者的技术品味如何形成？“品味”不仅是一种认知，也是认知被挑战时能继续坚持的自信。马毅的 taste，使他进入了一个目前在 AI 工业界眼中并不那么主流的方向：白盒大模型，和能实现“闭环、反馈、纠错”的机器智能。这两个方向在我们去年与马老师的访谈中有更详细的展开，具体内容可见《晚点聊》第 71 期节目。为加速这些方向的探索，马毅也创立了一家公司“忆生科技”。
本期涉及的人物、理论、技术成果、术语，见 Shownotes 文末附录。
本期嘉宾：
马毅，香港大学计算与数据科学学院院长
时间线：
00:13 开场总结 & LongContext 系列说明
智能的历史
04:58 DNA、神经系统、语言、数学，智能有四种机制；知识本身不是智能，而是智能活动的结果
19:06 大模型在四种机制中的阶段——类似靠 DNA 物竞天择的强化学习
24:53 智能在宇宙中诞生，也许是偶然中的必然；宇宙熵增（越来越混乱、随机），终有一天会无规律可学
机器智能的历史
29:02 AI 的起点不是达特茅斯会议
39:55 80 年机器智能史中的“闪耀时刻”
46:57 神经网络的起伏，本质是机制不明确，一些成果靠经验性试错
56:51 Open o1 和 DeepSeek-R1，它们真的在做“推理”吗？
01:08:06 “DeepSeek”们的出现，是一个 where and when 的问题，不是 if or not 的问题
技术 taste 的形成
01:11:21 探索未知的勇气和特立独行+严谨的学术培养
01:14:24 “做数学家，第一条是把自己训练成世界上最难说服的人”
01:18:53 在伯克利读博士时的氛围：自由跨组，学生互助
01:24:16 品味被挑战的时刻：现在被引用最多的成果，一度没有任何会议接收
01:27:58 没有接受系统教育的企业家、从业者，如何形成技术 taste？
港大 AI 通识教育实践
01:35:12 减少一门英语课，所有本科生增加一门 AI literacy：教授历史、技术概念、伦理；重要的是思维训练，而不是结论本身
01:45:50 机器降临派 or 人类堡垒派？——智能共存
白盒与闭环反馈纠错
01:52:15 闭环系统才能适应开放世界，具身是应用场景
01:54:05 VLA 端到端不一定是具身智能正确的解法，至少不是最高效的解法；人脑其实是一个并行结构
01:59:50 公司的意义，与学校要做的事形成互补
02:11:28 “我从不说 AGI”，不要笼统地理解智能
02:13:05 “焦虑就是来自不懂”，当 AI 的黑盒被利用，“迷信是这么产生的，权力也是这么产生的”
02:15:09 本期「连点成线」
相关链接：
晚点聊71：“如果相信只靠 Scailng Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了” (https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ)
晚点聊106：与真格戴雨森长聊Agent：各行各业都会遭遇“李世石时刻”，Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66)
晚点聊103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
晚点聊101：与王小川聊AIX医疗：通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
附录：
诺伯特·维纳：控制论创始人，奠定AI与自动化理论基础。
图灵：计算机科学之父，提出图灵机与图灵测试，奠定AI理论基础。
冯·诺依曼架构：计算机体系结构基础，由冯·诺依曼于1945年提出，沿用至今。
达特茅斯会议：1956 年由麦卡锡、明斯基等人发起，首次定义“人工智能”。
Perceptron：感知机，Frank Rosenblatt于1957年提出的早期神经网络模型。
Yann Lecun：卷积神经网络先驱，2018年图灵奖得主，Meta首席AI科学家。
Geoffrey Hinton：深度学习先驱，反向传播算法（Back Propagation）联合提出者，2018年图灵奖得主。
李飞飞：斯坦福大学教授，ImageNet数据集发起人，推动计算机视觉发展。
卷积神经网络（CNN）：Yann LeCun于1980年代末提出的深度学习模型，专用于图像识别。
AlexNet：2012年ImageNet竞赛冠军模型，由Hinton团队提出，推动深度学习复兴。
ResNet：微软2015年提出的残差网络，解决深层网络梯度消失问题。
VGG：牛津大学2014年提出的深度卷积网络，以结构简单高效著称。
ImageNet：李飞飞团队2009年发起的图像数据集，推动AI算法发展。
李泽湘：机器人技术专家，马毅在伯克利博士期间的师兄；他们的导师是 Shankar Sastry。
陶哲轩：数学家，研究涵盖机器学习理论，推动AI与数学交叉领域发展。
SFT Memorizes, RL Generalizes (https://tianzhechu.com/SFTvsRL/)：（港大、UC Berkely、Google DeepMind、NYU 2025 年合作发表的论文），是本期中讨论提升模型推理时，SFT（监督微调）和 RL（强化学习）的相关但不同角色的那篇论文。
监督微调（Supervised Fine Tuning）：基于标注数据调整预训练模型，适配特定任务。
强化学习（Reinforcement Learning）：通过奖励机制优化策略，适用于动态决策任务。
伯克利 BAIR：加州大学伯克利分校人工智能研究所，成立于2016年，聚焦机器人、强化学习等前沿领域。
VLA：Vision-Language-Action Model 视觉-语言-动作模型，Google DeepMind 2023 年提出的一种让智能体在物理或数字环境中执行复杂任务的模型，应用于机器人、自动驾驶等领域
播客中提到的两位遭遇学生生涯挫折的诺贝尔奖得住：一位是 2024 年生理学或医学奖得主 Victor Ambros，曾未能获得哈佛大学终身教职；一位是 2023 年生理学或医学奖得主 Katalin Karikó，曾被宾夕法尼亚大学降级降薪。
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
107: 与Haivivi李勇聊月入千万的AI Jellycat：小众AI硬件×大众消费品的交叉口创业
13 mar· 晚点聊 LateTalk
「佩奇她弟教你“量子纠缠”。」（封面中，小猴子身上挂的 Bubble Pal 是 Haivivi 的第一款产品。）
本期，Haivivi 创始人兼 CEO 李勇讲述了 AI 玩具创业故事。
李勇是一个消费硬件行业的 20 年从业者和连续创业者：曾参与天猫精灵从 0 到三千万台的全过程，后负责爱奇艺孵化的 AR/VR 产品，独立创业后，做早教机一度销量突破数十万台，后不得不在双减等政策变化中寻找新方向。
AI 玩具符合李勇寻找创业方向的逻辑：做科技巨头做不了或不会做的方向。
这是一个 AI 硬件中的小众领域，却是消费品里的大市场：泡泡玛特和 Jellycat 的持续增长都显示了玩具、玩偶类产品的巨大需求：它们不仅是送给孩子的好伙伴，也成为跨年龄阶段的陪伴者，是白领“打工人”或收藏癖的“小确幸”。
3 年前创业，1 年半前开始进入 AI 毛绒玩具市场的 Haivivi，目前仍针对 3-6 岁的幼儿市场，做成年人的“AI 朋友”是他们的未来拓展目标之一。
Haivivi 的第一款产品是去年夏天面世的 Bubble Pal——一个可以挂在任何毛绒伙伴上的 AI 泡泡，让毛绒玩具能开口陪孩子聊天、说话，用小猪佩奇的世界观讲量子力学，家庭关系。
上市几个月内，单价 399 元的 Bubble Pal 就卖出几万个，单月收入破千万元人民币。
*本期播客录制时间在今年春节前，“明年”“今年”“去年”的称呼分别主要指 2025、2024 和 2023 年。
本期嘉宾：
Haivivi 创始人 & CEO 李勇，曾在锤子手机、天猫精灵、爱奇艺等公司工作过，2021 年开始此次创业。
时间线：
- 产品思考：一个“AI+儿童+毛绒+硬件+情绪价值”的产品窄门
02:06 产品演示
04:22经历回顾：天猫精灵野心很大，但最多的交互来自孩子
10:02早教机品类固然好，但竞争不过大公司
12:36大模型来了，但又不够好，让大模型跟毛绒玩具结合，能控制用户预期
13:24全球毛绒玩具增速很快，所以一定要做毛绒玩具品类
15:03PMF思考：为什么做3-6岁？
16:55先做挂件产品形态的思考：做好毛绒玩具存量市场，同时先活下来
- 大模型＋硬件，能给所有人提供情绪价值吗？
19:11毛绒形态是情绪价值提供的最优解，别的品类说话有些诡异，需要教育市场
21:55如果泡泡玛特也会说话呢？在 AI 之外，还要考虑更长的链条
23:43在情绪价值赛道，理性推演很难
24:15成年人跟一个玩具聊天会不会很傻？不会，AI 也能给成年人提供情绪价值，但要找对场景
25:27硬件有付费成本，给用户的价值要大于用户付出的成本
- 做巨头做不了，也不想做的生意
27:55排名第一第二的差评，本质来自硬件设计的取舍，以及产品破圈之后，要接受非科技爱好者的“审判”
31:18家长可以设计 prompt，让玩具成为小孩子的“个人助手”
32:27不做严肃教育，因为大模型现阶段的能力并不能做严肃教育
33:40创业公司不适合做 AI+教育，因为无法和有更多资源的教育巨头竞争
34:20而玩具方向大厂不会做，不想做也做不好
35:19提供情绪价值的玩具赛道，可以同时容纳非常多公司；而工具类往往是生死厮杀
37:49玩具公司多以儿童用户切入，但真正的收入来自给成年人的产品
39:50大模型技术的迭代，比如端到端语音模型的推出，可以帮助实现更好的用户体验
- 负债创业，而硬件本身又充满取舍
43:12负债创业时刻：调整方向、团队降薪、PPT 融资
44:45与高秉强老师相见恨晚，他也主张儿童+硬件+AI
46:29高老师也赞同不做教育，“孩子上了高中、大学，会有我这样的老师讲给他们听”
47:27产品设计中的种种取舍：先做什么、做哪个国家、纽扣还是挂件、硅胶还是毛绒、多大的麦克风……
52:31还没投流就卖爆了，终于有个 AI 产品能离生活近一些了
55:00聊 AI 眼镜：没想到是 Meta 现跑出来，舍弃显示太有魄力了
58:09国内一定会有很多人开始做 Haivivi 类似的产品，但李勇觉得这很正常，还是要多关注自己的迭代
- 过于乐观的 AI 从业者，现在想做玩具总动员
01:03:31一些理工男不能理解的产品设计，但每一个细节都很重要
01:05:40从技术角度去做儿童产品的价值观设计，比成年人的更复杂
01:11:13对大模型过于乐观
01:13:31接入了主流的模型，也接入了 DeepSeek，但 DeepSeek 的意义更多在长期
01:15:01想做的事情很多，但是并不想让团队快速扩张
01:18:26太多科幻电影太过黑暗，Haivivi 想做 AI 版的玩具总动员。
相关链接：
Jellycat 如何将 vibe 注入商品？丨晚点周末 (https://mp.weixin.qq.com/s/BnO2tOhI3Ak9v3-lmS2p1A)
晚点独家丨AI 眼镜之战，数笔新融资进行时 (https://mp.weixin.qq.com/s/mqjaW81PBXyvBQVhNkuobg)
剪辑制作：甜食
本期主播：即刻 @王与桐 (https://okjk.co/UmgW69)
https://cdn.z.wiki/autoupload/20250313/tAbq/2062X376/%E4%B8%8E%E6%A1%90-shownotes_%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
106: 与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need
9 mar· 晚点聊 LateTalk
「两瓶茅台的价格体验未来，很划算（Devin 最低月订阅费 500 美元）」
2 月下旬，我与真格基金管理合伙人戴雨森长聊了一次 AI。
上周，真格投资的 Monica 发布的 Agent 产品 Manus，虽然还在内测阶段，就引起了大量关注。在聊这期时，雨森提到了 Monica 即将会发布一款 Agent 产品，那时候我们还不知道 Manus 将会席卷社交媒体。
当我们把一个任务交给 Manus，过了十几分钟收到完成的结果时，似乎真的感受到了一点 attention is not all you need 的未来。
带来这些变化的起点，是去年至今的两个重要节点：o1 和 R1。它们分别带来了两个对 AI 全行业的影响：
一是 o1 在大语言模型中引入强化学习，开启 Pretraining（预训练）Scaling Laws 之外的 Post-training（后训练）和 test-time-computing（即推理阶段的计算）阶段的新 Scaling Laws，让模型推理能力大幅提升。我们之前在第 80 期节目中也有详细讨论 o1，当时业界还普遍猜测 o1 用到了蒙特卡洛树搜索等方法。
二是与 o1 同为推理模型的 DeepSeek R1 强势开源，以极低的成本，和后续引发的巨大全民影响力，让很多人重估了大模型行业当前的最重要课题：提升模型能力。R1 的开源和同期发布了详细技术报告另一个推理模型的 Kimi-k1.5 ，也明确告诉整个领域，一些方向是“此路不通”，他们都没有使用蒙特卡洛树搜索等方法。
这期节目，我们从 o1 和 R1 开始聊，二者一同带来的推理能力的提升、成本的下降，和同期模型编程能力与工具使用能力的提升，开启了 Agent 在 2025 年的应用前景。
雨森详细分享了他对 Agent 机会的当前观察，以及在 DeepSeek 带来的开源生态的变化中，大小 AI 公司的新动作和调整。
本期嘉宾：
戴雨森：真格基金管理合伙人，投资了 Kimi（月之暗面）、与爱为舞、无问芯穹、Genspark 等 AI 项目。
时间线：
- OpenAI o系列与 DeepSeek R 系列的启发
01:36 o1 证明 RL（强化学习）在后训练阶段和推理时间的 Scaling Law 潜力，为 Agent 产品形态奠定基础
04:24 DeepSeek-R1 启发：开源+RL+专注的胜利；本土年轻团队的力量；技术提升带来魔法体验，涌现商业模式
- 详聊 AI Agent
14:25 3 个能力提升带来 Agent 爆发机会：推理+编程+工具使用；凡是 RL 进入的领域，往往导致人类迅速超过人类，“我把这叫李世石时刻”
18:11 Attention is not all you need，“工作的 Scaling Law”：从“注意力经济”到“无需注意力”的范式转变，Agent 帮你干活
34:07 Agent 产品形态推演：从写（分析类）到读（操作），到 Agent 指挥 Agent 干活（多 Agent 协同）；一个例子：Manus 为了获得凤凰城地铁时刻表，在找不到公开信息的情况下给相关部门写邮件。
45:44 Agent 机会属于谁？模型公司自己做，还是应用公司？
53:02 Agent 成本：成本下降、速度变快是必然；200 美元一个月的 ChatGPT-pro，500 美金一个月的Devin，两瓶茅台的价格体验未来，很划算
- 开源带来的格局重塑
58:18 DeepSeek 强势开源下：字节与腾讯的不同动作
01:10:39 DeepSeek 长期的商业价值？
01:14:53 开源并非必选项
01:19:39 阿里的节奏：开源、开放
01:28:34 对六小虎：DeepSeek 的“清场效应”；对更多应用公司，加速从“黑莓时代”到“iPhone”时代
01:35:45 对算力需求：总需求变大没争议，但算力结构的变化可能导致英伟达市值调整
- 为更快到来的 AGI 的未雨绸缪
01:44:59 一生中见证多次指数增长，历史罕见
01:51:32 希望 AI 普惠，但也有可能走向反面
01:54:40 戴雨森个人为 AGI 做的准备
02:04:01 最近的阅读推荐：A Brief History of Intelligence（作者：Max Bennet）、《第一只眼》（作者：Andrew Parker）
相关链接：
3 位连续创业者打造 Manus，应用潮里有更多 “underdog” 的机会（文末附 Manus、Open Manus 实测） (https://mp.weixin.qq.com/s/QXPx7efrGK2Y6msGTqAFlQ)
晚点聊 99：MiniMax创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
晚点聊 100：硅谷怎么看 DeepSeek？与 FusionFund 创始人张璐聊开源、Agent 和除了 AI (https://www.xiaoyuzhoufm.com/episode/6799dea77c3a804d89fd93f2)
晚点聊 102：DeepSeek 启动开源周，大模型开源到底在开什么？ (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d)
晚点聊 103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
附录（本期中提及的一些 AI 产品）：
Devin：由 Cognition 开发的自动化编程助手 Agent。
DeepResearch：OpenAI 2025 年 2月发布的为智能研究 Agent，支持深度信息检索与报告生成。
Manus：本期中提及的 Monica.im 当时即将发布的 Agent 产品，支持多任务自主执行。
ComputerUse：Anthropic 2024 年 11 月发布的通用计算机助手 Agent，允许 AI 操作计算机完成任务。
Cursor：由 Cursor 团队开发的 AI 编程助手。
Perplexity：由Perplexity AI 开发的 AI 搜索引擎，能提供深度搜索、信息整合和答案生成。
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
105: 潞晨尤洋争议中谈三方云平台 DeepSeek 成本：为何我不做 MaaS 了？
6 mar· 晚点聊 LateTalk
「我们的测试是，通过 MaaS 获得收入，代价太高了」
上周六，DeepSeek 发布开源周收官之作：概述了 DeepSeek 的推理优化思路，并放出了 2 月 27 日前后一个 24 小时时段内的线上时机测试。
据 DeepSeek 官方数据，这 24 小时里，他们处理的 Token 输入总量是 608B（6080 亿）；输出的 token 量是 168B（1680 亿）。每秒每节点（一节点有 8 张 H800）的吞吐量达到了输入 73.7k Tokens，输出 14.8k Tokens。
https://cdn.z.wiki/autoupload/20250306/rk6W/884X858/%E6%88%AA%E5%B1%8F2025-03-06_20.14.24.png
做到这么大的吞吐量，他们平均只用了 226.75 个节点，每个节点是 8 张英伟达 H800，加起来是 1814 张卡。而这支撑了 DeepSeek 高达 2000万-3000 万的日活。
由此 DeepSeek 也根据 GPU 的市场价格，和自己的 API 定价，算了一个成本利润率，即这几天被广泛传播和讨论的 545%，换算成毛利是 84.5%。
这也让前段时间算过另一笔账，且结果大相径庭的的潞晨科技创始人尤洋的言论被推到了风口浪尖。
尤洋曾说，通过自己的实测，他发现中小云平台现在部署 DeepSeek，再售卖 API 给其它应用方，是巨亏的生意，月亏可达 4 亿。
亏损的核心是，尤洋自己测的吞吐量与 DeepSeek 公布的数据相差巨大（每节点每秒输出位 300 Tokens 左右）。由于 GPU 的价格在一定时间内是固定的，吞吐量，就决定了 API 服务能否赚钱。
在“被打脸”的争议中，尤洋接受了「晚点聊」的访谈。我们聊的时间是 3 月 1 日，尤洋没有特别提及 DeepSeek 的具体推理优化，他称自己不方便评价。
他更多聊了，为什么他认为中小云平台做 MaaS 服务不赚钱，也解释了他眼中的 MaaS 商业模式。他认为单纯卖 API 的 MaaS 可能更合适大型云厂商和自己开发独家模型，并能做相应深度优化的公司。
3 月 1 日，潞晨科技也宣布停止即将包括 DeepSeek API 在内的 MaaS 服务。
如果听友想更详细的了解，考虑到运维、折旧等成本的 DeepSeek 实际利润率怎么测算，可以看 Shownotes “附录”里贴的几篇相关链接，有非常详细的解读，并搭配了公式和图表。
本期嘉宾：
尤洋，潞晨科技创始人
时间线跳转：
00:04 DeepSeek 官方实测数据，惊人的吞吐量带来惊人利润率
03:10 尤洋此前的测算引发争议与讨论：亏损 4 亿 vs 毛利 85%
09:25 一个合格 to B MaaS 服务，冗余资源到底该备需求的几倍？
12:26 潞晨科技已不再做 MaaS 服务，MaaS 买的是 GPU 时间，卖的是 Token 调用，承担了链条上的最多亏损
17:57 专注给大小公司部署私有模型
22:15 强模型公司（如 OpenAI）和大型云厂商自己做 MaaS 更合理
26:22 高额利润才能带来创新投入，价格战会导致大家都没资源投入研发
28:20 实际服务中，输入、输出序列的波动，用户请求的多样化，会导致线上服务效率下降
34:28 云计算也是高弹性，AI 云平台不会成为新的云计算吗？
38:17 潞晨想做 AI 版 Databricks，而 Databricks 自己也在做这件事；创业公司的空间在哪儿？
43:00 新方向是自己训练视频生成模型，在热潮前的 2021 年 9 月开始创业的方向选择
46:37 技术和商业问题可以广开讨论，不打算再回应其他争议
相关链接：
再次深度拆解：Deepseek利润率高达85%，推理效率领先一个数量级，彻底颠覆认知！（老罗的暗中观察） (https://mp.weixin.qq.com/s/AxzY9QQ2Ea49CazUfNwT2A)
回应争议：Deepseek真实利润率是多少？到底需要多少算力？ (https://mp.weixin.qq.com/s/rpuTnottr6x49NY7o76AkA)
光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？ (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a)
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
104: 我给线性注意力找“金主”，字节 say No，MiniMax say Yes
3 mar· 晚点聊 LateTalk
「继续来聊“注意力”，不止技术，也有研发故事。」
（本期因录音 bug，音质有波动；不时出现“变声期”，请见谅。）
上期，我们与清华的两位博士生，肖朝军和傅天予，聊了稀疏注意力机制的改进，也以注意力为线索，串起了大模型的优化史 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)。上期主要聊了稀疏注意力。
这期，我们来聊注意力机制的另一大改进方向：线性注意力。
MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01，01 就用到了他们开发的线性注意力机制，lightning attention。
本期，我邀请了这个项目的负责人，MiniMax 高级研究总监，负责 01 模型网络架构的钟怡然，来与我们一起聊研究线性注意力的研发过程。
钟怡然曾担任上海人工智能实验室青年科学家，是新架构探索组的 PI，也就是项目负责人；他在澳洲国立大学获得博士学位，师从李宏东教授和 Richard Hartley 院士。
在 2021 年，线性注意力还是一个“看起来很美好的泡泡”，怡然和团队就开始探索线性架构的实现。
当 2024 年年中，MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时，线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板，投了公司超过 80% 的研发资源。
当然，训练模型不是戏剧性的梭哈。在训 01 前，MiniMax 团队通过 3700 次预训练测试，去预测这种新架构在更大参数的模型是否也有好的表现。（这其中不少都是小规模实验。）这期节目，我们完整聊了这个过程。
在效率上线上，从计算方法推导，当序列非常长，线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上，也就是线性注意力的模型，能否和 Transformer 模型一样聪明，甚至更聪明。现在还没有谁能给出有绝对说服力的答案。
这也是之后 MiniMax 的技术进展，可能会揭晓的悬念。
本期嘉宾：
钟怡然，MiniMax 高级研发总监
时间线跳转：
- MiniMax 开源：为什么第一个模型选了 01
05:46 开源是为了展示架构创新，吸引更多人才
08:20 开源后社区反馈集中在推理效率与多模态支持，MiniMax 把推理优化贡献到了开源框架 vLLM 中
10:20 开源要有影响力需要更多工作，MiniMax-01 当前开源版本参数过大，个人开发者确实参与受限
- MiniMax-01 中的线性注意力改进：7 混 1 结构，100 万 Token 序列长度下提速 2700 倍
13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序，将复杂度从二次降至线性
15:26 稀疏注意力（如NSA、Mobile）在小模型表现尚可，但线性注意力在参数规模扩大后优势显著
20:23 纯线性注意力在召回能力（如“大海捞针”任务）上存在缺陷，团队通过混合架构（每 7 层线性注意力加入 1 层 Softmax 注意力）优化
27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速，同时模型效果优于纯 Transformer
28:27 3700 次小模型实验验证架构可扩展性，扩大规模前要做充分验证
- 21 年开始的线性架构研发之旅：从“美好的泡泡”到 4560 亿参数大模型
30:24 2021 年开始做线性注意力研发时，它还是一个“美好的泡泡”
35:19 “我们是最懂线性注意力的人”，为什么这个模型不诞生在我们手上？
41:20 50% 的把握，投 80% 的资源
42:46 上规模后，发现了召回缺陷；一张大表，3700 个预训练任务
50:46 一个测试例子：MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5，可能和数据构造有关
52:52 线性架构也许是更适合推理模型的架构
01:00:51 线性架构能 work，仍是非共识
- “道心”之争
01:02:00 钟怡然坚信线性注意力是“无损优化”，混合架构效果甚至优于传统Transformer
01:11:23 MiniMax计划4月发布深度推理多模态模型，整合线性架构、原生多模态与强化学习
01:22:18 AGI愿景 vs 竞争驱动：DeepSeek 爆火后，但不改变产品是技术最大的证明
相关链接：
103：用 Attention 串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进 (https://www.xiaoyuzhoufm.com/episode/67bf356952a6af799c558399?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
99：MiniMax创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
71：“如果相信只靠 Scailng Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能 (https://www.xiaoyuzhoufm.com/episode/6668d95ebb0f9563f6302495?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
101：与王小川聊AIX医疗：通向“生命科学的数学原理” (https://www.xiaoyuzhoufm.com/episode/67aaefa541b8e4a63c93c03d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
103 期晚点聊图文版：《大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g)
附录：
QKV 计算：Query-Key-Value计算，注意力机制中用于生成上下文感知向量的核心步骤。
Mamba：由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
Jamba：由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。
vLLM：由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。
有损优化：以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。
无损优化：在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。
（另，更多关于线性注意力机制的术语也可见上期注释）
剪辑制作：Nick
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进
26 feb· 晚点聊 LateTalk
「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」
（题图：levelsio.com 上售卖的 Attention 鸭舌帽。）
本期图文版：《大模型 “注意力简史”：与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 (https://mp.weixin.qq.com/s/cByoldudiAuyUBaVhzrG3g)
上周，DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果，分别是 NSA、MoBA（GitHub） (https://github.com/MoonshotAI/MoBA)。他们都聚焦到了对大模型中的“注意力机制”的改进。
注意力机制是大语言模型（LLM）的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文，标题就是：Attention Is All You Need（注意力就是你所需要的一切）。
而优化 Attention 的计算效率和效果，又能帮助解决，AI 学界和业界，都非常关心的一个问题，就是长文本，long context——不管是要一次输入一整本书，让模型能帮我们提炼、理解；还是在现在用强化学习来提升推理能力的范式转型后，需要生成长思维链；又或者是，我们未来希望模型有越来越长的“记忆”，这都需要长文本能力的支持。
这期节目，我们邀请了两位也做过 Attention 机制改进的 AI 研究者，一起聊 attention 它是什么，过去的瓶颈在哪儿，以及最新的 NSA、MoBA 这些成果带来了哪些启发；和未来注意力机制及更广泛的长文本能力提升上，有哪些趋势和方向。
本期嘉宾：
* 清华自然语言处理实验室的博士肖朝军，他是 InfLLM（GitHub） (https://github.com/thunlp/InfLLM)注意力机制改进的一作，导师是清华计算机系的刘知远。（Email：[email protected]）
* 清华 NICS-EFC 实验室的博士傅天予，他是 MoA（GitHub） (https://github.com/thu-nics/MoA)注意力机制改进的共同一作，导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。（Email：[email protected])
NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion（GitHub） (https://github.com/thu-nics/FrameFusion)。
他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。
注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释，希望可以帮大家更好得理解。
如果你虽然不是一个 AI 从业者，但又因为兴趣、好奇或工作需要，非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目，这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。
让我们一起学习起来！
不是每个人都需要或有精力去了解 AI 底层技术，但很多人都会被 AI 影响，都需要“智能思维”。
时间线跳转
- 注意力机制是什么 & 工作原理？
00:05 注意力机制是大语言模型的核心，优化注意力机制计算效率与效果对长文本处理至关重要
06:00 注意力机制本质是建立词与上下文的动态关联，解决传统 RNN 的遗忘问题
10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘，但面临存储与计算复杂度瓶颈
12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸，稀疏化成为改进选择
15:25 稀疏注意力与线性注意力（RNN 思路）是注意力机制两大改进方向，各有优劣
16:27 之前稀疏注意力更主流，但 Mamba 之后，线性注意力也比较火
18:27 算法、系统、硬件三层优化共同提升效率，如 MoE 与生成范式革新也能帮助处理长文本
详解 NSA 与 MoBA：都是把稀疏注意力引入了训练阶段
21:06 动态稀疏效果更好但计算效率低，静态稀疏（如滑动窗口）更高效但效果受限
24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化，解决训练与推理的机制差异
30:27 NSA 与 MoBA 均采用动态与静态混合策略，块状稀疏设计适配硬件特性
24:55 稀疏训练突破性能上限质疑，NSA 论文证明效果可超越稠密注意力
27:23 长思维链（CoT）与 RL 需求推动稀疏注意力落地训练阶段
36:50 块状稀疏设计（Block-Level）优化 GPU 并行与内存访问效率
42:06 NSA 实测推理加速显著，MoBA 强调保留关键注意力头提升长程关联
48:21 实验关注训练曲线稳定性与长 CoT 生成能力，而非传统 Benchmark
---两篇paper 中的训练曲线（Training Curve）的图示：
https://hv.z.wiki/autoupload/20250226/dn16/1006X608/MoBA_figure3.png
上图：MoBA 论文中的 Figure3
https://cdn.z.wiki/autoupload/20250226/3Plc/1594X1050/NSA_Figure4.png
上图：NSA 论文中的 Figure4
未来方向与 AGI 的终极想象
55:32 存储压缩与多模态长序列处理是下一阶段关键挑战
57:55 记忆架构需突破全存与固定存储的极端，探索类人动态决策机制
01:02:04 长文本能力支撑多模态推理（视频、科研）、情感记忆与知识服务
01:16:28 AGI 需具备科研能力突破知识边界，记忆与效率优化是底层支撑
01:22:03 自组织 AGI 可能颠覆人类对智能的定义，动机与伦理仍是未知领域
总结与预告
01:26:38 稀疏注意力解决存储与计算瓶颈，训练阶段改进适配 RL 与多模态需求
01:27:21 线性注意力（如 MiniMax 01）是另一重要方向，下期节目将深入探讨
相关链接
AI 视频科普视频推荐：1hr Talk Intro to Large Language Models （Andrej Karpathy) (https://www.youtube.com/watch?v=zjkBMFhNj_g)
月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖 (https://mp.weixin.qq.com/s/mYVFIE61q4Hzv_d5iCw7PA)
晚点聊 102: DeepSeek 启动开源周，大模型开源到底在开什么？ (https://www.xiaoyuzhoufm.com/episode/67bd286dfd2cbe6cd771675d?s=eyJ1IjoiNjBkODRlZTVlMGY1ZTcyM2JiNzdiOGYwIn0%3D)
附录
（基本按本期播客中的出场顺序）
稀疏注意力：仅关注输入序列中部分关键位置的注意力机制，降低计算复杂度。
稠密 VS 稀疏：稠密指数据/计算全连接；稀疏指仅部分连接，效率更高。
稀疏计算：仅处理非零数据的计算方式，显存和算力需求更低。
稠密计算：处理所有数据的计算方式，计算量较大但精度高。
128k、1M 等：是在描述文本的长度，128k 就是 12.8 万。
显存：显卡存储空间，用于存放模型参数和计算中间结果。
算子：基础计算单元（如矩阵乘法），硬件加速优化的核心对象。
Sequence 序列：有序数据集合（如文本、语音），模型处理的基本单位。
RNN 循环神经网络：通过时序传递状态处理序列数据的神经网络架构。
梯度消失、梯度爆炸：反向传播中梯度指数级减小或增大，导致模型无法训练。
Token：文本的最小语义单元（如词、子词），模型输入的基本元素。
长文本：模型支持处理的超长输入序列（如数万token）。
BERT：由Google在2018年提出的基于双向Transformer的预训练语言模型。
Full Attention：标准注意力机制，计算所有位置间关系，复杂度O(N²)。
N方复杂度：计算量随序列长度N呈平方增长（如O(N²)）。
Softmax：归一化函数，将向量映射为概率分布。
Softmax Attention：标准注意力实现，含Softmax计算相似度权重。
Attention Score：注意力权重，表示输入位置间相关性强度。
Mamba：由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
线性注意力：通过核函数近似实现线性复杂度的注意力机制。
Tri Dao、Albert Gu：两位 AI 研究者，其中 Tri Dao 是 FlashAttention 的作者，两位也都是 Mamba 的作者。
FlashAttention：由斯坦福大学在2022年提出的显存高效注意力算法，通过分块计算减少IO开销。
MoE 混合专家系统：动态路由至不同子模型提升容量的架构。
MLA：多层注意力机制，增强模型复杂模式捕获能力。
Mooncake：Kimi 和清华大学联合开发的大规模稀疏训练框架。
GitHub 库：代码托管平台，开源项目协作与版本管理工具。
预印本平台（arXiv）：学术论文预发布平台，加速研究成果传播。
长思维链：扩展版思维链提示，通过长推理步骤提升模型表现。
Block：计算或数据的基本分块单位（如Transformer块）。
Triton：由OpenAI开发的GPU编程语言与编译器，支持高效自定义算子开发。
Decoding 阶段加速：减少生成式模型逐token输出的推理延迟。
Query：注意力机制中用于匹配Key的向量。
Training Curve：训练过程中指标（如损失）随迭代的变化曲线。
消融实验：逐步移除模型组件以验证其贡献的实验方法。
KV Compression：压缩注意力中的Key-Value缓存以节省显存
KV Eviction：淘汰不重要Key-Value，维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及）
FrameFusion：视频多帧融合技术，提升时序建模效果。（讨论多模态注意力优化时，天予提到的清华 NICS-EFC 实验室最近开源的一个成果）
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
102: DeepSeek 启动开源周，大模型开源到底在开什么？
25 feb· 晚点聊 LateTalk
「与西北大学（NU） MLL Lab 博士生王子涵“逛”开源。」
（题图：开源大模型推理框架 vLLM 的 GitHub 页面截图，该项目已有 800 多社区贡献者。）
上周五，DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库，进入 open-source week，开源周。
我们录制节目的这天是周一，DeepSeek 也正式放出了开源周的第一个开源项目 FlashMLA。
https://cdn.z.wiki/autoupload/20250225/6cwf/892X1260/%E6%88%AA%E5%B1%8F2025-02-25_01.15.27.png
我一直很想和人好好聊一下，大模型开源是在开什么，怎么开。比如相比闭源模型，开源要额外做一些什么工作，才能让社区比较好地理解到这个开源成果，以及能更充分地把开源用起来。
正好在 DeepSeek 这个开源周，我邀请到了正在美国西北大学 MLL lab 攻读博士学位的王子涵。
子涵今年刚博一，之前毕业于人大，大四时，也就是 2024 年，他曾在 DeepSeek 实习半年，今年暑假即将前往一家美国 AI Agent 从创业公司，Yutori 实习。
随着 DeepSeek 在春节的爆火出圈，开源也正成为一种趋势：之前一直模型闭源的一些公司，如 MiniMax、阶跃星辰，从 1 月到现在都陆续发布了自己的第一批开源模型。
之前选择保留自己最强模型闭源，开源较小版本模型的公司，可能也会在 DeepSeek 的冲击波里有新选择。
这期我和子涵聊到了开源模型不同的层级，主要有技术报告，模型权重，推理框架，训练框架，还有数据集。现在我们说一个模型是开源的，一般指的是有技术报告也开放了模型权重。再往下更深入的开源，是推理框架和训练框架。而现在只有极少数的机构，比如 Allen AI 研究所，他们也开放过预训练的数据集。
我们也在一起围观 DeepSeek 开源周的过程中，回顾了他们之前开源模型的一些重点优化思路，以及他们为了让社区充分理解和使用开源成果，而专门花费心力去规范代码，写详细的技术报告。这背后是一个组织对优先级的选择。
而在本期最后，子涵也分享了一个自己成为开源模型滥用“受害者”的亲身经历。开源在加速技术进化，如 DeepSeek 开源周 twitter 预告里所写：acclerates the journey；也带来一些隐患，需要整个领域一边开源，一边探索解决。
马斯克曾经说：“有人问我是不是想死在火星上，我说当然，但不是死于（登陆器降落时的）撞击。”
登场人物：
嘉宾：王子涵，西北大学 MLL Lab 博士生（个人主页 https://zihanwang314.github.io）
主播：程曼祺，《晚点 LatePost》科技报道负责人
剪辑制作：甜食
本期节目中提及的一些开源项目的 GitHub 页面：
DeepSeek：https://github.com/deepseek-ai
DeepSeek/Open-Infra-Indes：https://github.com/deepseek-ai/open-infra-index
DeepSeek/FlashMLA：https://github.com/deepseek-ai/FlashMLA
vLLM：https://github.com/vllm-project/vllm
SGLang：https://github.com/sgl-project/sglang
字节跳动/Verl：https://github.com/volcengine/verl
DeepSeek/ESFT：https://github.com/deepseek-ai/ESFT
本期节目涉及一些AI 项目、机构，见 shownotes 末尾附录。
时间线跳转：
-DeepSeek 开源周指向 Infra，已放出第一个库 FlashMLA
02:20 过往实习、工作中的开源项目
03:18 王子涵分享自己开源工作，包括在数研时做的 agent 相关 benchmark，以及参与 DPCVR 研发和关于 DPCRY 加 agent 的开源报告。
05:17 DeepSeek 开源周预告，强调 Small but sincere；第一个库已发布：FlashMLA；未来开源方向推测
09:30 FlashMLA，一个用 C++ 语言写到算子层的推理框架优化；像 DeepSeek 这样做大量更底层算子优化的努力比较难
17:14 FlashMLA GitHub 反馈（issues）速览：有人想要 FP8，有人问何时支持 NPU？
-一起来逛 GitHub 库，大模型开源是在开什么
19:23 一起逛 GitHub 仓库（Repo），在开源项目里该看什么？
·看 license（开源协议），DeepSeek 惯常使用的 MIT 协议，开放、简洁、免责
·看 readme，树状学习库的基本信息，需要的环境、如何部署
·子涵更喜欢看 issues，而不是 star，issue 反映多少人在深度玩这个库；PR（Pull Requests）是更深度的代码贡献。
31:30 大模型开源到底在开什么：技术报告、模型权重、推理框架、训练框架、数据集。一般一个开源模型都有技术报告和权重，但推理和训练框架的代码和数据集则不一定，尤其是数据集。
35:23 vLLM、SGLang，两个活跃的开源推理库；模型权重的下载途径；字节其实开源过一般较少开源的训练框架（Verl）
41:25 数据开源几乎没有，主要是出于信息敏感性和安全性考虑。
42:38 除了数据集，DeepSeek 已开源过上述各部分，其中子涵参与的 ESFT 工作就也开源了训练框架。
44:16 从闭源到开源，需要 another layer of hard work：如规范代码、适配开源推理或训练框架。
-不同的开源策略：开源最强模型 VS 有所保留
49:14 不同开源策略主要和盈利模式与诉求有关。不靠 API 赚钱或期望推动更大格局变化（如形成标准）可能选择开源最强模型；另外，一些非盈利机构也会“非常开”，如 Allen AI 和 EleutherAI，罕见地开源了数据集。
51:29 是否会看到 OpenAI 开源最强模型？不确定。Sam Altman 在 twitter 发起投票的两个开源选项（o3-mini 和 phone-sized model）都值得期待。
52:36 子涵分享一个大模型滥用案例：自己推特账号被黑经历，“受害者”现身说法。
53:32 Ilya：“if you value intelligence above all other human qualities, you’re gonna have a bad time.”
附录：
Allen AI（Allen Institute for AI）：已故微软联合创始人、慈善家保罗・艾伦于 2014 年创立的非盈利研究机构
Eleuther：一个草根、非盈利 AI 研究机构
FlashAttention：基于分块计算的注意力优化技术，减少内存占用并提升效率
MLA：多头潜在注意力机制，优化长序列处理效率
vLLM：大语言模型推理框架，优化显存管理和吞吐量
SGLang：结构化生成框架，支持灵活域特定语言控制
ESFT（Expert Specialized Fine-Tuning）：专家特化微调技术
NPU：神经网络处理器（一种 AI 芯片），专为深度学习计算优化能效
FP8：混合精度计算格式，平衡性能与数值稳定性
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
相关链接
光年之外联创再出发，与袁进辉聊 AI Infra 到底做什么？ (https://www.xiaoyuzhoufm.com/episode/65b19c9bc2bedd4be809a48a)
DeepSeek Inside：彻底的技术开放，成就的商业奇观 (https://mp.weixin.qq.com/s/6m5V3qG1LHILH_Y4YvouJQ)
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
101: 与王小川聊AI✖️医疗：通向“生命科学的数学原理”
11 feb· 晚点聊 LateTalk
「从把物理变数学，到把语言变数学，再到把生命变数学」
将近 8 个月没有更新大的模型版本后，百川在春节前发布了推理模型 Baichuan-M1-Preview。在一批头部大模型公司中，百川在 24 年年中明确做出了选择：聚焦医疗。
这是王小川长久的关注，他说：2000 年，他研究生的毕业论文就是做基因测序的拼接算法，当时他就想知道，生命的数学原理是什么？因为发现数学、物理等科学体系不足以解释生命了，他还去研究了中医，也投资过中医公司。他认为中医是一种哲学。
在 2023 年成立的百川上，王小川统一了他对生命科学的长久关注与追求 AGI。这让成立之初，讲通用模型和应用的百川看起来 “变了” 、 “慢了”，也走到了焦点之外。去年，百川既不参与模型 API 价格战，也没有跟进投流大战。
社交媒体上出现不看好百川的声音。也有投资人告诉我：“百川其实是最稳的大模型独角兽之一”——累计融资超 50 亿元，却没怎么烧钱。
在百川发布新模型 M1 后，我们访谈了王小川，聊了百川做医疗的源起，王小川理解的 AGI 与医疗和生命科学的关系，以及百川已经发生的落地实践——2025 年一季度，每个海淀居民就可能有一个 AI 医生助理。
多数人认为做医疗是转向垂直领域，王小川的逻辑则是：医疗不是垂直场景，因为任何一个 AI 技术在医疗上都有用武之地，它不会被今天的 AI 淹没掉。
当更多同行与科技大公司在同一个战壕里厮杀时，强调创业要“走出大厂射程之外”的王小川看到了什么？以下是他的阶段性回答。
登场人物：
嘉宾：王小川，百川智能创始人兼 CEO
主播：程曼祺，《晚点 LatePost》科技报道负责人。
时间线跳转：
- 中国公司快速做出推理模型
03:28 内蒙古脑梗患者案例，百川 M1 给出的诊断方向与协和医院会诊高度吻合
03:41 走向开源是既定计划，方便医疗行业上手调优
06:09 快速追 o1：蒸馏不是秘密
07:35 DeepSeek “技术慢半步”超出预期
- 造医生等于 AGI，医疗不是垂直领域
12:53 成立百川时就想做医疗，2016 AlphaGo 和魏则西事件带来的思考
14:48 2000 年就做基因测序拼接算法，好奇生命的数学原理，研究中医
17:21 ChatGPT 带来的判断：语言是中轴，AI 不是第四次工业革命
20:36 为什么成立时未特别强调医疗？
21:20 为何医疗不是垂直？ & 团队反馈
- 落地应用：北京儿童医院、海淀区
26:47 与北京儿童医院合作，为什么从儿科开始
30:52 今年一季度，每个海淀居民会有 AI 医生助理
31:57 三种付费方式：政府、医院和商保等；另一个机会是出海
36:53 做大模型后“见过的省长和市委书记比过去都多”
38:45 招投标过程分享
- 医疗，怎么继续超级模型+超级应用？
40:37 训练医疗超级模型成本更高，但有相应价值。
42:47 中国一年就诊人次超 84 亿
45:24 医疗行业不会被通用智能吃掉，因数据、场景特殊性
- 语言是主轴，直接用图像、视频训练是走偏了
47:56 M1 有多模态，主要是为了交互，多模态不能开辟技术赛道
48:21 o1 验证了语言是智能主轴
51:18 下一个范式迁移是 AI 自己造工具
52:57 怎么看“Yann LeCunt 认为只靠语言无法让 AI 理解真实世界规律”？
56:19 更远的未来：义体化、攻壳机动队、AI 延续“人类文明”
- 从搜狗到百川58:30 两次创业比较
01:02:02 需要更多年轻人
01:05:13 去年一年，创造了什么？健康、快乐吗？
01:06:57 室温超导带来“蒙圈”，参与 AI 浪潮的幸运
01:14:05 99.99% 的人低估了变化，大模型有望让世界更平
01:15:53 2025 年的两个期待
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
本期访谈图文版：
晚点对话王小川|不是文本创作、不是物理模型，AGI 的尽头是生命科学 (https://mp.weixin.qq.com/s/o7wg-YavNVPm-KJxFpJ9uA)
往期 AI 大模型播客
MiniMax 创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑 (https://www.xiaoyuzhoufm.com/episode/678daf93cabd7f95693c8d6c?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
李开复聊零一部分团队并入阿里：只有大厂能追逐超大模型 (https://www.xiaoyuzhoufm.com/episode/678618621bea9ab60c4dfefc?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
硅谷怎么看 DeepSeek？与 Fusion Fund 张璐聊开源、Agent 和“除了AI” (https://www.xiaoyuzhoufm.com/episode/6799dea77c3a804d89fd93f2?s=eyJ1IjogIjYwZDg0ZWU1ZTBmNWU3MjNiYjc3YjhmMCJ9)
剪辑制作：甜食
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
100: 硅谷怎么看 DeepSeek ？与 Fusion Fund 张璐聊开源、Agent和“除了AI”
29 jan· 晚点聊 LateTalk
「技术的力量，开源的力量，初创生态的力量」
2025 年 1 月，农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1，以相对低的成本，在一些 Benchmark 上比肩，甚至超越了 o1 的表现，在全球掀起了广泛讨论。
这期节目，我们邀请了 2015 年，在硅谷创立了 FusionFund 的投资人张璐，来和我们一起聊一聊，当前美国科技圈和硅谷语境中，对 DeepSeek 等模型的讨论。
我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent（智能体）应用空间；以及在美国的科技投资视野中，除了 AI ，大家还在关注什么。
FusionFund 曾投资 SpaceX、AI 音频公司 Otter.ai 还有 AI 与医疗结合的公司 Subtle Medical 等。在 AI 领域，Fusion Fund 重点投资美国本土的 to B AI 公司，关注 AI 与医疗、太空科技等领域的结合。
张璐认为，DeepSeek 能有如此出圈的影响力，重要原因之一是开源生态的胜利，而开源的繁荣更有利于初创企业。
张璐也谈了她对“DeepSeek”利空英伟达和 GPU 算力需求，以及 Meta 等美国科技大公司感到的压力。
她的观察是，长线看，DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果，会促进更多公司把 AI 大模型带到各行各业，这会提升 AI 用量和算力需求，对算力并不是一个利空。
对 Meta 这样大力投入开源的大型科技公司，张璐认为，它们的一些贡献和整个开源社区的进展，本身是 R1 这类成果出现的条件之一，同时 Meta 作为美国 AI 开源生态的主要玩家之一，也会长期受益于开源的繁荣。
我们聊这期节目时，是 2025 年 1 月 27 日上午，当天晚上，英伟达股价大跌超 17%，市值蒸发超 5000 亿美元。
这次波动幅度超出一些人的预期，但也许并不影响长期的趋势判断。1 月 28 日，英伟达又反弹 8%，股价从前一天最低约 116 美元回升至 129 美元。你“抄底”了吗？
登场人物：
嘉宾：张璐，Fusion Fund 创始合伙人
主播：程曼祺，《晚点 LatePost》科技报道负责人。
时间线跳转：
- DeepSeek“冲击”，开源生态的胜利
02:51 张璐达沃斯峰会期间，各路商业领袖讨论 DeepSeek
04:13 去年年中，Anthropic 和 OpenAI 的朋友就提及过 DeepSeek
04:59 R1 的“惊喜”来自：1.开源 2.跳过监督学习的强化学习 3.成本优势
08:03 这对 Scaling Law 是好消息：可免除大量标注数据，结合更多合成数据，让模型自我“反思”
12:27 一直相信开源的力量，开源更利好初创生态
15:30 DeepSeek 改变大家对中国模型的印象：工程优化外，底层架构也有创新。
16:46 AMD 宣布与 DeepSeek 合作，但这也不是利空英伟达，因为DeepSeek 等成果会降低更多行业使用大模型的成本门槛
19:55 Meta 短期有公关舆论压力，长期受益开源繁荣
23:06 DeepSeek V3 557 万美元训练费用，只算了 GPU hours
25:29 OpenAI 的秘密武器？是否低估了开源与闭源的差距？
28:09 X.ai 的特别优势：有 3D 产业数据（Tesla、SpaceX 的生产、产线数据等）
30:32 DeepSeek 的“诗意输出” ：模型有不同“性格”，不同语言也可能带来不同“思维方式”
33:12 2025 年 AI 升级方向：垂直小模型、AI 进入边缘设备、架构创新
- 推理模型带来的 Agent 机会
40:08 试用 OpenAI Operator，目前还很慢，会编造信息，但前景美好；Salesforce、微软等大公司在布局行业 Agent。
43:50 Sam Altman 称很快会让 ChatGPT Plus 会员（20 美元/月订阅）用上 Operator，这话得“打折”听。
45:25 美国 B 端客户对准确性和专业度要求高，对当前 Operator 的形态接受度低，更希望获得专业、精准产品。
46:50 Operator 与传统 RPA（流程自动化）的区别：交互革新。
49:36 医疗、金融、保险、太空科技领域都有 Agent 应用机会。
53:33 Agent 隐私问题——一个实例：人们更喜欢向机器/AI倾诉疾病困扰。
56:15 AI Native 的一代：一出生就和 AI 玩具聊天的孩子们
56:33 美国基于开源基座模型+第三方 infra 服务+应用，生态活跃；而国内投资人有时担忧只做一个环节的公司太轻，易被巨头挤压。
01:03:04 硅谷创投圈的热闹，每周有新东西，幸福感高，竞争压力也大。
- 除了 AI
01:06:23 科技和生命科学结合（Bio Tech）& 太空科技（Space Tech）
01:10:15 美国创新核心在硅谷，波士顿、纽约、奥斯汀、洛杉矶也在崛起，如洛杉矶形成了 Space Tech 聚集地。
01:13:40 2025 年充满变数，期待更好保护创新生态，防止技术和资源被大企业垄断。
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
相关链接：
OpenAI 来了！与硅基袁进辉聊 o1 新范式和开发者生态 (https://www.xiaoyuzhoufm.com/episode/66e8c476c1c200f20dbcfac8)
DeepSeek 爆火引发系列连锁反应，Meta 建立 4 个小组研究 DeepSeek (https://mp.weixin.qq.com/s/q5nQDxu4RVHrYJOfiHtq5A)
剪辑制作：阿鲸Hval
本期主播：小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)，即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/%E6%92%AD%E5%AE%A2-%E7%BB%93%E5%B0%BE%E4%BD%9C%E8%80%85%E7%AD%BE%E5%90%8D.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：
https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/%E6%92%AD%E5%AE%A2%E7%BB%93%E5%B0%BE%E6%88%AA%E5%9B%BE.png
封面：AI 生成的数字巨鲸。
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
99: MiniMax 创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑
20 jan· 晚点聊 LateTalk
更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。
头图是 Dota 2019 国际邀请赛决赛（TI9）中，OG 战队的 Ana 使用 IO（小精灵，图中球形发光体）的经典作战，OG 在 TI9 中夺冠。为什么用这个图，播客里有答案~
经过 “一切在加速” 的 2024 年，围绕中国大模型创业的讨论，从 “谁又融资了？” 变成 “谁会第一个倒下？”
行业分化时刻，我们访谈了中国大模型六小龙之一，估值已超 30 亿美元的 MiniMax 创始人兼 CEO 闫俊杰，聊了 MiniMax 的新技术目标，他们刚刚发布的首个开源模型系列 MiniMax-01 ，去年一年公司的变化和人员调整，以及闫俊杰作为一个“练习时长 3 年”的“新人 CEO”的自我复盘。
10 个月前，我们就访谈过一次闫俊杰。那次他提了很多字节；这次再聊，明显感到他主动提字节少了，提 Anthropic 多了。这与行业风向形成微妙的反差。
在他更在意字节的 2024 年 3 月，大模型创业最是烈火烹油。而现在，越来越多人开始讨论大厂对创业的压力，MiniMax 本来是看起来相对 “安全”：它的 AI 社区产品 Talkie 的最新月活用户数已超过 Character.ai，成为同类产品全球第一；其在中国的 AI 社区产品 “星野”，用户数、使用时长和留存率也都是第一，高于字节旗下的同类产品。
闫俊杰却自己推翻了这些优势，在他现在的认知里，用户数等指标并非 AI 竞争的核心，他说：
- 千万别套用移动互联网的逻辑来做 AI。
移动互联网的逻辑是：用户越多，反馈越多，推荐算法越聪明。而闫俊杰认为，AI 大模型和产品的真实关系是：
- “更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。”
在这个认知更加明确后，闫俊杰说他做出了取舍，现在 MiniMax 最重要的目标不是增长，也不是收入，是 “加速技术迭代”。
不到一年的两次访谈，我们从聊移动互联网到聊跳出移动互联网的逻辑，从讲 2024 年的目标到闫俊杰复盘当时定目标的逻辑就不太对——AI 行业和其中的人都在快速变化与迭代。
时间线跳转：
·聊 MiniMax-01 新模型系列：为什么开源？
02:12 为什么开源——加速技术迭代 & 加强技术品牌
08:22 行业误区：认为更好的智能水平要依赖更多的用户；其实不然
13:01 想清楚这个逻辑后：模型要追求不断提高上限，而产品就是产品
15:11 明确 MiniMax 是一家技术驱动的公司
·聊对技术的态度：“一年前最喜欢说信仰的人，信仰都兑现了吗？”
18:01 “随热点而动？”这是对我们的误解
20:13 现在没人能定义什么是 AGI，只能定义智能水平会不断进步
22:00 作为创业者，不是说 Scaling Law 撞墙了我就放弃了，而是努力找方法延续它
23:59 一年前最喜欢说信仰的人，信仰都兑现了吗？
·聊 Agent：long-context 很重要，探索 coding 之外的 Agent 场景
25:31 Agent 能处理复杂任务，复杂任务指在专业领域达到专业人士水平
27:51 Agent 需要模型架构和能力的提升；MiniMax-01 做到了第一点
29:08 01 改传统 Transformer 里的非线性注意机制为线性注意力机制，提升了处理 long-context 的能力，这对单 Agent 交互质量，和多 Agent 通讯都很重要
35:07 为什么没发 o1 方向模型？
39:40 多模态能力在 OpenAI L1-L5 的 AGI 路线图里很重要
41:04 AI 编程助手 Cursor 的成功并不基于 o 方向的模型
41:51 蒸馏 o1 数据复现 o1，没那么难
44:09 编程之外另一 Agent 落地场景：信息的获取
51:09 中美模型的一个区别，前者缺少内部 benchmark
55:19 MiniMax 的技术团队特点：模型、Infra 和工程的综合能力强；客观、扁平、灵活
·聊模应一体：市场不是有 A，就不能有 B
01:01:38 模型、应用一起做，还有必要吗？
01:03:59 即使更晚创业，也不会做只做应用的公司，因为想做基于未来技术的产品
01:04:44 海螺文本的失利——没有坚持技术驱动
01:06:48 Talkie、星野的暂时领先——因为更懂用户
01:07:34 做技术的人大部分觉得自己很牛，但我不是这么认知世界的
·聊竞争：不要区分大厂和创业公司
01:07:56 不用把创业公司单独当一类公司
01:09:22 DeepSeek 也很纯粹；智谱第一个有 AI 路线图
01:09:59 MiniMax 的路线图？——逃出生天，下一步最重要
01:11:19 一年来大模型竞争最大的变化：更多人意识到这和移动互联网是两件事
01:12:29 没和字节谈过被收购，从来没想过把公司卖一个什么价钱
01:15:02 24 年没完成年初目标，定目标的逻辑就不太对
01:16:28 大厂投入和竞争激烈程度都在预料之内
01:18:46 AI 产品该看什么指标？
01:20:25 大公司之外，更大的“危险”还是来自自己的认知
·聊团队和自己：放下 ego，深度思考
01:22:49 不要假定团队没有流失，流失才是正常的
01:23:24 MiniMax 需要的两种人
01:25:48 确定研发优先级需要做取舍，不见得每个取舍都对，纠错很重要
01:26:56 CEO 决策什么不决策什么不重要，重要的是组织有共同决策标准
01:29:48 让所有人都觉得公司被管得很好，这不是一个目标
01:30:28 打造 AI 组织的难点：持续吸引更好的人
01:31:17 半年多前焦虑，现在不了，因为已做出取舍，以技术迭代为最大目标
01:32:08 去年反思最多的问题——认知能力为何不能提升得更快？
01:32:16 放下自我，思考得更深入
01:34:29 为什么一直被叫 IO？
01:36:38 25 年对自己的期待：不断提高技术水平
相关链接：
《晚点对话 MiniMax 闫俊杰：创业没有天选之子》2025 年 1 月 (https://mp.weixin.qq.com/s/VBnm3KCsYd4fuXcBpDgiaA)
《对话 MiniMax 闫俊杰：AGI 不是大杀器，是普通人每天用的产品》2024 年 3 月 (https://mp.weixin.qq.com/s/OXunu2wnNQv66rZIZLnW7g)
MiniMax-01 开源系列模型技术博客 (https://www.minimaxi.com/news/minimax-01-%E7%B3%BB%E5%88%97)
登场人物：
嘉宾：闫俊杰，MiniMax 创始人兼 CEO
主播：程曼祺，《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
剪辑：甜食
https://cdn.z.wiki/autoupload/20250114/HozC/1428X298/%E6%88%AA%E5%B1%8F2025-01-14_14.18.52.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章
https://hv.z.wiki/autoupload/20250114/3bhk/1452X514/%E6%88%AA%E5%B1%8F2025-01-14_14.18.17.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
98: 李开复聊零一部分团队并入阿里：只有大厂能追逐超大模型
14 jan· 晚点聊 LateTalk
「不再追求 AGI，他第一个讲了出来」
上周初开始，市场陆续出现有关零一万物的新调整传闻，关键词包括：“放弃预训练，资金链紧张、被阿里收购……”传闻出现的第二天，我们在零一万物办公地，中关村鼎好大厦，采访了李开复。
他解释了实际发生的变化：零一万物已经和阿里云成立了 “产业大模型联合实验室”，零一万物的大部分训练和 AI Infra 团队会加入这个实验室，成为阿里的员工，侧重超大模型研发。零一自己接下来会聚焦做更快、更便宜、更小，更能支持普惠应用的模型，同时自己做应用。
在李开复的描述里，超大模型和更快、更便宜、更小的模型的关系类似于“老师和学生”，超大模型可以通过标注结果和生成更多合成数据的方式帮更小的模型提升性能。
去年 5 月，我们也访谈过一次李开复，当时的话题是从中国“最年长的 AI 大模型创业者”开始的，在 2023 年创立零一万物时，李开复已经 62 岁。
和他行业地位还有人生阶段相似的人，更多会选择支持一个公司，而李开复这次是自己当 CEO，自己跳入了这场大模型的混战。
关于零一的新选择，有人认为是理性、务实，有人认为是收缩乃至“认输”。不管如何，在最新传闻后，李开复快速对外说明事实和阐释想法的姿态，展现了 CEO 的责任。当公司出现调整，CEO 是需要对内对外说明情况的人。
这次我又问了去年问过李开复的一个问题：功成名就时再来创业，会不会有心理包袱？
他的回答还是和上次相似。1983 年，李开复开始在卡耐基梅隆读计算机博士，当时他在研究计划里写：“AI 是人类认识并理解自己的最后一里路，我希望加入到这个全新绽放、充满前景的未来科学领域。”
李开复认为，这是他等了四十多年终于等到的 AI 时代，如果自己没有试一把，才是一个终身遗憾。
我们访谈李开复的两篇文字报道，我也贴在了 shownotes 的“相关链接”部分，感兴趣的听友可以阅读。
时间线跳转：
回应零一万物调整：“不会停止预训练，但不再追逐超大模型”
02:30 零一与阿里云成立“产业大模型联合实验室”，零一部分团队并入阿里
06:01 当开源追上闭源，任何公司没必要执着于自己预训练，但这件事现在还没发生
08:16 零一没有寻求过被收购
Scaling Law 在变慢；商业化灵魂拷问时刻已经到来
12:08 2024 年 5 月后，零一就做出抉择：聚焦更快、更便宜的模型；想做最大、最棒、最牛的模型，代价非常高，绝对不是一个初创公司可以做的事。
16:57 超大模型的作用是当 Teacher Model，提升较小模型的能力，Anthropic 和 OpenAI 都有类似实践
22:22 大模型时代，从技术竞争到商业落地拷问，一切在加快
25:13 不打打不赢的仗，不做看不到回报的大量投入
27:25 3 种 ToB 订单可以做：帮客户赚钱的；与行业客户紧密合作的；方案可复制性高的
“2025 年零一会有数亿收入”，怎么来？
33:32 2024 年获得超 1 亿元人民币实际收入
35:03 2025 年会和适合大模型的行业公司建合资公司，结合行业数据、Know-how 和零一的技术
中国大模型创业公司会全军覆没吗？——“没有任何概率”
38:26 谈团队变化：有人禁不住诱惑，有人想追寻超大模型
40:19 中国大模型创业公司全军覆没有多大概率？——“没有任何概率”，因为 AI-first 的应用会足够颠覆
44:01 AI-first 应用的特性：自然语言交互；有通用推理、理解能力；无 AI 不成立
45:11 中国大模型创业公司在应用和落地上会有更多优势，这是互联网和移动互联网验证过的逻辑。
“等了 40 多年，不试才是遗憾”
47:28 不后悔自己当 CEO，一线创业
49:43 2025 年，应用会爆发，零一会在垂直细分行业找到有大价值的 PMF
51:19 工作是工业革命留下的魔咒，如果有了 Super Agent，我会花更多时间和爱的人在一起，这是 AI 取代不了的。
52:45 “每一位都是勇士，我们应该彼此鼓励”
53:32 2025 年的新年愿望
相关链接：
《晚点对话李开复丨他第一个讲了出来，不再追求 AGI》（25.01） (https://mp.weixin.qq.com/s/D85OpN92ovxaPLzM4Uk1WQ)
《对话李开复：这次大模型创业，我十年都不会变现》(24.05) (https://mp.weixin.qq.com/s/tA8puGmIi2v1v6CTMPnksg)
登场人物：
嘉宾：李开复，零一万物创始人兼 CEO。
主播：程曼祺，《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810) 即刻 @曼祺_火柴Q (https://okjk.co/FBoH1Q)
剪辑：甜食
https://cdn.z.wiki/autoupload/20250114/HozC/1428X298/%E6%88%AA%E5%B1%8F2025-01-14_14.18.52.png
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
https://cdn.z.wiki/autoupload/20250114/en02/1991X754/%E6%88%AA%E5%B1%8F2025-01-14_15.34.07.png
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章
https://hv.z.wiki/autoupload/20250114/3bhk/1452X514/%E6%88%AA%E5%B1%8F2025-01-14_14.18.17.png
- Lyt Lyt igen Fortsæt Spiller...
- Lyt senere Lyt senere
Vis mere

Episoder

117: 印奇的AI创业14年：所有不能闭环的辉煌都是暂时的

116: 当AI研究者写科幻，与Meta田渊栋聊他的智能想象：我们终会“所思即所得”

115: 华为发布超节点，如何搅动AI算力市场？与魔形智能徐凌杰聊芯片层新变化

114: 秘塔闵可锐2：“我不是演员”

113: 秘塔闵可锐1：回到故事开始，那些「神预言」

112: 与千寻高阳聊具身：一个像机器人的人，怎么做像人的机器人

111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端

110: 与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专

109: 数字生命卡兹克如何用 AI：把任何重复3遍的事AI化

108: 与马毅聊智能史:“DNA是最早的大模型”，智能的本质是减熵

107: 与Haivivi李勇聊月入千万的AI Jellycat：小众AI硬件×大众消费品的交叉口创业

106: 与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need

105: 潞晨尤洋争议中谈三方云平台 DeepSeek 成本：为何我不做 MaaS 了？

104: 我给线性注意力找“金主”，字节 say No，MiniMax say Yes

103: 用Attention串起大模型优化史，详解DeepSeek、Kimi最新注意力机制改进

102: DeepSeek 启动开源周，大模型开源到底在开什么？

101: 与王小川聊AI✖️医疗：通向“生命科学的数学原理”

100: 硅谷怎么看 DeepSeek ？与 Fusion Fund 张璐聊开源、Agent和“除了AI”

99: MiniMax 创始人闫俊杰：做大模型，千万别套用移动互联网的逻辑

98: 李开复聊零一部分团队并入阿里：只有大厂能追逐超大模型