scripod.com

113: 秘塔闵可锐 1:回到故事开始,那些「神预言」

晚点聊 LateTalk

Shownote

「我现在有一个判断,很多人会认为是胡说八道:在这一轮大模型热潮里,中国投资人很可能会集体 miss。」 今天,《晚点聊》一次发了两期节目,嘉宾都是秘塔创始人,闵可锐。一次访谈发生在 2023 年年初,另一次是在最近。本期,是 2023 年 3 月中旬的那一次访谈。 那是中国大模型热潮的开端,王慧文刚自己投资 5000 万美元,成立光年之外,月之暗面还在组建,六小龙的名号还没有兴起,DeepSeek 还没有正式成立,字节等大公司也没有充分展现对 AI 的志在必得和激进投入。 秘塔当时已是一家成立近 5 年的公司,推出了法律翻译、秘塔写字猫等多款 AI 应用。现在更为人熟知的秘塔搜索则还没有上线。 回顾这次发生在热潮开端的讨论,恍若隔世,也有很多先见之明。那时可锐就有一些犀利的观察和观点,包括: * 中国 VC 可能会集体 miss 掉一位最有雄心的中国大模型创业者。 * 在大模型领域,传统的组织人才方式不 work。 * 真正的天才想法很难被媒体和大众所认知。 * 预训练很重要,是范式转变,具体到 Transformer 架构,其实没那么重要。 * (2023 年上半年)未来半年各大厂商将密集发模型,但热潮不可持续,拿不到正反馈的团队将很快退场,速生速死。 * AI 产品领域的创业是战国时代,不论个人开发者和大厂之间,还是大厂和大厂之间,进入到一个所有人在 PK 所有人的状态。 * 研发投入 95% 是浪费,而且你不知道哪 95% 是浪费的。一流 researcher 能节约 80% 的成本,但大部分组织没能力知道谁是一流的 researcher。 在秘塔刚成立的 2018 年,闵可锐就写过一篇文章,叫《关于机器学习的前尘往事》(见 shownotes “相关链接” 部分),这篇文章已经提到了当时 Anthropic 创始人,Dario 在百度工作期间,发现的 Scaling Laws 的雏形。这篇文章开头,是模仿《百年孤独》经典开篇的一个 AI 小故事。其中提到了 108 期节目中,马毅老师也聊到的 50 年代 AI 热潮中的 “感知机”。 https://cdn.z.wiki/autoupload/20250505/WuW6/1582X774/39805253-2d01-4eb4-8aed-988f9ece9ec9.png 闵可锐是马老师在伊利诺伊大学任职时的博士研究生,后肄业创业。此前他获得了复旦计算机学士学位,和牛津大学数学硕士学位。 这期节目,我们完整聊了可锐的职业经历、秘塔创业故事、他在 2023 年年初对大模型格局的思考。而今天发的另一期节目,是最近秘塔发布新产品 “今天学点啥” 之后的访谈,我们从这个产品切入,聊了这两年的变化。 本期嘉宾: 闵可锐,秘塔科技创始人,@「AI 秘塔」公众号 ID:METASOTA2018 时间线跳转: 00:05 开场介绍 - 预训练的想法很重要,而非具体架构 02:20 秘塔的重心在应用;竞赛→复旦→牛津→伊利诺伊→第一次创业→猎豹→创立秘塔的简要回顾 05:48 2017 年前后的真正技术转折是:预训练想法的出现 12:36 2018 年,预训练到来后的创业选择:在特定领域做出价值→法律翻译 12:14 OpenAI 难以效法;ChatGPT 之前,行业没有技术秘密 14:41 GPT-3 刚出来时,参数规模大到短期内难以应用;没必要神话某一个架构 22:14 一些 idea 的引用次数很高,但不是真正天才的想法 25:25 Ilya 的成就:不是视觉背景的人做出了 NLP 突破,而是深度学习的不同领域在合流,AI 本身的泛化性在提升 - 创业两条路:大故事、很多钱 vs 服务好能服务的用户 27:17 Jasper 的贡献:找到一个机器贵、但人更贵的切入口 30:58 从法律翻译到秘塔写作猫,垂直领域到更泛 C 的转变如何发生 36:16 AI to C、to B,商业模式切身体验 40:42 “创业公司的差异化是什么?”—— 要 “做着瞧” 45:56 AI 应用是战国时代,是所有人和所有人的 PK 47:43 AI Native 应用的突破很可能在交互上 52:16 秘塔也在自己训练模型,应用为重心的情况下,怎么做模型? 01:01:28 开源模型的影响 - “坦白来讲,大模型热潮也不是什么好事” 01:08:02 AI 热潮对秘塔发展节奏的影响 01:11:15 中国投资机构会集体 miss 模型层投资;开源是另一股力量 01:16:13 中国有雄心更大的人,但还没有进入人们的视野 01:19:14 这次热潮对比 2016 年 AlphaGo 之后的 AI 热,有何不同? 01:24:11 秘塔当时的新融资推进:战投比较积极,财投很谨慎 01:27:19 两种 AI 研究机构:手作坊 vs 工业化 01:33:24 95% 的研发投入是浪费的,而且不知道浪费在哪儿;OpenAI 的成功经验是找到会花钱的少数研究者,让他们花很多钱 01:37:14 短期 vs 长期,当前应用 vs 追求 AGI——“你以为的平衡,实际上是平衡不了” 01:44:13 AI 热潮给算力成本带来的变化 01:51:27 市场存在大的资源错配 相关链接: 关于机器学习的前尘往事(闵可锐) (https://mp.weixin.qq.com/s/Gvx0mLzphhR7XIzX0JlhtQ) 晚点聊 110:与明势夏令聊 Agent 竞争:通用入口之战就要来,创业要做垂、做专 (https://www.xiaoyuzhoufm.com/episode/67fd8cafcc06f8ff48a73642) 晚点聊 107:与真格戴雨森长聊 Agent:各行业都会遭遇 “李世石时刻”,Attention is not all you need (https://www.xiaoyuzhoufm.com/episode/67cdb53f7ccfd410926b0c66) 附录 * BERT(Bidirectional Encoder Representations from Transformers):Google 于 2018 年提出的一种预训练语言模型,首次引入双向 Transformer 编码器来理解上下文,显著提升了多个自然语言处理(NLP)任务的表现。 T5(Text-to-Text Transfer Transformer):Google Research 2019 年提出,它将所有 NLP 任务统一建模为文本到文本的转换问题。 Vision Transformer (ViT):Google Research 2020 年提出,它是首个成功将纯 Transformer 架构应用于图像分类任务的模型,将图像分割为小块并视为序列输入 Transformer。 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴 Q (https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token = YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw - EfCtqmFTkCIM2o=&xsec_source = app_share & xhsshare = CopyLink & appuid = 5dfa9e92000000000100626f & apptime = 1736682459 & share_id = 331aecb9ca7941f498d81fb9c32ea810),即刻 @曼祺_火柴 Q (https://okjk.co/FBoH1Q) https://cdn.z.wiki/autoupload/20250129/p96l/1428X298/% E6%92% AD% E5% AE% A2-% E7% BB%93% E5% B0% BE% E4% BD%9C% E8%80%85% E7% AD% BE% E5%90%8D.png ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 https://tc.z.wiki/autoupload/f/vF9vElnh05iCqwr0xfm9iL4wP3sHaC7Y1psXYbgMe5eyl5f0KlZfm6UsKj-HyTuv/20250730/YNjr/907X339/WechatIMG1646.jpg 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: https://hv.z.wiki/autoupload/20250129/DqTi/1452X514/% E6%92% AD% E5% AE% A2% E7% BB%93% E5% B0% BE% E6%88% AA% E5%9B% BE.png

Highlights

本期《晚点聊》聚焦大模型热潮初期的行业洞察,嘉宾秘塔创始人闵可锐分享了对 AI 技术发展和创业路径的独特见解。从预训练模型的重要性到 Transformer 架构的实际意义,再到中国投资机构可能错过的潜在机会,节目深入探讨了 AI 领域的发展趋势与挑战。
00:05
中国 VC 可能错过有雄心的大模型创业者
03:21
波森数据与 Facebook 域名冲突,但仍取得成功
10:35
AGI 尚远,特定领域有逻辑规则的任务机器可完成
13:49
近期有工作用 RNN 达到接近 Transformer 的效果
21:44
长序列处理效率问题是 Transformer 应用的关键挑战
23:20
天才级算法能在准线性时间复杂度解决传统高复杂度问题
26:27
深度学习虽强大但需更高监管,因其不可解释性可能带来严重后果
29:12
使用 GPT 技术于每次搜索查询,年成本将超百亿
33:54
国外律所对中国软件 IC 审查变严,进入美国律所难度增加
37:21
AI 应解决当前无人解决好的场景问题
44:48
商业模式的关键在于提供难以复制的价值
45:56
个人开发者试错成本低,各方都在相互竞争
48:41
AI 并非从 0 到 1 的转变,而是从做不好到做得更好
56:42
算力有限也能取得成果,关键在于工程能力与成本控制
1:06:42
开源模型的核心在于代码、参数和权重,但复现效果还需依赖数据支持。
1:09:09
ChatGPT 两三个月内爆火,普及全民技术认知
1:12:11
中国投资更依赖大佬站台,而 OpenAI 靠一线工作者推动
1:18:12
AI 终局可能不在于行业内影响,而在于对其他行业造成破坏性变化
1:22:37
未来半年 AI 投入将持续增加,可能导致资源过剩
1:24:58
阿里参投可能带来较多干预,但可商谈
1:29:54
研究方向应注重创新或广泛应用的产品
1:34:16
OpenAI 核心人员多为 30 岁左右年轻创业者
1:43:57
国内大模型厂商或看到机会,在国内市场获利足够
1:46:17
即便拿到资金,也需分阶段投入以保证产品优化
1:53:46
预训练是重要范式转变,架构改动次之

Chapters

开场介绍
00:00
预训练的想法很重要,而非具体架构
02:20
秘塔的重心在应用;竞赛→复旦→牛津→伊利诺伊→第一次创业→猎豹→创立秘塔的简要回顾
05:48
2017 年前后的真正技术转折是: 预训练想法的出现
12:36
OpenAI 难以效法;ChatGPT 之前,行业没有技术秘密
14:41
GPT-3 刚出来时,参数规模大到短期内难以应用;没必要神话某一个架构
22:14
一些 idea 的引用次数很高,但不是真正天才的想法
25:25
Ilya 的成就: 不是视觉背景的人做出了 NLP 突破,而是深度学习的不同领域在合流,AI 本身的泛化性在提升
27:17
创业两条路: 大故事、很多钱 vs 服务好能服务的用户
30:58
Jasper 的贡献: 找到一个机器贵、但人更贵的切入口
36:16
从法律翻译到秘塔写作猫,垂直领域到更泛 C 的转变如何发生
40:42
AI to C、to B,商业模式切身体验
45:56
“创业公司的差异化是什么?”—— 要 “做着瞧”
47:43
AI 应用是战国时代,是所有人和所有人的 PK
52:16
AI Native 应用的突破很可能在交互上
1:01:28
开源模型的影响
1:08:02
AI 热潮对秘塔发展节奏的影响
1:11:15
中国投资机构会集体 miss 模型层投资;开源是另一股力量
1:16:13
中国有雄心更大的人,但还没有进入人们的视野
1:19:14
这次热潮对比 2016 年 AlphaGo 之后的 AI 热,有何不同?
1:24:11
秘塔当时的新融资推进: 战投比较积极,财投很谨慎
1:27:19
两种 AI 研究机构: 手作坊 vs 工业化
1:33:24
95% 的研发投入是浪费的,而且不知道浪费在哪儿;OpenAI 的成功经验是找到会花钱的少数研究者,让他们花很多钱
1:37:14
短期 vs 长期,当前应用 vs 追求 AGI——“你以为的平衡,实际上是平衡不了”
1:44:13
AI 热潮给算力成本带来的变化
1:51:27

Transcript

曼祺: 欢迎收听晚点聊,我是曼琪,今天我们一次发了两期节目,嘉宾都是秘塔创始人闵可锐。一次访谈发生在 2023 年年初,另一次是在最近,本期是 2023 年 3 月中旬的那一次访谈。那是中国大模型热潮的开端。王慧文刚自己投资 5000 万美元成立光年之外,月之暗面还在组建,六小龙的名号还没有兴起。DeepSeek 还没有正式成立。字节等大公司也没有充分展现,对 AI 的志在必得和激进投入。Mita 当时已经是一家,成立近五年的公司,推出了法律翻译,Mita 写字猫等多款 AI 应用。现在更为人熟知的 Mit...