scripod.com

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

Overview

Shownote

Highlights

Transcript

Chapters

Pins

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

The Alphaist

Feb 05

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

EP05 AI Voice 2.0：Fish Audio 如何叩开情感智能交互的大门

The Alphaist

The Alphaist

Feb 05

Overview Shownote Highlights Transcript Chapters Pins

Shownote

1｜ THE ALPHAIST 播客栏目介绍《The Alphaist》是一档由 Alphaist Partners 打造的深度对话栏目。我们关注技术与创业的第一性原理，聚焦那些正在改变世界的早期创始人、工程师与产品探索者。每期节目，我们会围绕一个具体的科技创业方向展开深度对话。在这里，我们不追热点、不讲空洞概念，而是用最真实的一线经验去回答创业者最关心的问题：什么值得做？为什么是现在？我们应该怎样做？ The Alphaist 相信：时代真正的机会，往往藏在那些不喧嚣、但正在被新技术、新需求...

Highlights

本期《The Alphaist》深度对话 Fish Audio 联合创始人 Rissa 与冷月，聚焦 AI 语音技术的前沿突破与创业实践。在语音正成为人机交互新入口的背景下，两位创始人分享了如何以技术信仰与产品直觉，在巨头环伺中开辟独特路径。

00:03

语音是人类与 AI 交互的重要入口，要让语音模型更自然需是大模型和自回归架构

02:26

Fish Audio 提供多语言 TTS 和高精度声音克隆，被各类创作者使用以提高音频创作效率和实现内容商业化

02:55

Fish Audio 推出世界首个支持自然语言控制情感的 TTS 模型 S1

03:46

下一代 S2 模型预计完全开源

06:14

Fish Audio 是 AI Voice 领域增长最快的公司

06:45

为让语音更自然，需大的自回归架构模型建模多信息

09:00

互联网上缺乏复杂标注的文本和语音对，这构成了垂直音频模型的护城河

12:00

要让语音更可控、具备 voice agent 能力和更好思考能力，需 30B–110B 参数及 MOE 架构

12:27

S3 模型训练和推理资源与 6B 大语言模型相当，多数大公司语音组计算资源有限，己方已处第一梯队

15:26

获取高质量音频素材的数据投入可能达百万美元量级

15:42

预计今年 Q3Q4 在数据上投入达百万美金，需对不同文字和语种进行采集

18:03

高噪音数据往往更具高表现力，创业公司通过迭代模型专门处理此类数据

19:14

传统数据情绪管理常扔掉争吵、争论等高表现力语音，Fish Audio 坚持保留原汁原味、符合原始分布的数据

21:33

近期将发布或开源去掉 Vocal 模块、可端到端建模的新模型

22:31

以往语音处理各模块增加了模型的结构和复杂性，限制了计算效率、能力和上线

24:40

若将语音编码器接入语言模型，由 LM 判断是否完成 EOS，再将答案文本输入 TTS，延迟可能低至 300–500 毫秒

26:21

S2 音频模型实现更精细化的控制

29:47

TTS 模型对副语言处理表现不佳，因此构建自己的 ASR 模型来解决

31:44

S2 Flash 模型专为实时语音客服中心设计，强调低延迟与高稳定性

33:33

AI 当前主要面向传统行业的世界 500 强企业

33:49

公司约 60% 收入来自 C 端或专业消费者创业者

34:36

B2B API 增长源于开源社区工程师和开发者的自发采用，呈现自下而上的扩散模式

36:12

平台设有激励机制鼓励用户生成更多声音模型

37:59

其他用户使用创作者声音时，创作者可获得消耗 Token 的 30% 作为 credit 返还

38:20

阿拉伯语模型因阿拉伯王子去世引发的克隆潮而突破，企业用户认为其达 SOTA 水平

40:00

UGC 音色、RLHF、架构高效三方面提升模型表现力，形成闭环效应

41:05

开源并非商业化途径

41:39

开发者只相信可实际运行、测试和对比的代码

42:12

开源让用户感知模型差异，B 端商业化模型助用户规模化上线、在产品上开发盈利

45:30

播客创作者呼吁专用 AI 工具，Prosumer 平台有望提升效率与创造力

46:23

Fish Audio 是面向多语言市场的语音公司

48:04

Fish Audio 在阿拉伯语和非美音英语语音合成中表现有爆发

51:25

Fish Audio 年底目标是让模型能力超越 19% 配音演员

52:56

AI 图像领域技术突破已达瓶颈，而语音正处 AIOS 2.0 技术窗口爆发期

58:25

冷月专注模型和研究、产品，Rissa 专注战略、组织、投资人与企业客户

59:01

Rissa 展现出强大能力，冷月始终与对方站在一起，面对困难不放弃

1:02:39

目前投资人以 safe（ycstandard）形式投资，无 side letter，这对早期团队很重要，能让团队保持干净，创业者融资和做产品时无需担忧

1:03:06

选合伙人要考察是否给前合伙人分股份、有无合理的股权归属计划

1:04:27

初创公司是找战友打仗的地方，要在合适位置放合适的人以实现共赢

1:06:24

招聘时优先拉开源工作者和研究员入队，给足计算资源和资金，让他们在感兴趣方向尝试一个月，筛选出真正有能力和兴趣的人

1:09:22

先打造优质内容创作平台，让普通人成为资深内容创作者，再逐步走向 AGI，辅助有想象力的人创作并传播作品

Chapters

语音智能体：让声音拥有灵魂

00:00

公司与产品

一句话定位：全球第二大 AI 语音生成平台，提供多语言 TTS 和高精度声音克隆

02:19

⭐ 核心数据：12 个月 13 倍增长，10M ARR，350 万用户，月活超 100 万，1.1M 公开声音模型

02:55

S1 模型：世界上第一个支持自然语言控制情感的 TTS 模型，S2 即将完全开源

03:46

客户画像：Prosumer 创作者 + API 企业用户（占 40% 收入），涵盖 AI 陪伴、游戏 NPC、内容平台、实时客服

04:20

技术路线与护城河

创业动机：市面上的 TTS 都不够自然，尤其句子长了之后变得单调

06:45

护城河判断：复杂情感控制的数据集构建极难，不会被多模态大模型轻易吸收

09:00

合成数据有毒：Low hanging fruit 会影响模型的表现能力和上限

10:08

⭐ 算力真相：大公司万卡集群，但语音组往往只有几百卡，Fish Audio 已进入第一梯队

12:27

数据与训练

数据稀缺：高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺

13:33

投入规模：Q1Q2 数据投入将达百万美金级别

15:42

踩坑经验：用原始分布训练导致播客能力强但动漫配音差，数据分布极其重要

15:56

⭐ 反直觉洞见：高噪音数据往往是高表现力数据，人吵架时声音最有表现力

19:00

架构与延迟

三代架构：从古典 StyleTTS 到 Torus 架构，再到端到端语义 + 声学建模

19:48

⭐ 端到端信仰：每个模块都在引入复杂性，限制模型能力和上限

22:31

延迟突破：端到端架构有望把延迟降到 30-50 毫秒

23:08

100 毫秒目标：通过模块融合，用户停止说话到模型开口可压缩到 100 毫秒以内

26:21

S2 模型与市场定位

S2 升级：更精细控制、多说话人、更低延迟，完全重构数据管线

27:47

模型矩阵：不同场景匹配不同模型，S2 Flash 针对低延迟客服场景，S2 Pro 针对高表现力场景

31:44

AI Voice 1.0→2.0：从企业配音到情感交互，Fish Audio 瞄准未来世界 500 强

33:33

⭐ 差异化定位：更有趣的声音，更有灵魂的声音，服务快速发展的 AI native apps

33:45

增长飞轮

PLG 起源：从开源社区到创作者平台，团队 DNA 决定了 bottom-up 路径

34:36

Slack 式增长：开源用户觉得好用，介绍给公司签 enterprise contract

36:12

UGC 激励：创作者的声音被使用，可获得 30% 的付费 Token 分成

37:49

⭐ 飞轮案例：阿拉伯王子去世引发克隆潮，带动阿拉伯语模型性能爆发

38:20

开源与商业化

多重护城河：UGC 音色、RLHF 后训练、高效架构、开源分发形成闭环

39:55

开源 DNA：团队源自开源社区，擅长用开源获取流量

41:05

⭐ 金句：开发者不相信 Demo，只相信代码，开源是分发护城河而非商业化链路

41:36

商业化边界：开源让你能用能测，闭源模型才能让你规模化上线赚钱

42:12

产品深度与未来规划

Fish Studio：服务专业内容创作者，多轨编辑、精细情感控制、Lip Sync

43:16

产品驱动研发：用户需求驱动模型能力迭代，word-level timestamp、视频配音等

46:23

全球化战略：日韩市场独特机会，多语种支持是战略重点

47:58

18 个月目标：50-100M ARR，多模态平台，年底模型能力超越 99% 配音演员

51:25

创始人故事

Rissa 加入：从 Growth Advisor 到全职 CEO，命运的驱使

52:56

冷月创业历程：从英伟达离职，开源社区起步，引入 Rissa 完成分工

56:34

⭐ 危机与成长：股权结构问题、老股东 Block 融资，两个月完成公司重组

59:01

合伙人关系：手牵手、背靠背，危机中建立信任和默契

1:00:48

团队与文化

选合伙人：技能互补、看 Track Record、健康的 Vesting Schedule

1:03:06

人才吸引力：Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside

1:04:27

技术人才招募：开源社区深耕，Work Trial 筛选，给足计算资源和方向自由度

1:06:24

⭐ 长期愿景：让 Fish Audio 成为每个普通人的内容创作工具，一步步走向 AGI

1:09:22

Transcript

冷月: 我一直相信语音会是人类与 AI 交互的一个非常重要的入口，就像是图像模型一样。如果我们要去进一步的让语音模型变得更自然，我们要做什么？它一定得是一个大模型，一定得是一个自回归架构的模型，那你给你得是一个尽量建模尽可能多信息，比如说语音信息，声学信息。一大堆的，一个 noise 的数据往往是更有高表现力的数据，你想人小的时候的这个表现力和情绪是最丰富的。往往是他在这个，两个人在吵架，或者在争论，或者在很高兴地，讨论什么事情的时候。这种时候两个人的声音，往往会有一些重叠在一起，和各种各样的部分。 Spe...

小宇宙

Open in 小宇宙