scripod.com

EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门

The Alphaist

Shownote

1| THE ALPHAIST 播客栏目介绍 《The Alphaist》 是一档由 Alphaist Partners 打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。 每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做? The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求...

Highlights

本期《The Alphaist》深度对话 Fish Audio 联合创始人 Rissa 与冷月,聚焦 AI 语音技术的前沿突破与创业实践。在语音正成为人机交互新入口的背景下,两位创始人分享了如何以技术信仰与产品直觉,在巨头环伺中开辟独特路径。
00:03
语音是人类与 AI 交互的重要入口,要让语音模型更自然需是大模型和自回归架构
02:26
Fish Audio 提供多语言 TTS 和高精度声音克隆,被各类创作者使用以提高音频创作效率和实现内容商业化
02:55
Fish Audio 推出世界首个支持自然语言控制情感的 TTS 模型 S1
03:46
下一代 S2 模型预计完全开源
06:14
Fish Audio 是 AI Voice 领域增长最快的公司
06:45
为让语音更自然,需大的自回归架构模型建模多信息
09:00
互联网上缺乏复杂标注的文本和语音对,这构成了垂直音频模型的护城河
12:00
要让语音更可控、具备 voice agent 能力和更好思考能力,需 30B–110B 参数及 MOE 架构
12:27
S3 模型训练和推理资源与 6B 大语言模型相当,多数大公司语音组计算资源有限,己方已处第一梯队
15:26
获取高质量音频素材的数据投入可能达百万美元量级
15:42
预计今年 Q3Q4 在数据上投入达百万美金,需对不同文字和语种进行采集
18:03
高噪音数据往往更具高表现力,创业公司通过迭代模型专门处理此类数据
19:14
传统数据情绪管理常扔掉争吵、争论等高表现力语音,Fish Audio 坚持保留原汁原味、符合原始分布的数据
21:33
近期将发布或开源去掉 Vocal 模块、可端到端建模的新模型
22:31
以往语音处理各模块增加了模型的结构和复杂性,限制了计算效率、能力和上线
24:40
若将语音编码器接入语言模型,由 LM 判断是否完成 EOS,再将答案文本输入 TTS,延迟可能低至 300–500 毫秒
26:21
S2 音频模型实现更精细化的控制
29:47
TTS 模型对副语言处理表现不佳,因此构建自己的 ASR 模型来解决
31:44
S2 Flash 模型专为实时语音客服中心设计,强调低延迟与高稳定性
33:33
AI 当前主要面向传统行业的世界 500 强企业
33:49
公司约 60% 收入来自 C 端或专业消费者创业者
34:36
B2B API 增长源于开源社区工程师和开发者的自发采用,呈现自下而上的扩散模式
36:12
平台设有激励机制鼓励用户生成更多声音模型
37:59
其他用户使用创作者声音时,创作者可获得消耗 Token 的 30% 作为 credit 返还
38:20
阿拉伯语模型因阿拉伯王子去世引发的克隆潮而突破,企业用户认为其达 SOTA 水平
40:00
UGC 音色、RLHF、架构高效三方面提升模型表现力,形成闭环效应
41:05
开源并非商业化途径
41:39
开发者只相信可实际运行、测试和对比的代码
42:12
开源让用户感知模型差异,B 端商业化模型助用户规模化上线、在产品上开发盈利
45:30
播客创作者呼吁专用 AI 工具,Prosumer 平台有望提升效率与创造力
46:23
Fish Audio 是面向多语言市场的语音公司
48:04
Fish Audio 在阿拉伯语和非美音英语语音合成中表现有爆发
51:25
Fish Audio 年底目标是让模型能力超越 19% 配音演员
52:56
AI 图像领域技术突破已达瓶颈,而语音正处 AIOS 2.0 技术窗口爆发期
58:25
冷月专注模型和研究、产品,Rissa 专注战略、组织、投资人与企业客户
59:01
Rissa 展现出强大能力,冷月始终与对方站在一起,面对困难不放弃
1:02:39
目前投资人以 safe(ycstandard)形式投资,无 side letter,这对早期团队很重要,能让团队保持干净,创业者融资和做产品时无需担忧
1:03:06
选合伙人要考察是否给前合伙人分股份、有无合理的股权归属计划
1:04:27
初创公司是找战友打仗的地方,要在合适位置放合适的人以实现共赢
1:06:24
招聘时优先拉开源工作者和研究员入队,给足计算资源和资金,让他们在感兴趣方向尝试一个月,筛选出真正有能力和兴趣的人
1:09:22
先打造优质内容创作平台,让普通人成为资深内容创作者,再逐步走向 AGI,辅助有想象力的人创作并传播作品

Chapters

语音智能体:让声音拥有灵魂
00:00
公司与产品
一句话定位:全球第二大 AI 语音生成平台,提供多语言 TTS 和高精度声音克隆
02:19
⭐ 核心数据:12 个月 13 倍增长,10M ARR,350 万用户,月活超 100 万,1.1M 公开声音模型
02:55
S1 模型:世界上第一个支持自然语言控制情感的 TTS 模型,S2 即将完全开源
03:46
客户画像:Prosumer 创作者 + API 企业用户(占 40% 收入),涵盖 AI 陪伴、游戏 NPC、内容平台、实时客服
04:20
技术路线与护城河
创业动机:市面上的 TTS 都不够自然,尤其句子长了之后变得单调
06:45
护城河判断:复杂情感控制的数据集构建极难,不会被多模态大模型轻易吸收
09:00
合成数据有毒:Low hanging fruit 会影响模型的表现能力和上限
10:08
⭐ 算力真相:大公司万卡集群,但语音组往往只有几百卡,Fish Audio 已进入第一梯队
12:27
数据与训练
数据稀缺:高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺
13:33
投入规模:Q1Q2 数据投入将达百万美金级别
15:42
踩坑经验:用原始分布训练导致播客能力强但动漫配音差,数据分布极其重要
15:56
⭐ 反直觉洞见:高噪音数据往往是高表现力数据,人吵架时声音最有表现力
19:00
架构与延迟
三代架构:从古典 StyleTTS 到 Torus 架构,再到端到端语义 + 声学建模
19:48
⭐ 端到端信仰:每个模块都在引入复杂性,限制模型能力和上限
22:31
延迟突破:端到端架构有望把延迟降到 30-50 毫秒
23:08
100 毫秒目标:通过模块融合,用户停止说话到模型开口可压缩到 100 毫秒以内
26:21
S2 模型与市场定位
S2 升级:更精细控制、多说话人、更低延迟,完全重构数据管线
27:47
模型矩阵:不同场景匹配不同模型,S2 Flash 针对低延迟客服场景,S2 Pro 针对高表现力场景
31:44
AI Voice 1.0→2.0:从企业配音到情感交互,Fish Audio 瞄准未来世界 500 强
33:33
⭐ 差异化定位:更有趣的声音,更有灵魂的声音,服务快速发展的 AI native apps
33:45
增长飞轮
PLG 起源:从开源社区到创作者平台,团队 DNA 决定了 bottom-up 路径
34:36
Slack 式增长:开源用户觉得好用,介绍给公司签 enterprise contract
36:12
UGC 激励:创作者的声音被使用,可获得 30% 的付费 Token 分成
37:49
⭐ 飞轮案例:阿拉伯王子去世引发克隆潮,带动阿拉伯语模型性能爆发
38:20
开源与商业化
多重护城河:UGC 音色、RLHF 后训练、高效架构、开源分发形成闭环
39:55
开源 DNA:团队源自开源社区,擅长用开源获取流量
41:05
⭐ 金句:开发者不相信 Demo,只相信代码,开源是分发护城河而非商业化链路
41:36
商业化边界:开源让你能用能测,闭源模型才能让你规模化上线赚钱
42:12
产品深度与未来规划
Fish Studio:服务专业内容创作者,多轨编辑、精细情感控制、Lip Sync
43:16
产品驱动研发:用户需求驱动模型能力迭代,word-level timestamp、视频配音等
46:23
全球化战略:日韩市场独特机会,多语种支持是战略重点
47:58
18 个月目标:50-100M ARR,多模态平台,年底模型能力超越 99% 配音演员
51:25
创始人故事
Rissa 加入:从 Growth Advisor 到全职 CEO,命运的驱使
52:56
冷月创业历程:从英伟达离职,开源社区起步,引入 Rissa 完成分工
56:34
⭐ 危机与成长:股权结构问题、老股东 Block 融资,两个月完成公司重组
59:01
合伙人关系:手牵手、背靠背,危机中建立信任和默契
1:00:48
团队与文化
选合伙人:技能互补、看 Track Record、健康的 Vesting Schedule
1:03:06
人才吸引力:Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside
1:04:27
技术人才招募:开源社区深耕,Work Trial 筛选,给足计算资源和方向自由度
1:06:24
⭐ 长期愿景:让 Fish Audio 成为每个普通人的内容创作工具,一步步走向 AGI
1:09:22

Transcript

冷月: 我一直相信语音会是人类与 AI 交互的一个非常重要的入口,就像是图像模型一样。如果我们要去进一步的让语音模型变得更自然,我们要做什么?它一定得是一个大模型,一定得是一个自回归架构的模型,那你给你得是一个尽量建模尽可能多信息,比如说语音信息,声学信息。一大堆的,一个 noise 的数据往往是更有高表现力的数据,你想人小的时候的这个表现力和情绪是最丰富的。往往是他在这个,两个人在吵架,或者在争论,或者在很高兴地,讨论什么事情的时候。这种时候两个人的声音,往往会有一些重叠在一起,和各种各样的部分。 Spe...
小宇宙
Open in 小宇宙