EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门
The Alphaist
Feb 05
EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门
EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门

The Alphaist
Feb 05
Shownote
Shownote
1| THE ALPHAIST 播客栏目介绍 《The Alphaist》 是一档由 Alphaist Partners 打造的深度对话栏目。 我们关注技术与创业的第一性原理,聚焦那些正在改变世界的早期创始人、工程师与产品探索者。 每期节目,我们会围绕一个具体的科技创业方向展开深度对话。在这里,我们不追热点、不讲空洞概念,而是用最真实的一线经验去回答创业者最关心的问题:什么值得做?为什么是现在?我们应该怎样做? The Alphaist 相信:时代真正的机会,往往藏在那些不喧嚣、但正在被新技术、新需求...
Highlights
Highlights
本期《The Alphaist》深度对话 Fish Audio 联合创始人 Rissa 与冷月,聚焦 AI 语音技术的前沿突破与创业实践。在语音正成为人机交互新入口的背景下,两位创始人分享了如何以技术信仰与产品直觉,在巨头环伺中开辟独特路径。
Chapters
Chapters
语音智能体:让声音拥有灵魂
00:00公司与产品
一句话定位:全球第二大 AI 语音生成平台,提供多语言 TTS 和高精度声音克隆
02:19⭐ 核心数据:12 个月 13 倍增长,10M ARR,350 万用户,月活超 100 万,1.1M 公开声音模型
02:55S1 模型:世界上第一个支持自然语言控制情感的 TTS 模型,S2 即将完全开源
03:46客户画像:Prosumer 创作者 + API 企业用户(占 40% 收入),涵盖 AI 陪伴、游戏 NPC、内容平台、实时客服
04:20技术路线与护城河
创业动机:市面上的 TTS 都不够自然,尤其句子长了之后变得单调
06:45护城河判断:复杂情感控制的数据集构建极难,不会被多模态大模型轻易吸收
09:00合成数据有毒:Low hanging fruit 会影响模型的表现能力和上限
10:08⭐ 算力真相:大公司万卡集群,但语音组往往只有几百卡,Fish Audio 已进入第一梯队
12:27数据与训练
数据稀缺:高自然度、多音轨、情感丰富的语音数据在互联网上极其稀缺
13:33投入规模:Q1Q2 数据投入将达百万美金级别
15:42踩坑经验:用原始分布训练导致播客能力强但动漫配音差,数据分布极其重要
15:56⭐ 反直觉洞见:高噪音数据往往是高表现力数据,人吵架时声音最有表现力
19:00架构与延迟
三代架构:从古典 StyleTTS 到 Torus 架构,再到端到端语义 + 声学建模
19:48⭐ 端到端信仰:每个模块都在引入复杂性,限制模型能力和上限
22:31延迟突破:端到端架构有望把延迟降到 30-50 毫秒
23:08100 毫秒目标:通过模块融合,用户停止说话到模型开口可压缩到 100 毫秒以内
26:21S2 模型与市场定位
S2 升级:更精细控制、多说话人、更低延迟,完全重构数据管线
27:47模型矩阵:不同场景匹配不同模型,S2 Flash 针对低延迟客服场景,S2 Pro 针对高表现力场景
31:44AI Voice 1.0→2.0:从企业配音到情感交互,Fish Audio 瞄准未来世界 500 强
33:33⭐ 差异化定位:更有趣的声音,更有灵魂的声音,服务快速发展的 AI native apps
33:45增长飞轮
PLG 起源:从开源社区到创作者平台,团队 DNA 决定了 bottom-up 路径
34:36Slack 式增长:开源用户觉得好用,介绍给公司签 enterprise contract
36:12UGC 激励:创作者的声音被使用,可获得 30% 的付费 Token 分成
37:49⭐ 飞轮案例:阿拉伯王子去世引发克隆潮,带动阿拉伯语模型性能爆发
38:20开源与商业化
多重护城河:UGC 音色、RLHF 后训练、高效架构、开源分发形成闭环
39:55开源 DNA:团队源自开源社区,擅长用开源获取流量
41:05⭐ 金句:开发者不相信 Demo,只相信代码,开源是分发护城河而非商业化链路
41:36商业化边界:开源让你能用能测,闭源模型才能让你规模化上线赚钱
42:12产品深度与未来规划
Fish Studio:服务专业内容创作者,多轨编辑、精细情感控制、Lip Sync
43:16产品驱动研发:用户需求驱动模型能力迭代,word-level timestamp、视频配音等
46:23全球化战略:日韩市场独特机会,多语种支持是战略重点
47:5818 个月目标:50-100M ARR,多模态平台,年底模型能力超越 99% 配音演员
51:25创始人故事
Rissa 加入:从 Growth Advisor 到全职 CEO,命运的驱使
52:56冷月创业历程:从英伟达离职,开源社区起步,引入 Rissa 完成分工
56:34⭐ 危机与成长:股权结构问题、老股东 Block 融资,两个月完成公司重组
59:01合伙人关系:手牵手、背靠背,危机中建立信任和默契
1:00:48团队与文化
选合伙人:技能互补、看 Track Record、健康的 Vesting Schedule
1:03:06人才吸引力:Hidden Gem、Entrepreneur 型人才、给足 Ownership 和 Upside
1:04:27技术人才招募:开源社区深耕,Work Trial 筛选,给足计算资源和方向自由度
1:06:24⭐ 长期愿景:让 Fish Audio 成为每个普通人的内容创作工具,一步步走向 AGI
1:09:22Transcript
Transcript
冷月: 我一直相信语音会是人类与 AI 交互的一个非常重要的入口,就像是图像模型一样。如果我们要去进一步的让语音模型变得更自然,我们要做什么?它一定得是一个大模型,一定得是一个自回归架构的模型,那你给你得是一个尽量建模尽可能多信息,比如说语音信息,声学信息。一大堆的,一个 noise 的数据往往是更有高表现力的数据,你想人小的时候的这个表现力和情绪是最丰富的。往往是他在这个,两个人在吵架,或者在争论,或者在很高兴地,讨论什么事情的时候。这种时候两个人的声音,往往会有一些重叠在一起,和各种各样的部分。
Spe...

Open in 小宇宙