EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门
The Alphaist
Feb 05
EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门
EP05 AI Voice 2.0:Fish Audio 如何叩开情感智能交互的大门

The Alphaist
Feb 05
本期《The Alphaist》深度对话 Fish Audio 联合创始人 Rissa 与冷月,聚焦 AI 语音技术的前沿突破与创业实践。在语音正成为人机交互新入口的背景下,两位创始人分享了如何以技术信仰与产品直觉,在巨头环伺中开辟独特路径。
Fish Audio 以 “有灵魂的声音” 为差异化定位,一年内实现 13 倍增长、1000 万美元 ARR,成长为全球第二大 AI 语音平台。其核心壁垒在于:构建高表现力情感语音数据集(提出 “高噪音即高表现力” 的反直觉洞见)、自研端到端低延迟架构(目标 100 毫秒内响应)、以及开源驱动的 PLG 飞轮 —— 开发者信任代码而非 Demo,UGC 音色 + RLHF + 高效模型形成闭环。公司避开传统配音红海,深耕游戏、AI 陪伴、虚拟主播等高情感需求场景,S2 模型矩阵按场景分层(Flash 低延迟 / Pro 高表现力),并以全球化多语种(阿拉伯语、日韩语)为战略重点。团队由 00 后科学家与连续创业者互补搭档,经历股权危机后建立高度信任,坚持用开源分发筑护城河、闭源模型实现商业化,最终愿景是让每个普通人都能用 AI 创作有温度的内容,稳步迈向 AGI 辅助创作时代。
00:03
00:03
语音是人类与 AI 交互的重要入口,要让语音模型更自然需是大模型和自回归架构
02:26
02:26
Fish Audio 提供多语言 TTS 和高精度声音克隆,被各类创作者使用以提高音频创作效率和实现内容商业化
02:55
02:55
Fish Audio 推出世界首个支持自然语言控制情感的 TTS 模型 S1
03:46
03:46
下一代 S2 模型预计完全开源
06:14
06:14
Fish Audio 是 AI Voice 领域增长最快的公司
06:45
06:45
为让语音更自然,需大的自回归架构模型建模多信息
09:00
09:00
互联网上缺乏复杂标注的文本和语音对,这构成了垂直音频模型的护城河
12:00
12:00
要让语音更可控、具备 voice agent 能力和更好思考能力,需 30B–110B 参数及 MOE 架构
12:27
12:27
S3 模型训练和推理资源与 6B 大语言模型相当,多数大公司语音组计算资源有限,己方已处第一梯队
15:26
15:26
获取高质量音频素材的数据投入可能达百万美元量级
15:42
15:42
预计今年 Q3Q4 在数据上投入达百万美金,需对不同文字和语种进行采集
18:03
18:03
高噪音数据往往更具高表现力,创业公司通过迭代模型专门处理此类数据
19:14
19:14
传统数据情绪管理常扔掉争吵、争论等高表现力语音,Fish Audio 坚持保留原汁原味、符合原始分布的数据
21:33
21:33
近期将发布或开源去掉 Vocal 模块、可端到端建模的新模型
22:31
22:31
以往语音处理各模块增加了模型的结构和复杂性,限制了计算效率、能力和上线
24:40
24:40
若将语音编码器接入语言模型,由 LM 判断是否完成 EOS,再将答案文本输入 TTS,延迟可能低至 300–500 毫秒
26:21
26:21
S2 音频模型实现更精细化的控制
29:47
29:47
TTS 模型对副语言处理表现不佳,因此构建自己的 ASR 模型来解决
31:44
31:44
S2 Flash 模型专为实时语音客服中心设计,强调低延迟与高稳定性
33:33
33:33
AI 当前主要面向传统行业的世界 500 强企业
33:49
33:49
公司约 60% 收入来自 C 端或专业消费者创业者
34:36
34:36
B2B API 增长源于开源社区工程师和开发者的自发采用,呈现自下而上的扩散模式
36:12
36:12
平台设有激励机制鼓励用户生成更多声音模型
37:59
37:59
其他用户使用创作者声音时,创作者可获得消耗 Token 的 30% 作为 credit 返还
38:20
38:20
阿拉伯语模型因阿拉伯王子去世引发的克隆潮而突破,企业用户认为其达 SOTA 水平
40:00
40:00
UGC 音色、RLHF、架构高效三方面提升模型表现力,形成闭环效应
41:05
41:05
开源并非商业化途径
41:39
41:39
开发者只相信可实际运行、测试和对比的代码
42:12
42:12
开源让用户感知模型差异,B 端商业化模型助用户规模化上线、在产品上开发盈利
45:30
45:30
播客创作者呼吁专用 AI 工具,Prosumer 平台有望提升效率与创造力
46:23
46:23
Fish Audio 是面向多语言市场的语音公司
48:04
48:04
Fish Audio 在阿拉伯语和非美音英语语音合成中表现有爆发
51:25
51:25
Fish Audio 年底目标是让模型能力超越 19% 配音演员
52:56
52:56
AI 图像领域技术突破已达瓶颈,而语音正处 AIOS 2.0 技术窗口爆发期
58:25
58:25
冷月专注模型和研究、产品,Rissa 专注战略、组织、投资人与企业客户
59:01
59:01
Rissa 展现出强大能力,冷月始终与对方站在一起,面对困难不放弃
1:02:39
1:02:39
目前投资人以 safe(ycstandard)形式投资,无 side letter,这对早期团队很重要,能让团队保持干净,创业者融资和做产品时无需担忧
1:03:06
1:03:06
选合伙人要考察是否给前合伙人分股份、有无合理的股权归属计划
1:04:27
1:04:27
初创公司是找战友打仗的地方,要在合适位置放合适的人以实现共赢
1:06:24
1:06:24
招聘时优先拉开源工作者和研究员入队,给足计算资源和资金,让他们在感兴趣方向尝试一个月,筛选出真正有能力和兴趣的人
1:09:22
1:09:22
先打造优质内容创作平台,让普通人成为资深内容创作者,再逐步走向 AGI,辅助有想象力的人创作并传播作品